日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

爬蟲是什么


爬蟲是什么


網(wǎng)絡(luò)爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人,在FOAF社區(qū)中 , 更經(jīng)常的稱為網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本 , 它們被廣泛用于互聯(lián)網(wǎng)搜索引擎或其他類似網(wǎng)站,可以自動采集所有其能夠訪問到的頁面內(nèi)容,以獲取或更新這些網(wǎng)站的內(nèi)容和檢索方式 。從功能上來講,爬蟲一般分為數(shù)據(jù)采集 , 處理 , 儲存三個部分 。
Web網(wǎng)絡(luò)爬蟲系統(tǒng)的功能是下載網(wǎng)頁數(shù)據(jù),為搜索引擎系統(tǒng)提供數(shù)據(jù)來源,很多大型的網(wǎng)絡(luò)搜索引擎系統(tǒng)都是基于Web數(shù)據(jù)采集的搜索引擎系統(tǒng),由此可見Web網(wǎng)絡(luò)爬蟲在搜索引擎中的重要性 。
【爬蟲是什么】在網(wǎng)絡(luò)爬蟲的系統(tǒng)框架中,主過程由控制器、解析器、資源庫三部分組成 ??刂破鞯闹饕ぷ魇秦撠熃o多線程中各個爬蟲線程分配工作任務(wù);解析器的主要工作是下載網(wǎng)頁,進行網(wǎng)頁的處理 , 處理的內(nèi)容包括JS腳本標簽、CSS代碼內(nèi)容、空格字符、HTML標簽等內(nèi)容 。資源庫是用來存放下載到的網(wǎng)頁資源,一般會采用大型的數(shù)據(jù)庫存儲,并對其建立索引 。

    推薦閱讀