日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

手機爬蟲app推薦 圖片爬蟲app最新版( 三 )


這個操作原理和八爪魚也差不多,詳細(xì)的步驟可以看一下官方的文檔,我就不展示了
WebScraper網(wǎng)址:https://webscraper.io/
WebScraper 是一款優(yōu)秀國外的瀏覽器插件 。同樣也是一款適合新手抓取數(shù)據(jù)的可視化工具 。我們通過簡單設(shè)置一些抓取規(guī)則,剩下的就交給瀏覽器去工作 。
安裝和使用步驟:
Web scraper是google瀏覽器的拓展插件,它的安裝和其他插件的安裝是一樣的 。

手機爬蟲app推薦 圖片爬蟲app最新版


(1)啟動插件,根據(jù)提示使用快捷鍵打開插件 。實際是在開發(fā)者工具中添加了一個tab(開發(fā)者工具的位置必須設(shè)置在底部才會顯示)

手機爬蟲app推薦 圖片爬蟲app最新版



手機爬蟲app推薦 圖片爬蟲app最新版


(2) 創(chuàng)建爬取任務(wù)
  • 點擊Create New Sitemap——Create Sitemap
  • 輸入Sitemap name:爬取任務(wù)名稱
  • 輸入start url:爬取的初始頁面,這里為https://movie.douban.com/chart
  • 點擊create sitemap完成創(chuàng)建

手機爬蟲app推薦 圖片爬蟲app最新版


(3) 創(chuàng)建選擇器
創(chuàng)建sitemap后進入選擇器創(chuàng)建界面,點擊Add Selector
Selector:選擇器,一個選擇器對應(yīng)網(wǎng)頁上的一部分區(qū)域,也就是包含我們要收集的數(shù)據(jù)的部分
一個 sitemap 下可以有多個 selector,每個 selector 有可以包含子 selector,一個 selector 可以只對應(yīng)一個標(biāo)題,也可以對應(yīng)一整個區(qū)域,此區(qū)域可能包含標(biāo)題、副標(biāo)題、作者信息、內(nèi)容等等信息 。

手機爬蟲app推薦 圖片爬蟲app最新版


selector設(shè)置,參數(shù)設(shè)置完成后點擊save selector
  • id為selector名稱,自行設(shè)定(小寫英文)
  • 爬取排行榜中的電影名稱,因此type選text
  • selector:點擊select,依次點擊前兩部電影的標(biāo)題,可以看到后續(xù)全部標(biāo)題已被自動選中,點擊Done Selecting結(jié)束選擇
  • 采集多條數(shù)據(jù)時勾選multiple
  • Regex為正交表達(dá)式設(shè)置,用于對選取文本的過濾,此處不設(shè)置
  • Delay (ms)為每次爬取之間的延遲時間

手機爬蟲app推薦 圖片爬蟲app最新版


(4)爬取數(shù)據(jù)
點擊sitemap douban——Scrape

手機爬蟲app推薦 圖片爬蟲app最新版


分別設(shè)置請求延時(避免過于頻繁被封)與頁面載入延時(避免網(wǎng)頁載入不全)后點擊Start Scraping,彈出新頁面開始爬取

手機爬蟲app推薦 圖片爬蟲app最新版


爬取結(jié)束后彈窗自動關(guān)閉,點擊refresh按鈕,即可看到爬取的數(shù)據(jù),然后點擊sitemap douban——Export Data to CSV導(dǎo)出數(shù)據(jù)

手機爬蟲app推薦 圖片爬蟲app最新版


Scrapinghub地址:https://scrapinghub.com/
如果你想抓取國外的網(wǎng)站數(shù)據(jù),可以考慮 Scrapinghub 。它是一個基于Python 的 Scrapy 框架的云爬蟲平臺,安裝和部署挺簡單的,但是操作界面是純英文的,不太友好,而且性價比不高,它提供的每個工具都是單獨收費的 。

推薦閱讀