不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集_網站推廣教程

      編輯Tag賺U幣
      教程Tag:暫無Tag,歡迎添加,賺取U幣!

      推薦:婚紗攝影行業網絡營銷推廣方案
      婚紗攝影行業做網絡營銷相對來說就比較常見了,現在也有許多商家都在投入這一塊。那婚紗攝影行業網絡營銷應該怎么做才會有效果呢?婚紗攝影行業網絡推廣方法又有哪些呢?怎么依托于網絡和新媒體渠道打開婚紗攝影市場?

       幾乎每個人都有需要從網上批量獲取信息的需求,比如需要批量采集網站上的郵箱、批量采集1688、58同城上的商家信息、聯系方式,如果讓你去學編程語言?我看很多人連軟件都不會裝,更何況一門完整的編程語言,還要學會更正網頁知識;學習火車頭軟件?一是貴,二是操作非常麻煩。

      今天就推薦一款Google研發的數據采集插件,這款插件可以自帶cookies,自帶反爬蟲能力,非常容易上手,按照流程下來,基本上10分鐘就能學會了。我平時也經常用它采集微博、知乎、豆瓣、58同城、大眾點評、汽車之家等等網站的內容,非常方便。

      Web scraper是google強大插件庫中非常強大的一款數據采集插件,有強大的反爬蟲能力,只需要在插件上簡單地設置好,可以快速抓取知乎、簡書、豆瓣、大眾、58等大型、中型、小型的90%以上的網站,包括文字、圖片、表格等內容,最后快速導出csv格式文件。Google官方對web scraper給出的說明是:

      使用我們的擴展,您可以創建一個計劃(sitemap),一個web站點應該如何遍歷,以及應該提取什么。使用這些sitemaps,Web刮刀將相應地導航站點并提取所有數據。稍后可以將剪貼數據導出為CSV。

      本系列是關于web scraper的系類介紹,將會完整介紹流程介紹,用知乎、簡書等網站為例介紹如何采集文字、表格、多元素抓取、不規律分頁抓取、二級頁抓取、動態網站抓取,以及一些反爬蟲技術等全部內容。

      Ok,今天就介紹web scraper的安裝以及完整的抓取流程。

      一、web scraper的安裝

      Web scraper是google瀏覽器的拓展插件,只需要在google瀏覽器上安裝就可以了,介紹2種安裝方法:

      1、打開google瀏覽器更多工具下的拓展程序——進入到chrome 網上應用點——搜索web scraper——然后點擊安裝就可以了,如下圖所示。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第1張

      但是以上的安裝方法需要翻墻到國外的網站上,所以需要用到vpn,如果有vpn的就可以用這種方法,如果沒有就可以用下面的第二種方法:

      2、通過鏈接:http://pan.baidu.com/s/1skXkVN3 密碼:m672,下載web scraper安裝程序。然后直接將安裝程序拖入到chrome中的拓展程序就可以完成安裝了。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第2張

      完整完后就馬上可以使用了。

      二、以知乎為例介紹web scraper完整抓取流程

      1、打開目標網站,這里以采集知乎第一大v張佳瑋的關注對象為例,需要爬取的是關注對象的知乎名字、回答數量、發表文章數量、關注著數量。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第3張

      2、在網頁上右擊鼠標,選擇檢查選項,或者用快捷鍵 Ctrl + Shift + I / F12 都打開 Web Scraper。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第4張

      3、打開后點擊create sitemap選擇create sitemap創建一個站點地圖。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第5張

      點擊create sitemap后就得到如圖頁面,需要填寫sitemap name,就是站點名字,這點可以隨便寫,自己看得懂就好;還需要填寫start url,就是要抓取頁面的鏈接。填寫完就點擊create sitemap,就完成創建站點地圖了。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第6張

      具體如下圖:

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第7張

      4、設置一級選擇器:選定采集范圍

      接下來就是重中之重了。這里先介紹一下web scraper的抓取邏輯:需要設置一個一級選擇器(selector),設定需要抓取的范圍;在一級選擇器下建立一個二級選擇器(selector),設置需要抓取的元素和內容。

      以抓取張佳瑋關注對象為例,我們的范圍就是張佳瑋關注的對象,那就需要為這個范圍創建一個選擇器;而張佳瑋關注的對象的粉絲數、文章數量等內容就是二級選擇器的內容。 具體步驟如下:

      (1) Add new selector 創建一級選擇器Selector:

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第8張

      點擊后就可以得到下圖頁面,所需要抓取的內容就在這個頁面設置。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第9張

      id:就是對這個選擇器命名,同理,自己看得懂就好,這里就叫jiawei-scrap。

      Type:就是要抓取的內容的類型,比如元素element/文本text/鏈接link/圖片image/動態加載內Element Scroll Down等,這里是多個元素就選擇element。

      Selector:指的就是選擇所要抓取的內容,點擊select就可以在頁面上選擇內容,這個部分在下面具體介紹。

      勾選Multiple:勾選 Multiple 前面的小框,因為要選的是多個元素而不是單個元素,當勾選的時候,爬蟲插件會識別頁面下具有相同屬性的內容;

      (2)這一步就需要設置選擇的內容了,點擊select選項下的select 得到下圖:

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第10張

      之后將鼠標移動到需要選擇的內容上,這時候需要的內容就會變成綠色就表示選定了,這里需要提示一下,如果是所需要的內容是多元素的,就需要將元素都選擇,例如下圖所示,綠色就表示選擇的內容在綠色范圍內。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第11張

      選擇內容范圍后,點擊鼠標,選定的內容范圍就會變成如下圖的紅色:

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第12張

      當一個內容變紅后,我們就可以選擇接下來的第二個內容,點擊后,web scraper就會自動識別你所要的內容,具有相同元素的內容就都會變成紅色的。如下圖所示:

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第13張

      檢查這個頁面我們需要的內容全部變成紅色之后,就可以點擊 Done selecting選項了,就可以得到如下圖所示:

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第14張

      點擊save selector,保存設置。到這里后,一級選擇器就創建完成了。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第15張

      5、設置二級選擇器:選擇需要采集的元素內容。

      (1)點擊下圖中紅框內容,就進入一級選擇器jiawei-scrap下:

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第16張

      (2)點擊add new selector創建二級選擇器,來選擇具體內容。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第17張

      得到下圖,這跟一級選擇器的內容是相同的,但是設置是有區別的。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第18張

      id:代表抓取的是哪個字段,可以取該字段的英文,比如要選「作者」,就寫「writer」;

      Type:這里選Text選項,因為要抓取的是文本內容;

      Multiple:不要勾選 Multiple 前面的小框,因為在這里要抓取的是單個元素;

      保留設置:其余未提及部分保留默認設置。

      (3)點擊select選項后,將鼠標移到具體的元素上,元素就會變成黃色,如下圖所示:

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第19張

      在具體元素上點擊后,元素就會變成紅色的,就代表選定該內容了。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第20張

      (4)點擊Done selecting后完成選擇,再點擊save selector后就可以完成關注對象知乎名字的選取了。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第21張

      重復以上操作,直到選完你想爬的字段。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第22張

      (5)點擊紅框部分可以看到采集的內容。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第23張

      Data preview可以看到采集內容,edit可以對設置的內容做修改。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第24張

      6、爬取數據

      (1)只需要設置完所有的 Selector,就可以開始爬數據了,點擊 Scrape map,

      選澤scrape;:

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第25張

      (2)點擊后就會跳到時間設置頁面,如下圖,由于采集的數量不大,保存默認就可以,點擊 start scraping,就會跳出一個窗口,就開始正式采集了。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第26張

      (3)稍等一會就可以得到采集效果,如下圖:

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第27張

      (4)選擇sitemap下的export data as csv選項就可以將采集的結果以表格的形式導出。

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第28張

      表格效果:

       

      不用代碼10分鐘就能學會微博知乎豆瓣淘寶數據采集 經驗心得 第29張

      以上就是以知乎為例介紹基本的采集步驟和設置,看著雖然細節繁多,但是仔細算下來真沒多少步驟,基本上10分鐘就能夠完全掌握采集的流程;無論是什么類型的網站,設置的基本流程都是大致一樣的,有興趣可以認真深入研究。

      作者:白面書生 微信:zds369466004

      原文地址:http://lusongsong.com/reed/9885.html

      來源:盧松松博客,歡迎分享,(QQ/微信:13340454)

      分享:活動運營,讓用戶為你瘋狂打Call
      早期的互聯網行業,都是用不斷砸錢的方式做活動運營,那是不是說參加我們活動的用戶是唯利是圖?其實我們每個人都是用戶,大家想一下,我們選擇一款產品,真的是貪圖那點利益嗎。不然,活動運營其實是一種感覺。

      作者:盧松松博客/所屬分類:網站推廣教程/更新時間:2018-02-25
      相關網站推廣教程