SupeSite 7.0 采集管理-添加新機器人說明教程_SupeSite教程

      編輯Tag賺U幣
      教程Tag:暫無Tag,歡迎添加,賺取U幣!

      初次接觸 SupeSite 的采集器,可能會感覺難以上手,本文將帶你熟悉 SupeSite 的采集器,讓您根據自己的情況做出自己的采集器。

      以采集 http://vip.book.sina.com.cn/book/index_40931.html 為例。

      一、首先簡單說一下制作采集器的基本原理和思路

      1、確定采集頁面到 “列表頁面鏈接” 。

      2、確定在這些頁面要采集的內容區域,也就是 “列表區域識別規則” 。

      3、確定要采集的文章鏈接,也就是 “文章鏈接 url 識別規則” 。

      4、現在真正您需要采集的范圍,就是 “文章標題識別規則” 和 “文章內容識別規則” 。

      5、以上 4 個步驟已經確定了采集的范圍,如果您需要過濾標題和內容,請根據您的要求設置 “過濾規則” 。

      以上幾個步驟確定范圍都是通過查看頁面源碼,進行設置的,截取的方法需要一些經驗,建議多點右邊的 “測試” 看看是否成功。

      二、接下來介紹采集器的基本原理和步驟

      1、進入后臺 => 采集管理 => 添加新機器人,如下圖所示:

      1)填寫基本設置

      “單次采集個數”盡量設置較小的數字,以免超時。

      2)采集頁面的 url 地址設置

      采集頁面的 url 地址有兩種設置方法:手動輸入和自動增長。手動輸入需要您自己將所需采集的地址逐行輸入。自動增長只需填入采集頁面的地址和頁面頁碼。用 [page] 代替分頁變量。以手動輸入為例,如下圖所示:

      3)采集頁面編碼

      如果采集的頁面和網站的不一樣,需要填寫下編碼,你只需要點擊【程序輔助識別】,把識別出來的填寫到下圖位置。如下圖所示:

      4)列表區域識別規則

      在你要采集的頁面中點擊鼠標右鍵 => 查看源代碼 => 找到文章鏈接URL區域。

      文章鏈接 URL 區域 用 [list] 表示

      左邊 div 或者其他標簽一定要選好,這里一定要注意,文章鏈接 URL 區域一定要在這個 div 內,而且是最近的,獨一無二的。

      建議大家用 Dreamweaver 工具查看

      右邊是接著左邊的 div 結束后的標簽,比如:

      5)文章鏈接 URL 識別規則

      現在需要的連接,如下圖所示:

      鏈接地址用 [url] 表示,比如:

      添加文章鏈接 URL 規則后,發現有些鏈接是不需要的,所以需要使用“文章鏈接URL剔除規則”,如下圖所示:

      6)文章鏈接 URL 剔除規則

      剔除規則如果有多個選擇,請用 | 隔開,比如:

      如下圖所示:

      7)文章標題識別規則

      點一個文章鏈接 => 在新打開的頁面中點擊鼠標右鍵 => 查看源代碼 => 找到這篇文章的標題左右最近的標簽

      標題用 [subject] 表示,比如:

      如下圖所示:

      8)文章內容識別規則

      點一個文章鏈接 => 在新打開的頁面中點擊鼠標右鍵 => 查看源代碼 => 找到這篇文章的內容左右最近的標簽

      內容用 [message] 表示,比如:

      如下圖所示:

      2、這樣采集規則就寫好了,點擊提交保存。頁面跳轉后,點擊開始采集,如下圖所示:

      3、采集的過程,如下圖所示:

      4、采集完畢之后,還需要更新下緩存,如下圖所示:

      5、如果您的采集規則正確,打開首頁就可以看到你剛剛采集到的內容,如下圖所示:

      查看更多 supesite教程  supesite模板

      來源:SupeSite//所屬分類:SupeSite教程/更新時間:2009-11-24
      相關SupeSite教程