SupeSite 7.0 采集管理-添加新機器人說明教程_SupeSite教程
初次接觸 SupeSite 的采集器,可能會感覺難以上手,本文將帶你熟悉 SupeSite 的采集器,讓您根據自己的情況做出自己的采集器。
以采集 http://vip.book.sina.com.cn/book/index_40931.html 為例。
一、首先簡單說一下制作采集器的基本原理和思路
1、確定采集頁面到 “列表頁面鏈接” 。
2、確定在這些頁面要采集的內容區域,也就是 “列表區域識別規則” 。
3、確定要采集的文章鏈接,也就是 “文章鏈接 url 識別規則” 。
4、現在真正您需要采集的范圍,就是 “文章標題識別規則” 和 “文章內容識別規則” 。
5、以上 4 個步驟已經確定了采集的范圍,如果您需要過濾標題和內容,請根據您的要求設置 “過濾規則” 。
以上幾個步驟確定范圍都是通過查看頁面源碼,進行設置的,截取的方法需要一些經驗,建議多點右邊的 “測試” 看看是否成功。
二、接下來介紹采集器的基本原理和步驟
1、進入后臺 => 采集管理 => 添加新機器人,如下圖所示:
1)填寫基本設置
“單次采集個數”盡量設置較小的數字,以免超時。
2)采集頁面的 url 地址設置
采集頁面的 url 地址有兩種設置方法:手動輸入和自動增長。手動輸入需要您自己將所需采集的地址逐行輸入。自動增長只需填入采集頁面的地址和頁面頁碼。用 [page] 代替分頁變量。以手動輸入為例,如下圖所示:
3)采集頁面編碼
如果采集的頁面和網站的不一樣,需要填寫下編碼,你只需要點擊【程序輔助識別】,把識別出來的填寫到下圖位置。如下圖所示:
4)列表區域識別規則
在你要采集的頁面中點擊鼠標右鍵 => 查看源代碼 => 找到文章鏈接URL區域。
文章鏈接 URL 區域 用 [list] 表示
左邊 div 或者其他標簽一定要選好,這里一定要注意,文章鏈接 URL 區域一定要在這個 div 內,而且是最近的,獨一無二的。
建議大家用 Dreamweaver 工具查看
右邊是接著左邊的 div 結束后的標簽,比如:
5)文章鏈接 URL 識別規則
現在需要的連接,如下圖所示:
鏈接地址用 [url] 表示,比如:
添加文章鏈接 URL 規則后,發現有些鏈接是不需要的,所以需要使用“文章鏈接URL剔除規則”,如下圖所示:
6)文章鏈接 URL 剔除規則
剔除規則如果有多個選擇,請用 | 隔開,比如:
如下圖所示:
7)文章標題識別規則
點一個文章鏈接 => 在新打開的頁面中點擊鼠標右鍵 => 查看源代碼 => 找到這篇文章的標題左右最近的標簽
標題用 [subject] 表示,比如:
如下圖所示:
8)文章內容識別規則
點一個文章鏈接 => 在新打開的頁面中點擊鼠標右鍵 => 查看源代碼 => 找到這篇文章的內容左右最近的標簽
內容用 [message] 表示,比如:
如下圖所示:
2、這樣采集規則就寫好了,點擊提交保存。頁面跳轉后,點擊開始采集,如下圖所示:
3、采集的過程,如下圖所示:
4、采集完畢之后,還需要更新下緩存,如下圖所示:
5、如果您的采集規則正確,打開首頁就可以看到你剛剛采集到的內容,如下圖所示:
查看更多 supesite教程 supesite模板
- SupeSite默認焦點輪轉圖簡單美化方法
- SupeSite7.5 讓資訊發布日期更加個性化
- SupeSite7.5 讓會員中心擁有不同的title和提示信息
- SupeSite7.5 benbaHTML生成方案第一版
- SupeSite7.5發布評論后直接跳轉回到文章頁面的完美方法
- SupSite7.5單個頁面頻道編輯后無法訪問
- SupSite7.5登陸后臺先驗證權限問題解決方案
- SupSite模型無權限評論修改方案
- SupSite模板里經常用到以下幾個標簽的說明
- SupSite頁面文件與模塊關系說明
- 升級SupeSite7.5出現Errno.: 1054的解決方法
- SupeSite7.5 非gbk版本程序,在回復某帖子時回復被截斷修改方案
- 相關鏈接:
- 教程說明:
SupeSite教程-SupeSite 7.0 采集管理-添加新機器人說明教程
。