大中小

SupeSite 7.0 采集管理-添加新機器人說明教程_SupeSite教程

編輯Tag賺U幣

教程Tag：暫無Tag,歡迎添加,賺取U幣!

初次接觸 SupeSite 的采集器，可能會感覺難以上手，本文將帶你熟悉 SupeSite 的采集器，讓您根據自己的情況做出自己的采集器。

以采集 http://vip.book.sina.com.cn/book/index_40931.html 為例。

一、首先簡單說一下制作采集器的基本原理和思路

1、確定采集頁面到 “列表頁面鏈接” 。

2、確定在這些頁面要采集的內容區域，也就是 “列表區域識別規則” 。

3、確定要采集的文章鏈接，也就是 “文章鏈接 url 識別規則” 。

4、現在真正您需要采集的范圍，就是 “文章標題識別規則” 和 “文章內容識別規則” 。

5、以上 4 個步驟已經確定了采集的范圍，如果您需要過濾標題和內容，請根據您的要求設置 “過濾規則” 。

以上幾個步驟確定范圍都是通過查看頁面源碼，進行設置的，截取的方法需要一些經驗，建議多點右邊的 “測試” 看看是否成功。

二、接下來介紹采集器的基本原理和步驟

1、進入后臺 => 采集管理 => 添加新機器人，如下圖所示：

1）填寫基本設置

“單次采集個數”盡量設置較小的數字，以免超時。

2）采集頁面的 url 地址設置

采集頁面的 url 地址有兩種設置方法：手動輸入和自動增長。手動輸入需要您自己將所需采集的地址逐行輸入。自動增長只需填入采集頁面的地址和頁面頁碼。用 [page] 代替分頁變量。以手動輸入為例，如下圖所示：

3）采集頁面編碼

如果采集的頁面和網站的不一樣，需要填寫下編碼，你只需要點擊【程序輔助識別】，把識別出來的填寫到下圖位置。如下圖所示：

4）列表區域識別規則

在你要采集的頁面中點擊鼠標右鍵 => 查看源代碼 => 找到文章鏈接URL區域。

文章鏈接 URL 區域用 [list] 表示

左邊 div 或者其他標簽一定要選好，這里一定要注意，文章鏈接 URL 區域一定要在這個 div 內，而且是最近的，獨一無二的。

建議大家用 Dreamweaver 工具查看

右邊是接著左邊的 div 結束后的標簽，比如：

5）文章鏈接 URL 識別規則

現在需要的連接，如下圖所示：

鏈接地址用 [url] 表示，比如：

<a href="[url]"

添加文章鏈接 URL 規則后，發現有些鏈接是不需要的，所以需要使用“文章鏈接URL剔除規則”，如下圖所示：

6）文章鏈接 URL 剔除規則

剔除規則如果有多個選擇，請用 | 隔開，比如：

http|?|index

如下圖所示：

7）文章標題識別規則

點一個文章鏈接 => 在新打開的頁面中點擊鼠標右鍵 => 查看源代碼 => 找到這篇文章的標題左右最近的標簽

標題用 [subject] 表示，比如：

<h1>[subject]</h1>

如下圖所示：

8）文章內容識別規則

點一個文章鏈接 => 在新打開的頁面中點擊鼠標右鍵 => 查看源代碼 => 找到這篇文章的內容左右最近的標簽

內容用 [message] 表示，比如：

<div id="contTxt" class="contTxt1">[message]</div>

如下圖所示：

2、這樣采集規則就寫好了，點擊提交保存。頁面跳轉后，點擊開始采集，如下圖所示：

3、采集的過程，如下圖所示：

4、采集完畢之后，還需要更新下緩存，如下圖所示：

5、如果您的采集規則正確，打開首頁就可以看到你剛剛采集到的內容，如下圖所示：

查看更多 supesite教程 supesite模板

來源：SupeSite/所屬分類：SupeSite教程/更新時間：2009-11-24

[收藏][報錯][返回列表]

相關SupeSite教程：

SupeSite 7.0 采集管理-添加新機器人說明教程_SupeSite教程

SupeSite教程教程Rss訂閱Cms教程搜索

SupeSite教程推薦

猜你也喜歡看這些