3.1-采集教程(1例)_風(fēng)訊Cms教程

教程Tag：暫無Tag,歡迎添加,賺取U幣!

采集是很多用戶感覺頭疼的事情，實(shí)際上也不是那么難的，現(xiàn)在我舉例給大家具體說明一下吧，可能不如錄像那么直觀，我盡量說明白一點(diǎn)。

要采集，則必須滿足服務(wù)器支持組件：Microsoft.XMLHTTP

點(diǎn)擊菜單欄的“常規(guī)治理”，選擇輔助工具里面的新聞采集。首先設(shè)置站點(diǎn)，根據(jù)采集對(duì)象頁面設(shè)置過濾條件，設(shè)置好之后進(jìn)行采集，然后審核數(shù)據(jù)，將數(shù)據(jù)進(jìn)行入庫，入庫之后的數(shù)據(jù)可以在歷史數(shù)據(jù)里面看到，歷史數(shù)據(jù)不刪除，則在采集的時(shí)候采集過的文章不會(huì)再次采集。假如刪掉了歷史數(shù)據(jù)則采集的時(shí)候不能過濾采集過的文章的。

下面以中華新聞網(wǎng)的娛樂新聞為例具體說明一下采集的設(shè)置，其地址是：

http://www.chinanews.com.cn/entertainment.shtml

一．站點(diǎn)設(shè)置：

1．建立站點(diǎn)：

選擇站點(diǎn)設(shè)置，進(jìn)入采集站點(diǎn)的設(shè)置。

首先選擇“新建站點(diǎn)”：

我們把站點(diǎn)名稱取名為“娛樂新聞”，入庫目標(biāo)欄目可以根據(jù)需要選擇，我設(shè)置為Test_1，采集對(duì)象頁面地址就填寫采集站點(diǎn)的地址：http://www.chinanews.com.cn/entertainment.shtml，模板當(dāng)然是自己選擇了，這里因?yàn)椴杉膶?duì)象頁面可能有圖，我設(shè)置了保存遠(yuǎn)程圖片，假如不需要采集對(duì)象頁面的圖片也可以不選擇。然后保存，則在后臺(tái)的站點(diǎn)設(shè)置里面可以看到我們剛剛建立的站點(diǎn)了。

接下來我們需要修改向?qū)Я恕?/P>

2．修改向?qū)В?/P>

點(diǎn)擊修改向?qū)е蟪霈F(xiàn)下面的界面：

這里就是我們剛剛建立站點(diǎn)設(shè)置的參數(shù)，直接點(diǎn)擊“下一步”，進(jìn)入設(shè)置獲取新聞列表的條件：

這時(shí)我們打開站點(diǎn)，查看采集對(duì)象頁面的源文件，最好是把源文件拷貝到DW（Dreamweaver）里面，這樣比較好找到適合的條件。

在DW里面查看新聞列表的源碼：

下圖陰影部分則為列表代碼：

從圖中我們可以看到列表開始的代碼是：<table width="100%" border="0" cellpadding="7">，最好是在源文件里面查一下是否這句代碼是否是唯一的。假如是唯一的，則可以在設(shè)置條件的框里面填上。假如不是唯一的，則可以擴(kuò)大代碼的范圍，一定要保證代碼的唯一性。

然后我們看一下列表代碼結(jié)束的地方

該頁面的列表代碼結(jié)束則是：</table>

這樣我們找到了列表的開始代碼和結(jié)束代碼，在這兩句代碼直接則是我們需要獲取的新聞列表了，所以我們?cè)O(shè)置的條件則是如下：

這里不設(shè)置分頁，所以直接點(diǎn)擊下一步進(jìn)入新聞鏈接的條件設(shè)置：

這個(gè)時(shí)候你可以看到頁面分為了三部分：列表URL條件設(shè)置部分，代碼部分，結(jié)果部分，假如上一步設(shè)置正確，則這里的代碼部分和結(jié)果部分就會(huì)顯示獲取到的新聞列表的代碼和新聞列表了。

這里我們開始設(shè)置獲取鏈接的代碼：

陰影部分是一條新聞的代碼，則我們可以看到，新聞的鏈接路徑代碼是：

來源：模板無憂/所屬分類：風(fēng)訊Cms教程/更新時(shí)間：2006-06-16

3.1-采集教程(1例)_風(fēng)訊Cms教程

風(fēng)訊Cms教程教程Rss訂閱Cms教程搜索

風(fēng)訊Cms教程推薦

猜你也喜歡看這些