3.1-采集教程(1例)_風(fēng)訊Cms教程

      編輯Tag賺U幣
      教程Tag:暫無Tag,歡迎添加,賺取U幣!

      采集是很多用戶感覺頭疼的事情,實(shí)際上也不是那么難的,現(xiàn)在我舉例給大家具體說明一下吧,可能不如錄像那么直觀,我盡量說明白一點(diǎn)。

      要采集,則必須滿足服務(wù)器支持組件:Microsoft.XMLHTTP

      點(diǎn)擊菜單欄的“常規(guī)治理”,選擇輔助工具里面的新聞采集。首先設(shè)置站點(diǎn),根據(jù)采集對(duì)象頁面設(shè)置過濾條件,設(shè)置好之后進(jìn)行采集,然后審核數(shù)據(jù),將數(shù)據(jù)進(jìn)行入庫,入庫之后的數(shù)據(jù)可以在歷史數(shù)據(jù)里面看到,歷史數(shù)據(jù)不刪除,則在采集的時(shí)候采集過的文章不會(huì)再次采集。假如刪掉了歷史數(shù)據(jù)則采集的時(shí)候不能過濾采集過的文章的。

      下面以中華新聞網(wǎng)的娛樂新聞為例具體說明一下采集的設(shè)置,其地址是:

      http://www.chinanews.com.cn/entertainment.shtml

      一. 站點(diǎn)設(shè)置:

      1. 建立站點(diǎn):

      選擇站點(diǎn)設(shè)置,進(jìn)入采集站點(diǎn)的設(shè)置。

      首先選擇“新建站點(diǎn)”:

      我們把站點(diǎn)名稱取名為“娛樂新聞”,入庫目標(biāo)欄目可以根據(jù)需要選擇,我設(shè)置為Test_1,采集對(duì)象頁面地址就填寫采集站點(diǎn)的地址:http://www.chinanews.com.cn/entertainment.shtml,模板當(dāng)然是自己選擇了,這里因?yàn)椴杉膶?duì)象頁面可能有圖,我設(shè)置了保存遠(yuǎn)程圖片,假如不需要采集對(duì)象頁面的圖片也可以不選擇。然后保存,則在后臺(tái)的站點(diǎn)設(shè)置里面可以看到我們剛剛建立的站點(diǎn)了。

      接下來我們需要修改向?qū)Я恕?/P>

      2. 修改向?qū)В?/P>

      點(diǎn)擊修改向?qū)е蟪霈F(xiàn)下面的界面:

      這里就是我們剛剛建立站點(diǎn)設(shè)置的參數(shù),直接點(diǎn)擊“下一步”,進(jìn)入設(shè)置獲取新聞列表的條件:

      這時(shí)我們打開站點(diǎn),查看采集對(duì)象頁面的源文件,最好是把源文件拷貝到DW(Dreamweaver)里面,這樣比較好找到適合的條件。

      在DW里面查看新聞列表的源碼:

      下圖陰影部分則為列表代碼:

      從圖中我們可以看到列表開始的代碼是:<table width="100%" border="0" cellpadding="7">,最好是在源文件里面查一下是否這句代碼是否是唯一的。假如是唯一的,則可以在設(shè)置條件的框里面填上。假如不是唯一的,則可以擴(kuò)大代碼的范圍,一定要保證代碼的唯一性。

      然后我們看一下列表代碼結(jié)束的地方

      該頁面的列表代碼結(jié)束則是:</table>

      這樣我們找到了列表的開始代碼和結(jié)束代碼,在這兩句代碼直接則是我們需要獲取的新聞列表了,所以我們?cè)O(shè)置的條件則是如下:

      這里不設(shè)置分頁,所以直接點(diǎn)擊下一步進(jìn)入新聞鏈接的條件設(shè)置:

      這個(gè)時(shí)候你可以看到頁面分為了三部分:列表URL條件設(shè)置部分,代碼部分,結(jié)果部分,假如上一步設(shè)置正確,則這里的代碼部分和結(jié)果部分就會(huì)顯示獲取到的新聞列表的代碼和新聞列表了。

      這里我們開始設(shè)置獲取鏈接的代碼:

      陰影部分是一條新聞的代碼,則我們可以看到,新聞的鏈接路徑代碼是:

      查看更多 風(fēng)訊cms教程  風(fēng)訊cms模板

      共2頁上一頁12下一頁
      來源:模板無憂//所屬分類:風(fēng)訊Cms教程/更新時(shí)間:2006-06-16
      相關(guān)風(fēng)訊Cms教程