国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

采集模塊


模塊常用操作

操作名說明
采集流程詳述
其它功能說明

說明:

 文章的采集功能是通過程序來遠程獲取目標網(wǎng)頁內容,經(jīng)過本地規(guī)則解析處理后存儲到服務器的數(shù)據(jù)庫內。 

 文章采集系統(tǒng)顛覆傳統(tǒng)采集模式和流程,采集規(guī)則與采集界面分離,規(guī)則設置更簡單,只需有基礎技術知識的人員設置好相關規(guī)則。編輯人員無需了解太過細節(jié)的技 術規(guī)則,只需選中自己想要采集的文章列表,就可以像發(fā)布文章一樣,輕松地完成數(shù)據(jù)采集操作。 
 
一、采集流程
 
簡單的講有三個步驟:
1、添加采集點,填寫采集規(guī)則。
2、采集網(wǎng)址,采集內容
3、發(fā)布內容到指定欄目
 
以采集新浪新聞(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml)為例,作一下詳細流程介紹。
 
實例說明:
 
目標:采集新浪新聞到V9系統(tǒng) 國際新聞 欄目中。 
目標網(wǎng)址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml
 
 
1、添加采集點
 
1.1 網(wǎng)址規(guī)則配置
 
70.jpg
 
 
                       添加采集點 - 網(wǎng)址規(guī)則配置圖1
 
 
查看要采集的目標網(wǎng)址源代碼,查找到要采集網(wǎng)址的開始點和結束點(這二個點要有在整個源代碼里具有唯一性)。更進一步縮小采集網(wǎng)址搜索范圍。
 
71.jpg
 
                      添加采集點 - 網(wǎng)址規(guī)則配置圖2
 
測試你的網(wǎng)址采集規(guī)則是否正確,如下圖所示
 
72.jpg
 
 
1.2 內容規(guī)則配置 
 
內容規(guī)則這里看起來比較復雜,其實也很簡單,為了便于說明,我們只采集標題、內容兩個字段。采集內容網(wǎng)址:
http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的內容采集規(guī)則,請你打開這個網(wǎng)址,然后頁面空白處右鍵->查看源文件搜索標題和內容的開始邊界。
 
標題采集配置:
從網(wǎng)頁<title></title>里取標題,并去除不需要的字符。如下圖
 
73.jpg
 
內容采集配置:
 
新浪新聞最終頁,新聞內容都包含在 <!-- 正文內容 begin --> <!-- 正文內容 end --> 之間,而且這二個結點,在整個頁面源代碼中具有唯一性。所以可以以此為規(guī)則取內容。并對內容進行過濾。如下圖  
 
74.jpg
 
1.3 自定義規(guī)則
 
1.4 高級配置
 
可設置是否把圖片下載到服務器上,是否打水印等配置。
 
75.jpg
 
2、采集網(wǎng)址,采集內容
 
采集規(guī)則配好以后,即可進行網(wǎng)址的采集,然后進行內容的采集。
 
76.jpg  
 
 
3、發(fā)布內容到指定欄目
 
  77.jpg  
  78.jpg
 
選擇導入的欄目
 
79.jpg
 
設置 采集內容與數(shù)據(jù)庫的字段對應關系.提交進行數(shù)據(jù)入庫,在此期間請耐心等待, 完成后會自動轉向。至此一個簡單的采集流程就操作完成。
 
其它更多功能,期待你發(fā)掘。