火車頭採集器檢視原始碼討論檢視歷史
火車採集器(LocoySpider) 是一個供各大主流文章系統,論壇系統等使用的多線程內容採集發布程序。使用火車採集器,你可以瞬間建立一個擁有龐大內容的網站。系統支持遠程圖片下載,圖片批量水印,Flash下載,下載文件地址探測,自製作發表的cms模塊參數,自定義發表的內容等有關採集器。對於數據的採集其可以分為兩部分,一是採集數據,二是發布數據。[1]
功能
火車採集器(LocoySpider)是一款功能強大且易於上手的專業採集軟件,強大的內容採集和數據導入功能能將您採集的任何網頁數據發布到遠程服務器,自定義用戶cms系統模塊,不管你的網站是什麼系統,都有可能使用上火車採集器,系統自帶的模塊文件支持:風訊文章,動易文章,動網論壇,PHPWIND論壇,Discuz論壇,phpcms文章,phparticle文章,LeadBBS論壇,魔力論壇,Dedecms文章,Xydw文章,驚雲文章等的模塊文件。更多cms模塊請自己參照製作修改,也可到官方網站與大家交流製作。 同時您也可以使用系統的數據導出功能,利用系統內置標籤,將採集到的數據對應表的字段導出到本地任何一款Access,MySql,MS SqlServer內。LocoySpider採用Visual C#編寫,可獨立在Windows2008下運行(windows2003 自帶.net1.1框架。最新版的火車採集器是2008版,需要升級到.net2.0框架才能使用),如您在Windows2000、Xp等環境下使用,請先到微軟官方下載一個.net framework2.0或更高環境組件。火車採集器V2009 SP2 04月29日數據抓取原理火車頭網站採集火車採集器如何去抓取數據,取決於您的規則。您要獲取一個欄目的網頁里的所有內容,需要先將這個網頁的網址採下來,這就是采網址。程序按您的規則抓取列表頁面,從中分析出網址,然後再去抓取獲得網址的網頁里的內容。再根據您的採集規則,對下載到的網頁分析,將標題內容等信息分離開來並保存下來。如果您選擇了下載圖片等網絡資源,程序會對採集到的數據進行分析,找出圖片,資源等的下載地址並下載到本地。 數據發布原理在我們將數據採集下來後數據默認是保存在本地的,我們可以使用以下幾種方式對數據進行處理。1、不做任何處理。因為數據本身是保存在數據庫的(access、db3、mysql、sqlserver),您如果只是查看數據,直接用相關軟件打開查看即可。2、Web發布到網站。程序會模仿瀏覽器向您的網站發送數據,可以實現您手工發布的效果。3、直接入數據庫。您只需寫幾個SQL語句,程序會將數據按您的SQL語句導入到數據庫中。4、保存為本地文件。程序會讀取數據庫里的數據,按一定格式保存為本地sql或是文本文件。工作流程火車採集器採集數據是分成兩個步驟的,一是採集數據,二是發布數據。這兩個過程是可以分開的。1、採集數據,這個包括採集網址,採集內容。這個過程是獲得數據的過程。我們做規則,在采的過程中也算是對內容做了處理。2、發布內容就是將數據發布到自己的論壇,CMS的過程,也是實現數據為已有的過程。可以用WEB在線發布,數據庫入庫或存為本地文件。具體的使用其實是很靈活的,可以根據實際來決定。比如我可以採集時先採集不發布,有時間了再發布,或是同時採集發布,或是先做發布配置,也可以在採集完了再添加發布配置。總之,具體過程由您而定,火車採集器的強大功能之一也就是體現在靈活中。
採集規則
採集規則分為站點規則和任務規則,通常是指任務規則。所謂採集規則就是要採集一個網站時在軟件里進行的設置。這個設置可以從軟件里導出保存成一個文件並可以再導入到軟件里。站點規則文件的後綴名為:.lsite;任務規則文件的後綴名為:.ljob。
採集任務
採集任務又簡稱為任務。它是採集規則和發布規則的總和。也是採集規則和發布規則的載體。採集規則和發布規則的設置通過在任務編輯框裡進行設置。從採集器里導出的採集規則文件(.ljob後綴的)也可稱為任務規則。導入導出任務規則就是指導入導出.ljob文件。
本地編輯
數據採集器不僅可以採集發布數據,還可以將採集下來的數據經過編輯以後再發布。支持批量替換,通過SQL語句批量處理以及在文本編輯框裡編輯。
參考文獻
- ↑ 火車頭採集器教程 V8百度知道