飛采(NiniDown) 是一款基于.NET編寫的多線程信息采集系統(tǒng)(使用前必須安裝.NET framework 2.0)。通過直觀的的規(guī)則制訂,模擬瀏覽器不同的提交行為,可以方便的將瀏覽器中看到的信息抓取下來,并可以通過在線發(fā)布工具或數(shù)據(jù)庫入庫工具,將該信息發(fā)布到您自己的網(wǎng)站上。其靈活的規(guī)則制定,強大的分頁處理和標(biāo)簽定義,計劃任務(wù),對Access,Mysql,MSsql的數(shù)據(jù)庫支持等功能,將有效節(jié)約您的寶貴時間,讓工作變得更加輕松...... 特色介紹: 支持多任務(wù)、多線程:可以同時執(zhí)行多個采集任務(wù),每個任務(wù)又可以使用多個線程,采集速度飛快。 支持SSL協(xié)議,可以采集HTTPS://開頭的網(wǎng)頁(1.3以后版本) 支持暫停任務(wù)功能,方便以后采集(1.2以后版本)。 支持表格內(nèi)容采集,每行數(shù)據(jù)分開保存到數(shù)據(jù)庫(1.2以后版本)。 支持多層導(dǎo)航技術(shù):可以跨層采集,分頁采集,分頁內(nèi)容可以合并為一條記錄。 支持采集內(nèi)容可以多表,跨表保存;可以通過關(guān)鍵字關(guān)聯(lián),自動整合成一條完整記錄。 支持歷史記錄功能,方便增量采集,避免重復(fù)采集。(免費版不支持) 支持固定時間、間隔一定時間采集、全部任務(wù)完成后自動關(guān)機。 支持網(wǎng)站登錄采集,可以采集需要登錄才能看到的頁面。 支持普通、POST、腳本鏈接采集。對采用函數(shù)生成的分頁地址也可以采集,參數(shù)支持四則算術(shù)表達式計算(1.2以后版本)。 支持POST數(shù)據(jù)、Cookie捕獲,通過內(nèi)置瀏覽器可以捕獲特殊cookie,如HttpOnly類型的ASP.NET_SessionId等,方便創(chuàng)建下載、發(fā)布規(guī)則。 支持內(nèi)容文件下載,可以提取并下載內(nèi)容中的圖片、Flash、附件(常見類型的文件)。 支持分塊傳輸方式(chuncked),壓縮(gzip,deflate)的數(shù)據(jù)流下載。 支持采集鏈接、文件鏈接篩選功能,對下載的內(nèi)容標(biāo)記剔除、文字替換。 支持模擬提交、源碼查看(同web在線發(fā)布),方便測試采集規(guī)則。 支持HTTP請求頭自定義,方便完美模擬各種瀏覽器請求動作。 支持采集內(nèi)容保存到數(shù)據(jù)庫,方便第三方軟件對采集內(nèi)容進行再加工。 支持采集結(jié)果web在線發(fā)布,通過在線方式發(fā)布到現(xiàn)有的網(wǎng)站系統(tǒng)。 支持采集結(jié)果數(shù)據(jù)庫入庫發(fā)布,可以發(fā)布到Access、SQL Server、MySQL數(shù)據(jù)庫(支持存儲過程調(diào)用,F(xiàn)TP上傳采集的文件)。 了解更多情況,請訪問官方網(wǎng)站 http://www.ninidown.com/ 2010-1-26: 1.4.0.1 增加采集隨機間隔時間1-5 增加導(dǎo)航規(guī)則特殊變量 增加導(dǎo)航時源碼替換功能 增加自定義特殊結(jié)果,當(dāng)前標(biāo)題 增加替換支持正則表達式 修改采集結(jié)果替換中取消{*}的支持,請使用{任意字符串},任意字符串!=* 修改截取字符段落的解析方法 修正去網(wǎng)址標(biāo)題判斷條件錯誤問題 修正測試中需要先替換源碼的錯誤 修正自動保存中間狀態(tài)問題:任務(wù)結(jié)束不用繼續(xù)保存中間狀態(tài) 修正檢查版本更新情況時導(dǎo)致程序假死情況,使用子線程