熊貓采集軟件是新一代采集軟件,全程可視化視窗鼠標(biāo)操作,用戶無需關(guān)心網(wǎng)頁源碼,無需編寫采集規(guī)則,無需使用正則表達(dá)式技術(shù),全程智能化輔助,是采集軟件行業(yè)的換代產(chǎn)品。同時(shí)也是通用性采集軟件,可以應(yīng)用在各個(gè)行業(yè),滿足各種采集需求。是復(fù)雜采集需求的必選,也是采集軟件使用新手的首先。
熊貓采集軟件的設(shè)計(jì)目標(biāo)之一,是作為通用的垂直搜索引擎,配合熊貓的分詞索引檢索引擎,用戶可以輕松構(gòu)建自己的行業(yè)垂直搜索引擎,如招聘人才、房產(chǎn)、購物、醫(yī)療健康、二手、分類信息、商務(wù)、交友、論壇、博客、新聞、經(jīng)驗(yàn)、知識(shí)、軟件等等,在此過程中,用戶并不需要非常專業(yè)的技術(shù)基礎(chǔ)即可構(gòu)建自己的行業(yè)垂直搜索引擎。
熊貓采集的功能強(qiáng)大且全面,是復(fù)雜采集需求的必選。除老式采集工具軟件所具有的功能外,特有功能包括:
面向?qū)ο蟛杉?。一個(gè)采集對(duì)象的子項(xiàng)內(nèi)容可以是分散在若干個(gè)不同頁面內(nèi),頁面間可以是需要通過多次鏈接才能到達(dá),數(shù)據(jù)彼此間可以具有復(fù)雜邏輯關(guān)系。
復(fù)雜結(jié)構(gòu)對(duì)象的采集。支持使用多個(gè)數(shù)據(jù)庫庫表來聯(lián)合存儲(chǔ)采集結(jié)果。
正文與回復(fù)一并采集,新聞與評(píng)論一并采集,企業(yè)資料和企業(yè)多產(chǎn)品系列一并采集,等。采集的結(jié)果使用多張表聯(lián)合存儲(chǔ),采集后的數(shù)據(jù)可以直接作為網(wǎng)站后臺(tái)數(shù)據(jù)庫使用。
分頁內(nèi)容自動(dòng)智能合并。熊貓系統(tǒng)具有強(qiáng)大的自動(dòng)分析判斷能力,智能的完成各種情況下的分頁內(nèi)容的自動(dòng)合并操作,無需用戶過多干預(yù)。
每個(gè)被采集的頁面都可以定義多個(gè)模板。系統(tǒng)會(huì)自動(dòng)使用最匹配的模板,在傳統(tǒng)采集工具中,由于無法有效解決多模板問題,使得采集結(jié)果很難完整。
仿瀏覽器動(dòng)態(tài)Cookie對(duì)話。很多場(chǎng)合下,網(wǎng)站使用cookie的對(duì)話功能,實(shí)現(xiàn)對(duì)敏感數(shù)據(jù)的加密操作,避免數(shù)據(jù)被批量下載,此時(shí)就需要使用熊貓采集軟件的動(dòng)態(tài)Cookie對(duì)話功能。
圖文混排對(duì)象的合并采集。對(duì)于文字內(nèi)容中夾雜的非文字內(nèi)容(如圖片、動(dòng)畫、視頻、音樂、文件等),熊貓也會(huì)進(jìn)行智能化處理,自動(dòng)下載該非文字對(duì)象到本地或指定的遠(yuǎn)程服務(wù)器,并對(duì)結(jié)果進(jìn)行妥善處理,使得采集結(jié)果的圖文混排對(duì)象中,可以保留被采集前的原樣,以便用戶能直接使用采集結(jié)果。
精煉的采集結(jié)果。熊貓采集軟件使用仿瀏覽器解析技術(shù),采集結(jié)果是從網(wǎng)頁可視化內(nèi)容中進(jìn)行匹配,而不會(huì)在網(wǎng)頁源碼中使用正則表達(dá)式技術(shù)進(jìn)行泛匹配,因此采集結(jié)果非常精煉,不會(huì)夾雜任何無關(guān)網(wǎng)頁源碼內(nèi)容。
全程智能輔助操作。軟件盡可能的自動(dòng)為用戶實(shí)現(xiàn)自動(dòng)設(shè)置操作,僅將一些必要操作留給用戶。同時(shí)幫助內(nèi)容隨著用戶的操作而動(dòng)態(tài)顯示。
其它采集工具軟件常見功能(模擬登錄、偽原創(chuàng)、自動(dòng)運(yùn)行、多數(shù)據(jù)庫引擎支持、自動(dòng)發(fā)布、FTP同步上傳、網(wǎng)頁編碼自動(dòng)識(shí)別、圖片與文件的下載、對(duì)采集結(jié)果進(jìn)行過濾挑選、多線程、多任務(wù)等等)。
軟件同時(shí)推出全功能免費(fèi)版,僅限制采集許可總量,但用戶可以通過各種途徑(如反饋使用意見、友情鏈接、協(xié)助軟件推廣等)輕松擴(kuò)大許可總量,積極參與的用戶可以輕易獲得無上限的許可總量。