- 綠色版查看
- 綠色版查看
- 綠色版查看
熊貓采集軟件的設(shè)計(jì)目標(biāo)之一,是作為通用的垂直搜索引擎,配合熊貓的分詞索引檢索引擎,用戶可以輕松構(gòu)建自己的行業(yè)垂直搜索引擎,如招聘人才、房產(chǎn)、購物、醫(yī)療健康、二手、分類信息、商務(wù)、交友、論壇、博客、新聞、經(jīng)驗(yàn)、知識、軟件等等,在此過程中,用戶并不需要非常專業(yè)的技術(shù)基礎(chǔ)即可構(gòu)建自己的行業(yè)垂直搜索引擎。
熊貓采集的功能強(qiáng)大且全面,是復(fù)雜采集需求的必選。除老式采集工具軟件所具有的功能外,特有功能包括:
面向?qū)ο蟛杉?。一個(gè)采集對象的子項(xiàng)內(nèi)容可以是分散在若干個(gè)不同頁面內(nèi),頁面間可以是需要通過多次鏈接才能到達(dá),數(shù)據(jù)彼此間可以具有復(fù)雜邏輯關(guān)系。
復(fù)雜結(jié)構(gòu)對象的采集。支持使用多個(gè)數(shù)據(jù)庫庫表來聯(lián)合存儲采集結(jié)果。
正文與回復(fù)一并采集,新聞與評論一并采集,企業(yè)資料和企業(yè)多產(chǎn)品系列一并采集,等。采集的結(jié)果使用多張表聯(lián)合存儲,采集后的數(shù)據(jù)可以直接作為網(wǎng)站后臺數(shù)據(jù)庫使用。
分頁內(nèi)容自動智能合并。熊貓系統(tǒng)具有強(qiáng)大的自動分析判斷能力,智能的完成各種情況下的分頁內(nèi)容的自動合并操作,無需用戶過多干預(yù)。
每個(gè)被采集的頁面都可以定義多個(gè)模板。系統(tǒng)會自動使用最匹配的模板,在傳統(tǒng)采集工具中,由于無法有效解決多模板問題,使得采集結(jié)果很難完整。
仿瀏覽器動態(tài)Cookie對話。很多場合下,網(wǎng)站使用cookie的對話功能,實(shí)現(xiàn)對敏感數(shù)據(jù)的加密操作,避免數(shù)據(jù)被批量下載,此時(shí)就需要使用熊貓采集軟件的動態(tài)Cookie對話功能。
圖文混排對象的合并采集。對于文字內(nèi)容中夾雜的非文字內(nèi)容(如圖片、動畫、視頻、音樂、文件等),熊貓也會進(jìn)行智能化處理,自動下載該非文字對象到本地或指定的遠(yuǎn)程服務(wù)器,并對結(jié)果進(jìn)行妥善處理,使得采集結(jié)果的圖文混排對象中,可以保留被采集前的原樣,以便用戶能直接使用采集結(jié)果。
精煉的采集結(jié)果。熊貓采集軟件使用仿瀏覽器解析技術(shù),采集結(jié)果是從網(wǎng)頁可視化內(nèi)容中進(jìn)行匹配,而不會在網(wǎng)頁源碼中使用正則表達(dá)式技術(shù)進(jìn)行泛匹配,因此采集結(jié)果非常精煉,不會夾雜任何無關(guān)網(wǎng)頁源碼內(nèi)容。
全程智能輔助操作。軟件盡可能的自動為用戶實(shí)現(xiàn)自動設(shè)置操作,僅將一些必要操作留給用戶。同時(shí)幫助內(nèi)容隨著用戶的操作而動態(tài)顯示。
其它采集工具軟件常見功能(模擬登錄、偽原創(chuàng)、自動運(yùn)行、多數(shù)據(jù)庫引擎支持、自動發(fā)布、FTP同步上傳、網(wǎng)頁編碼自動識別、圖片與文件的下載、對采集結(jié)果進(jìn)行過濾挑選、多線程、多任務(wù)等等)。
軟件同時(shí)推出全功能免費(fèi)版,僅限制采集許可總量,但用戶可以通過各種途徑(如反饋使用意見、友情鏈接、協(xié)助軟件推廣等)輕松擴(kuò)大許可總量,積極參與的用戶可以輕易獲得無上限的許可總量。
您的評論需要經(jīng)過審核才能顯示
有用
有用
有用