ictclas軟件介紹
中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上,研制出了漢語(yǔ)詞法分析系統(tǒng)ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別;新詞識(shí)別;同時(shí)支持用戶詞典。我們先后精心打造五年,內(nèi)核升級(jí)7次,目前已經(jīng)升級(jí)到了ICTCLAS2009用戶詞典接口擴(kuò)展用戶可以動(dòng)態(tài)增加、刪除用戶詞典中的詞,調(diào)節(jié)分詞的效果。提高了用戶詞典使用的靈活性。
ICTCLAS詞法分析系統(tǒng),從2009年開始,為了和以前工作進(jìn)行大的區(qū)隔,并推廣NLPIR自然語(yǔ)言處理與信息檢索共享平臺(tái),調(diào)整命名為NLPIR分詞系統(tǒng)。張華平博士先后傾力打造十余年,內(nèi)核升級(jí)十余次,先后獲得了2010年錢偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng),2003年國(guó)際SIGHAN分詞大賽綜合第一名,2002年國(guó)內(nèi)973評(píng)測(cè)綜合第一名。全球用戶突破30萬(wàn),包括中國(guó)移動(dòng)、華為、中搜、3721、NEC、中華商務(wù)網(wǎng)、硅谷動(dòng)力、云南日?qǐng)?bào)等企業(yè),清華大學(xué)、新疆大學(xué)、華南理工、麻省大學(xué)等機(jī)構(gòu):同時(shí),ICTCLAS廣泛地被《科學(xué)時(shí)報(bào)》、《人民日?qǐng)?bào)》海外版、《科技日?qǐng)?bào)》等多家媒體報(bào)道。您可以訪問Google進(jìn)一步了解ICTCLAS的應(yīng)用情況。
ictclas軟件功能
1.指紋提取
根據(jù)文章的內(nèi)容,結(jié)構(gòu),詞語(yǔ)間的關(guān)系,分析出能夠表示該文章的語(yǔ)義指紋,使用數(shù)字序列表示。
2.分詞粒度可調(diào)
可以控制分詞結(jié)果的粒度。共享版本提供兩種分詞粒度,標(biāo)準(zhǔn)粒度和粗粒度,滿足不同用戶的需求。
3.用戶詞典接口擴(kuò)展
用戶可以動(dòng)態(tài)增加、刪除用戶詞典中的詞,調(diào)節(jié)分詞的效果。提高了用戶詞典使用的靈活性。
4.詞性標(biāo)注功能加強(qiáng)
多種標(biāo)注級(jí)的選擇,系統(tǒng)可供選擇的標(biāo)注級(jí)有:計(jì)算所一級(jí)標(biāo)注級(jí),計(jì)算所二級(jí)標(biāo)注集,北大一級(jí)標(biāo)注集,北大二級(jí)標(biāo)注集。
5.關(guān)鍵詞提取
自動(dòng)抽取出能很好地代表文檔主題的若干個(gè)詞或短語(yǔ)。關(guān)鍵詞抽取技術(shù)廣泛應(yīng)用于信息檢索、文本分類/聚類、信息過(guò)濾、文檔摘要等各種智能文本信息處理領(lǐng)域,具有很好的應(yīng)用價(jià)值。
6.新詞發(fā)現(xiàn)與自適應(yīng)分詞功能
從較長(zhǎng)的文本內(nèi)容中,基于信息交叉熵自動(dòng)發(fā)現(xiàn)新特征語(yǔ)言,并自適應(yīng)測(cè)試語(yǔ)料的語(yǔ)言概率分布模型,實(shí)現(xiàn)自適應(yīng)分詞。
ictclas軟件優(yōu)勢(shì)
一、國(guó)內(nèi)和國(guó)際權(quán)威的公開評(píng)測(cè)、三萬(wàn)客戶的認(rèn)可
有些公司為了商業(yè)目的,關(guān)門自測(cè),自稱準(zhǔn)確度99.50%,沒有介紹測(cè)試環(huán)境和測(cè)試方法,封閉測(cè)試或者小規(guī)模的開放測(cè)試準(zhǔn)確度100%都不足為奇的,ICTCLAS1.0在國(guó)內(nèi)973專家組組織的評(píng)測(cè)中活動(dòng)獲得了第一名,ICTCLAS2.0在第一屆國(guó)際中文處理研究機(jī)構(gòu)SigHan組織的評(píng)測(cè)中都獲得了多項(xiàng)第一名,具體的參見系統(tǒng)評(píng)測(cè)部分。這些都是權(quán)威機(jī)構(gòu)進(jìn)行大規(guī)?,F(xiàn)場(chǎng)開放測(cè)試的結(jié)果,真實(shí)可信。
ICTCLAS已經(jīng)向國(guó)內(nèi)外的企業(yè)和學(xué)術(shù)機(jī)構(gòu)頒發(fā)了30,000多份授權(quán),其中包括3721、NEC、中華商務(wù)網(wǎng)、硅谷動(dòng)力、云南日?qǐng)?bào)等企業(yè),新疆大學(xué)、清華大學(xué)、華南理工、麻省大學(xué);同時(shí),ICTCLAS廣泛地被《科學(xué)時(shí)報(bào)》、《人民日?qǐng)?bào)》海外版、《科技日?qǐng)?bào)》等多家媒體報(bào)道。您可以訪問Google進(jìn)一步了解ICTCLAS的應(yīng)用情況。
二、綜合性能最優(yōu)
分詞系統(tǒng)能否達(dá)到實(shí)用性要求主要取決于兩個(gè)因素:分詞精度與分析速度,這兩者相互制約,難以平衡。大多數(shù)系統(tǒng)往往陷入“快而不準(zhǔn),準(zhǔn)而不快”的窘境。我們研制出了完美PDAT大規(guī)模知識(shí)庫(kù)管理技術(shù),在高速度與高精度之間取得了重大突破,該技術(shù)可以管理百萬(wàn)級(jí)別的詞典知識(shí)庫(kù),單機(jī)每秒可以查詢100萬(wàn)詞條,而內(nèi)存消耗不到知識(shí)庫(kù)大小的1.5倍?;谠摷夹g(shù),ICTCLAS3.0分詞速度單機(jī)996KB/s,分詞精度98.45%,API不超過(guò)200KB,各種詞典數(shù)據(jù)壓縮后不到3M,是當(dāng)前世界上最好的漢語(yǔ)詞法分析器。
三、統(tǒng)一的語(yǔ)言計(jì)算理論框架
漢語(yǔ)分詞牽涉到漢語(yǔ)分詞、未定義詞識(shí)別、詞性標(biāo)注以及語(yǔ)言特例等多個(gè)因素,大多數(shù)系統(tǒng)缺乏統(tǒng)一的處理方法,往往采用松散耦合的模塊組合方式,最終模型并不能準(zhǔn)確有效地表達(dá)千差萬(wàn)別的語(yǔ)言現(xiàn)象,而ICTCLAS采用了層疊隱馬爾可夫模型(Hierarchical Hidden Markov Model),將漢語(yǔ)詞法分析的所有環(huán)節(jié)都統(tǒng)一到了一個(gè)完整的理論框架中,獲得最好的總體效果,相關(guān)理論研究發(fā)表在頂級(jí)國(guó)際會(huì)議和雜志上,從理論上和實(shí)踐上都證實(shí)了該模型的先進(jìn)性。
四、全方位支持各種環(huán)境下的應(yīng)用開發(fā)
ICTCLAS全部采用C/C++編寫,支持Linux、FreeBSD及Windows系列操作系統(tǒng),支持C/C++/C#/Delphi/Java等主流的開發(fā)語(yǔ)言。
五、應(yīng)需而變,量身定做
所有功能模塊均可拆卸組裝,ICTCLAS有GB2312和BIG5版本,可分別處理目簡(jiǎn)繁體中文;支持當(dāng)前廣泛承認(rèn)的分詞和詞類標(biāo)準(zhǔn),包括計(jì)算所詞類標(biāo)注集ICTPOS3.0,北大標(biāo)準(zhǔn)、濱州大學(xué)標(biāo)準(zhǔn)、國(guó)家語(yǔ)委標(biāo)準(zhǔn)、臺(tái)灣“中研院”、香港“城市大學(xué)”;用戶可以直接自定義輸出的詞類標(biāo)準(zhǔn),定義輸出格式;用戶可以根據(jù)自己的需求,進(jìn)行量身自助式定做適合自己的分詞系統(tǒng)。
ictclas更新日志
1.對(duì)部分功能進(jìn)行了優(yōu)化
2.解了好多不能忍的bug
華軍小編推薦:
放眼望去,互聯(lián)網(wǎng)與本軟件類似的軟件到處都是,如果您用不習(xí)慣這個(gè)軟件,不妨來(lái)試試中國(guó)漢語(yǔ)成語(yǔ)字典電子版、易字帖、寫作大詞海2017、中華古文博覽、作文之星等軟件,希望您能喜歡!
您的評(píng)論需要經(jīng)過(guò)審核才能顯示
有用
有用
有用