功能介紹
rostcm主要包括三個(gè)部分:全網(wǎng)檢索、本地文獻(xiàn)庫對(duì)比和少量文獻(xiàn)對(duì)比。
軟件欄目有聊天分析、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、微博分析和期刊分析。
通過這套系統(tǒng),我們能夠判斷論文是否是抄襲的。在分析論文是否抄襲部分,還可以進(jìn)行功能性分析(字頻分析、英文詞頻分析、中文詞頻分析、社會(huì)網(wǎng)絡(luò)和語義網(wǎng)絡(luò)分析、情感分析、流量分析、TF/IDF批量詞頻分析、相似分析),從而讓剽竊的論文無處藏身。
基本原理:
反剽竊軟件自動(dòng)將文檔切割為多個(gè)50到200字(可自定義)的小文本,通過混合引擎將其與188億個(gè)網(wǎng)頁和490萬篇文獻(xiàn)進(jìn)行模糊匹配,標(biāo)示出每個(gè)文本塊與文獻(xiàn)庫中的某些文獻(xiàn)的最大相似度。由此軟件統(tǒng)計(jì)出相似度≥95%(基本原封不動(dòng)抄襲)與相似度≥80%(略作修改后抄襲)的字?jǐn)?shù)所占總字?jǐn)?shù)比例。我們把這個(gè)比例作為剽竊(相似)程度衡量指標(biāo)。
系統(tǒng)需要XP系統(tǒng),word2003環(huán)境。
優(yōu)點(diǎn)
覆蓋面廣,通過混合引擎覆蓋約188億個(gè)網(wǎng)頁和490萬篇論文。系統(tǒng)采用自研的ROST WebSpider和ROST SEAT算法實(shí)現(xiàn)了對(duì)互聯(lián)網(wǎng)和部分期刊網(wǎng)的廣度覆蓋。
模糊檢測(cè),柔性匹配,為防止抄襲者替換部分字符,刪除部分標(biāo)點(diǎn)符號(hào),系統(tǒng)通過相似度來進(jìn)行判定。系統(tǒng)采用自研的ROST Similar算法實(shí)現(xiàn)高速相似性檢測(cè)和度量。系統(tǒng)采用自研的QingQing算法提取信息指紋,在P3、512MBPC上,分詞速度為13MB/S,已在互聯(lián)網(wǎng)提供評(píng)測(cè)版供業(yè)內(nèi)評(píng)測(cè)。
本軟件檢測(cè)結(jié)果只能作為一個(gè)參考,可以使用表格右鍵導(dǎo)出詳細(xì)檢查結(jié)果發(fā)送給被檢查本人,本軟件不對(duì)是否剽竊做結(jié)論,只是告訴你與現(xiàn)存文獻(xiàn)相似度高于80%的文字比例所占文章總數(shù)比例是多少。高于80%相似度的文字才是需要關(guān)注的。低于此值可以完全無視。
規(guī)范引文及參考文獻(xiàn)去除,降低誤判可能性。
自定義分塊檢測(cè)機(jī)制,將文章的每一文本塊與其他文檔的相似度都精確的表示出來了,每一文本塊約為50字至200字不等(可自定義),以紅色表示極度相似(相似度大于80%),一目了然,清晰醒目。當(dāng)設(shè)為50個(gè)字一塊時(shí),可以在較低信息粒度上查找出可能抄襲或相似的文獻(xiàn)。
相似文檔模塊跟蹤技術(shù),可以通過簡單操作直接定位相似文檔中哪些內(nèi)容被抄襲或者拷貝,直觀明了。
結(jié)果分析功能,自動(dòng)分析文檔相似結(jié)果,給出評(píng)價(jià)意見。
多種文件格式支持,包括PDF、DOC、PPT、XLS、TXT等文檔。
專有數(shù)據(jù)文件保存,不用反復(fù)檢測(cè),浪費(fèi)時(shí)間。
缺點(diǎn)
本反剽竊系統(tǒng)不能覆蓋世界上所有中英文文獻(xiàn),關(guān)于覆蓋率與查全率的相關(guān)性問題,正在研究中。
檢測(cè)時(shí)間略長,本軟件每檢測(cè)200字需要7秒鐘,一篇8000字的文檔至少耗費(fèi)約5分鐘,需要一點(diǎn)點(diǎn)耐心。
本軟件檢測(cè)結(jié)果存在一個(gè)小的誤差,用更小的文檔塊進(jìn)行檢測(cè),可以減少誤差,但需要的時(shí)間會(huì)相應(yīng)增加,經(jīng)過我們?cè)诙嗉揖庉嫴康脑囉们闆r,塊數(shù)大小定為200字較為合適,此時(shí)誤差率也是可以接受的,文檔相似率一般是比實(shí)際的要低。
您的評(píng)論需要經(jīng)過審核才能顯示
有用
有用
有用