漢語分詞(Chinese Word Segmentation) 指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個(gè)應(yīng)用。其他的比如機(jī)器翻譯(MT)、語音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對(duì)等等,都需要用到分詞。 漢語自動(dòng)分詞是目前中文信息處理領(lǐng)域公認(rèn)的一大難題,也是自然語言理解研究領(lǐng)域中較基本的一個(gè)環(huán)節(jié)。中文自動(dòng)分詞就是將用自然語言書寫的文章、句段經(jīng)計(jì)算機(jī)處理后,以詞為單位逐詞輸出,為緊隨其后的加工處理提供先決條件,如圖1所示??梢?,中文自動(dòng)分詞是自然語言處理的**個(gè)步驟,其重要性勿庸置疑。 然而,漢語自動(dòng)分詞存在很大的挑戰(zhàn)。命名實(shí)體識(shí)別、新詞處理和歧義消解是三個(gè)較根本又很棘手的問題。這里所謂的命名實(shí)體指的是人名、機(jī)構(gòu)名、地名以及其他所有以名稱為標(biāo)識(shí)的實(shí)體。例如,“計(jì)算技術(shù)研究所”,“斯琴高娃”,“石家莊”,要是在訓(xùn)練集中沒有包含這些詞的先驗(yàn)知識(shí),那么將它們完整從句子中切分出來是很困難的。新詞發(fā)現(xiàn)也叫做未登錄詞。這些詞的出現(xiàn)是由于數(shù)據(jù)集范圍的局限性以及新詞的產(chǎn)生。它們包括了部分的命名實(shí)體、網(wǎng)絡(luò)用語等,如何對(duì)這些未能從數(shù)據(jù)集中獲得知識(shí)的詞切分,依舊值得認(rèn)真研究。常見的兩種漢語分詞的歧義有:1)交集型切分歧義。例如,給定一個(gè)輸入句子——“結(jié)合成分子”,由于其中的“結(jié)合”、“合成”、“成分”和“分子”都能構(gòu)成詞,因此對(duì)切分來說造成了一定的困難;2)組合型歧義。例如“門把手弄壞了”,由于字之間的不同組合,可能存在的分詞結(jié)果有:“門/把/手/弄壞了”和“門/把手/弄/壞/了”。盡管存在這么多的難以處理的問題,新的分詞方法還是在不斷被發(fā)掘。 而靈玖大數(shù)據(jù)漢語智能分詞系統(tǒng)是在多年研究基礎(chǔ)上,耗時(shí)一年研制出了基于條件隨機(jī)場(chǎng)(Conditional Random Field,簡(jiǎn)稱CRF)模型,該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識(shí)別。分詞準(zhǔn)確率接近99%,具備準(zhǔn)確率高、速度快、可適應(yīng)性強(qiáng)等優(yōu)勢(shì);特色功能包括:切分粒度可調(diào)整,融合20余部行業(yè)專有詞典,支持用戶自定義詞典等。 大數(shù)據(jù)漢語智能分詞系統(tǒng)充分解決了中文分詞里三個(gè)主要的問題: 1、詞性標(biāo)注能對(duì)漢語語言進(jìn)行詞性的自動(dòng)標(biāo)注,它能夠真正理解中文,自動(dòng)根據(jù)語言環(huán)境將詞語諸如“建設(shè)”標(biāo)注為“名詞”或“動(dòng)詞”。 2、人名地名機(jī)構(gòu)名識(shí)別能夠自動(dòng)挖掘出隱含在漢語中的人名、地名、機(jī)構(gòu)名,所提煉出的詞語不需要在詞典庫中事先存在,是對(duì)語言規(guī)律的深入理解和預(yù)測(cè)。 3. 新詞發(fā)現(xiàn):從文件集合中挖掘出內(nèi)涵的新詞語列表,可以用于用戶專業(yè)詞典的編撰;還可以進(jìn)一步編輯標(biāo)注,導(dǎo)入分詞詞典中,從而提高分詞系統(tǒng)的準(zhǔn)確度,并適應(yīng)新的語言變化。
詞條
詞條說明
靈玖LJKeyScanner關(guān)鍵詞敏感掃描不是簡(jiǎn)單的處理
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們?nèi)粘+@取信息和知識(shí)的重要媒介?;ヂ?lián)網(wǎng)包含了龐大的信息量,具有開放性、動(dòng)態(tài)性、匿名信、互動(dòng)性等特點(diǎn),它不僅給人們帶來了豐富的信息,也成為人們自由交互信息的平臺(tái)。與此同時(shí),互聯(lián)網(wǎng)固有的分散性等特點(diǎn)也給網(wǎng)絡(luò)資源統(tǒng)一管理造成了困難。許多敏感的、不健康的、甚至是惡意的信息摻雜其中。對(duì)社會(huì)穩(wěn)定和人們身心健康造成了較大的危害,特別是影響青少年的健康成長(zhǎng)。為此,我國(guó)乃至世界
隨著計(jì)算機(jī)網(wǎng)絡(luò)的飛速普及,人們已經(jīng)進(jìn)入了信息時(shí)代。在這個(gè)信息社會(huì)里,信息的重要性與日俱增,無論是個(gè)人,企業(yè),乃至**都需要獲取大量有用的信息。誰掌握了信息,誰就能在競(jìng)爭(zhēng)中處于有利位置。在這種環(huán)境下,搜索引擎技術(shù)逐漸成為技術(shù)人員的開發(fā)熱點(diǎn),而其中較為重要的技術(shù)就是分詞技術(shù)。 中文分詞,顧名思義,就是借助計(jì)算機(jī)自動(dòng)給中文斷句,使其能夠正確表達(dá)所要表達(dá)的意思。中文不同于西文,沒有空格這個(gè)分隔符,同時(shí)在
文本語義敏感關(guān)鍵詞過濾*:LJKeyScanner
在信息化高度發(fā)達(dá)的今天,互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息,即時(shí)溝通的重要媒介之一,給人們工作生活帶來了很大的便利。但是由于其**性、開放性、即時(shí)性的特點(diǎn),互聯(lián)網(wǎng)也成為眾多信息傳播的重要途徑,與傳統(tǒng)媒體相比較為棘手。如何對(duì)互聯(lián)網(wǎng)進(jìn)行有效的管理,過濾其中的不良信息,凈化網(wǎng)絡(luò)環(huán)境成為苛待解決的問題。 目前網(wǎng)絡(luò)中70%的信息是以文本形式存在,網(wǎng)頁文本過濾成為目前網(wǎng)絡(luò)監(jiān)控的較重要手段。文本過濾方法有很多,關(guān)鍵字
敏感信息LJKeyScanner過濾系統(tǒng)的市場(chǎng)應(yīng)用
當(dāng)今時(shí)代是互聯(lián)網(wǎng)時(shí)代,互聯(lián)網(wǎng)作為這個(gè)時(shí)代的主題使得這個(gè)時(shí)代具有資源共享性和信息傳播性的特點(diǎn),給人們的生活帶來了便利。網(wǎng)絡(luò)在為人們認(rèn)識(shí)世界帶來便利的同時(shí)也為有害信息的廣泛傳播提供了便捷且廣泛的途徑。人們?cè)谙硎芑ヂ?lián)網(wǎng)帶來的便利的同時(shí),也常常會(huì)受到一些非法信息的滋擾。因此信息安全問題對(duì)于維護(hù)網(wǎng)絡(luò)環(huán)境的健康有著十分重要的意義。 目前網(wǎng)絡(luò)的過濾技術(shù)主要有三種,它們是基于URL過濾方式、基于文本的過濾方式和
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機(jī): 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號(hào)盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機(jī): 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號(hào)盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com