文本挖掘：靈玖大數(shù)據(jù)漢語智能分詞技術(shù)

時(shí)間：2016-11-21

　　漢語分詞(Chinese Word Segmentation) 指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞是其他中文信息處理的基礎(chǔ)，搜索引擎只是中文分詞的一個(gè)應(yīng)用。其他的比如機(jī)器翻譯(MT)、語音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對(duì)等等，都需要用到分詞。
　　漢語自動(dòng)分詞是目前中文信息處理領(lǐng)域公認(rèn)的一大難題，也是自然語言理解研究領(lǐng)域中較基本的一個(gè)環(huán)節(jié)。中文自動(dòng)分詞就是將用自然語言書寫的文章、句段經(jīng)計(jì)算機(jī)處理后，以詞為單位逐詞輸出，為緊隨其后的加工處理提供先決條件，如圖1所示?？梢?，中文自動(dòng)分詞是自然語言處理的**個(gè)步驟，其重要性勿庸置疑。
　　然而，漢語自動(dòng)分詞存在很大的挑戰(zhàn)。命名實(shí)體識(shí)別、新詞處理和歧義消解是三個(gè)較根本又很棘手的問題。這里所謂的命名實(shí)體指的是人名、機(jī)構(gòu)名、地名以及其他所有以名稱為標(biāo)識(shí)的實(shí)體。例如，“計(jì)算技術(shù)研究所”，“斯琴高娃”，“石家莊”，要是在訓(xùn)練集中沒有包含這些詞的先驗(yàn)知識(shí)，那么將它們完整從句子中切分出來是很困難的。新詞發(fā)現(xiàn)也叫做未登錄詞。這些詞的出現(xiàn)是由于數(shù)據(jù)集范圍的局限性以及新詞的產(chǎn)生。它們包括了部分的命名實(shí)體、網(wǎng)絡(luò)用語等，如何對(duì)這些未能從數(shù)據(jù)集中獲得知識(shí)的詞切分，依舊值得認(rèn)真研究。常見的兩種漢語分詞的歧義有：1)交集型切分歧義。例如，給定一個(gè)輸入句子——“結(jié)合成分子”，由于其中的“結(jié)合”、“合成”、“成分”和“分子”都能構(gòu)成詞，因此對(duì)切分來說造成了一定的困難;2)組合型歧義。例如“門把手弄壞了”，由于字之間的不同組合，可能存在的分詞結(jié)果有：“門/把/手/弄壞了”和“門/把手/弄/壞/了”。盡管存在這么多的難以處理的問題，新的分詞方法還是在不斷被發(fā)掘。
　　而靈玖大數(shù)據(jù)漢語智能分詞系統(tǒng)是在多年研究基礎(chǔ)上，耗時(shí)一年研制出了基于條件隨機(jī)場(chǎng)(Conditional Random Field,簡(jiǎn)稱CRF)模型，該系統(tǒng)的功能有：中文分詞;詞性標(biāo)注;未登錄詞識(shí)別。分詞準(zhǔn)確率接近99%，具備準(zhǔn)確率高、速度快、可適應(yīng)性強(qiáng)等優(yōu)勢(shì);特色功能包括：切分粒度可調(diào)整，融合20余部行業(yè)專有詞典，支持用戶自定義詞典等。
　　大數(shù)據(jù)漢語智能分詞系統(tǒng)充分解決了中文分詞里三個(gè)主要的問題：
　　1、詞性標(biāo)注能對(duì)漢語語言進(jìn)行詞性的自動(dòng)標(biāo)注，它能夠真正理解中文，自動(dòng)根據(jù)語言環(huán)境將詞語諸如“建設(shè)”標(biāo)注為“名詞”或“動(dòng)詞”。
　　2、人名地名機(jī)構(gòu)名識(shí)別能夠自動(dòng)挖掘出隱含在漢語中的人名、地名、機(jī)構(gòu)名，所提煉出的詞語不需要在詞典庫中事先存在，是對(duì)語言規(guī)律的深入理解和預(yù)測(cè)。
　　3. 新詞發(fā)現(xiàn)：從文件集合中挖掘出內(nèi)涵的新詞語列表，可以用于用戶專業(yè)詞典的編撰;還可以進(jìn)一步編輯標(biāo)注，導(dǎo)入分詞詞典中，從而提高分詞系統(tǒng)的準(zhǔn)確度，并適應(yīng)新的語言變化。

詞條
詞條說明
靈玖LJKeyScanner關(guān)鍵詞敏感掃描不是簡(jiǎn)單的處理
隨著互聯(lián)網(wǎng)的飛速發(fā)展，網(wǎng)絡(luò)已經(jīng)成為人們?nèi)粘＋@取信息和知識(shí)的重要媒介?；ヂ?lián)網(wǎng)包含了龐大的信息量，具有開放性、動(dòng)態(tài)性、匿名信、互動(dòng)性等特點(diǎn)，它不僅給人們帶來了豐富的信息，也成為人們自由交互信息的平臺(tái)。與此同時(shí)，互聯(lián)網(wǎng)固有的分散性等特點(diǎn)也給網(wǎng)絡(luò)資源統(tǒng)一管理造成了困難。許多敏感的、不健康的、甚至是惡意的信息摻雜其中。對(duì)社會(huì)穩(wěn)定和人們身心健康造成了較大的危害，特別是影響青少年的健康成長(zhǎng)。為此，我國(guó)乃至世界
NLPIR漢語分詞為自然語言處理提供新方向
隨著計(jì)算機(jī)網(wǎng)絡(luò)的飛速普及,人們已經(jīng)進(jìn)入了信息時(shí)代。在這個(gè)信息社會(huì)里,信息的重要性與日俱增,無論是個(gè)人,企業(yè),乃至**都需要獲取大量有用的信息。誰掌握了信息,誰就能在競(jìng)爭(zhēng)中處于有利位置。在這種環(huán)境下,搜索引擎技術(shù)逐漸成為技術(shù)人員的開發(fā)熱點(diǎn),而其中較為重要的技術(shù)就是分詞技術(shù)。中文分詞，顧名思義，就是借助計(jì)算機(jī)自動(dòng)給中文斷句，使其能夠正確表達(dá)所要表達(dá)的意思。中文不同于西文，沒有空格這個(gè)分隔符，同時(shí)在
文本語義敏感關(guān)鍵詞過濾*：LJKeyScanner
在信息化高度發(fā)達(dá)的今天，互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息，即時(shí)溝通的重要媒介之一，給人們工作生活帶來了很大的便利。但是由于其**性、開放性、即時(shí)性的特點(diǎn)，互聯(lián)網(wǎng)也成為眾多信息傳播的重要途徑，與傳統(tǒng)媒體相比較為棘手。如何對(duì)互聯(lián)網(wǎng)進(jìn)行有效的管理，過濾其中的不良信息，凈化網(wǎng)絡(luò)環(huán)境成為苛待解決的問題。目前網(wǎng)絡(luò)中70%的信息是以文本形式存在，網(wǎng)頁文本過濾成為目前網(wǎng)絡(luò)監(jiān)控的較重要手段。文本過濾方法有很多，關(guān)鍵字
敏感信息LJKeyScanner過濾系統(tǒng)的市場(chǎng)應(yīng)用
當(dāng)今時(shí)代是互聯(lián)網(wǎng)時(shí)代，互聯(lián)網(wǎng)作為這個(gè)時(shí)代的主題使得這個(gè)時(shí)代具有資源共享性和信息傳播性的特點(diǎn)，給人們的生活帶來了便利。網(wǎng)絡(luò)在為人們認(rèn)識(shí)世界帶來便利的同時(shí)也為有害信息的廣泛傳播提供了便捷且廣泛的途徑。人們?cè)谙硎芑ヂ?lián)網(wǎng)帶來的便利的同時(shí)，也常常會(huì)受到一些非法信息的滋擾。因此信息安全問題對(duì)于維護(hù)網(wǎng)絡(luò)環(huán)境的健康有著十分重要的意義。目前網(wǎng)絡(luò)的過濾技術(shù)主要有三種,它們是基于URL過濾方式、基于文本的過濾方式和

標(biāo)簽：文本挖掘：靈玖大數(shù)據(jù)漢語智能分詞技術(shù)

聯(lián)系方式聯(lián)系我時(shí)，請(qǐng)告知來自八方資源網(wǎng)！

公司名：靈玖中科軟件（北京）有限公司

聯(lián)系人：張寶

電　話： 010-62648216

手　機(jī)： 13681251543

微　信： 13681251543

地　址：北京海淀北京市海淀區(qū)蘇州街49-3號(hào)盈智大廈5層

郵　編：

網(wǎng)　址： ljrj123.cn.b2b168.com

八方資源網(wǎng)提醒您：
1、本信息由八方資源網(wǎng)用戶發(fā)布，八方資源網(wǎng)不介入任何交易過程，請(qǐng)自行甄別其真實(shí)性及合法性；
2、跟進(jìn)信息之前，請(qǐng)仔細(xì)核驗(yàn)對(duì)方資質(zhì)，所有預(yù)付定金或付款至個(gè)人賬戶的行為，均存在詐騙風(fēng)險(xiǎn)，請(qǐng)?zhí)岣呔瑁?

聯(lián)系方式