文本挖掘:靈玖大數(shù)據(jù)漢語智能分詞技術(shù)

      漢語分詞(Chinese Word Segmentation) 指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個(gè)應(yīng)用。其他的比如機(jī)器翻譯(MT)、語音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對(duì)等等,都需要用到分詞。
      漢語自動(dòng)分詞是目前中文信息處理領(lǐng)域公認(rèn)的一大難題,也是自然語言理解研究領(lǐng)域中較基本的一個(gè)環(huán)節(jié)。中文自動(dòng)分詞就是將用自然語言書寫的文章、句段經(jīng)計(jì)算機(jī)處理后,以詞為單位逐詞輸出,為緊隨其后的加工處理提供先決條件,如圖1所示??梢?,中文自動(dòng)分詞是自然語言處理的**個(gè)步驟,其重要性勿庸置疑。
      然而,漢語自動(dòng)分詞存在很大的挑戰(zhàn)。命名實(shí)體識(shí)別、新詞處理和歧義消解是三個(gè)較根本又很棘手的問題。這里所謂的命名實(shí)體指的是人名、機(jī)構(gòu)名、地名以及其他所有以名稱為標(biāo)識(shí)的實(shí)體。例如,“計(jì)算技術(shù)研究所”,“斯琴高娃”,“石家莊”,要是在訓(xùn)練集中沒有包含這些詞的先驗(yàn)知識(shí),那么將它們完整從句子中切分出來是很困難的。新詞發(fā)現(xiàn)也叫做未登錄詞。這些詞的出現(xiàn)是由于數(shù)據(jù)集范圍的局限性以及新詞的產(chǎn)生。它們包括了部分的命名實(shí)體、網(wǎng)絡(luò)用語等,如何對(duì)這些未能從數(shù)據(jù)集中獲得知識(shí)的詞切分,依舊值得認(rèn)真研究。常見的兩種漢語分詞的歧義有:1)交集型切分歧義。例如,給定一個(gè)輸入句子——“結(jié)合成分子”,由于其中的“結(jié)合”、“合成”、“成分”和“分子”都能構(gòu)成詞,因此對(duì)切分來說造成了一定的困難;2)組合型歧義。例如“門把手弄壞了”,由于字之間的不同組合,可能存在的分詞結(jié)果有:“門/把/手/弄壞了”和“門/把手/弄/壞/了”。盡管存在這么多的難以處理的問題,新的分詞方法還是在不斷被發(fā)掘。
      而靈玖大數(shù)據(jù)漢語智能分詞系統(tǒng)是在多年研究基礎(chǔ)上,耗時(shí)一年研制出了基于條件隨機(jī)場(chǎng)(Conditional Random Field,簡(jiǎn)稱CRF)模型,該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識(shí)別。分詞準(zhǔn)確率接近99%,具備準(zhǔn)確率高、速度快、可適應(yīng)性強(qiáng)等優(yōu)勢(shì);特色功能包括:切分粒度可調(diào)整,融合20余部行業(yè)專有詞典,支持用戶自定義詞典等。
      大數(shù)據(jù)漢語智能分詞系統(tǒng)充分解決了中文分詞里三個(gè)主要的問題:
      1、詞性標(biāo)注能對(duì)漢語語言進(jìn)行詞性的自動(dòng)標(biāo)注,它能夠真正理解中文,自動(dòng)根據(jù)語言環(huán)境將詞語諸如“建設(shè)”標(biāo)注為“名詞”或“動(dòng)詞”。
      2、人名地名機(jī)構(gòu)名識(shí)別能夠自動(dòng)挖掘出隱含在漢語中的人名、地名、機(jī)構(gòu)名,所提煉出的詞語不需要在詞典庫中事先存在,是對(duì)語言規(guī)律的深入理解和預(yù)測(cè)。
      3. 新詞發(fā)現(xiàn):從文件集合中挖掘出內(nèi)涵的新詞語列表,可以用于用戶專業(yè)詞典的編撰;還可以進(jìn)一步編輯標(biāo)注,導(dǎo)入分詞詞典中,從而提高分詞系統(tǒng)的準(zhǔn)確度,并適應(yīng)新的語言變化。

    靈玖中科軟件(北京)有限公司專注于大數(shù)據(jù)開發(fā),大數(shù)據(jù)搜索與挖掘,大數(shù)據(jù)中文分詞等

  • 詞條

    詞條說明

  • 靈玖LJKeyScanner關(guān)鍵詞敏感掃描不是簡(jiǎn)單的處理

    隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們?nèi)粘+@取信息和知識(shí)的重要媒介?;ヂ?lián)網(wǎng)包含了龐大的信息量,具有開放性、動(dòng)態(tài)性、匿名信、互動(dòng)性等特點(diǎn),它不僅給人們帶來了豐富的信息,也成為人們自由交互信息的平臺(tái)。與此同時(shí),互聯(lián)網(wǎng)固有的分散性等特點(diǎn)也給網(wǎng)絡(luò)資源統(tǒng)一管理造成了困難。許多敏感的、不健康的、甚至是惡意的信息摻雜其中。對(duì)社會(huì)穩(wěn)定和人們身心健康造成了較大的危害,特別是影響青少年的健康成長(zhǎng)。為此,我國(guó)乃至世界

  • NLPIR漢語分詞為自然語言處理提供新方向

    隨著計(jì)算機(jī)網(wǎng)絡(luò)的飛速普及,人們已經(jīng)進(jìn)入了信息時(shí)代。在這個(gè)信息社會(huì)里,信息的重要性與日俱增,無論是個(gè)人,企業(yè),乃至**都需要獲取大量有用的信息。誰掌握了信息,誰就能在競(jìng)爭(zhēng)中處于有利位置。在這種環(huán)境下,搜索引擎技術(shù)逐漸成為技術(shù)人員的開發(fā)熱點(diǎn),而其中較為重要的技術(shù)就是分詞技術(shù)。 中文分詞,顧名思義,就是借助計(jì)算機(jī)自動(dòng)給中文斷句,使其能夠正確表達(dá)所要表達(dá)的意思。中文不同于西文,沒有空格這個(gè)分隔符,同時(shí)在

  • 文本語義敏感關(guān)鍵詞過濾*:LJKeyScanner

    在信息化高度發(fā)達(dá)的今天,互聯(lián)網(wǎng)已經(jīng)成為人們獲取信息,即時(shí)溝通的重要媒介之一,給人們工作生活帶來了很大的便利。但是由于其**性、開放性、即時(shí)性的特點(diǎn),互聯(lián)網(wǎng)也成為眾多信息傳播的重要途徑,與傳統(tǒng)媒體相比較為棘手。如何對(duì)互聯(lián)網(wǎng)進(jìn)行有效的管理,過濾其中的不良信息,凈化網(wǎng)絡(luò)環(huán)境成為苛待解決的問題。 目前網(wǎng)絡(luò)中70%的信息是以文本形式存在,網(wǎng)頁文本過濾成為目前網(wǎng)絡(luò)監(jiān)控的較重要手段。文本過濾方法有很多,關(guān)鍵字

  • 敏感信息LJKeyScanner過濾系統(tǒng)的市場(chǎng)應(yīng)用

    當(dāng)今時(shí)代是互聯(lián)網(wǎng)時(shí)代,互聯(lián)網(wǎng)作為這個(gè)時(shí)代的主題使得這個(gè)時(shí)代具有資源共享性和信息傳播性的特點(diǎn),給人們的生活帶來了便利。網(wǎng)絡(luò)在為人們認(rèn)識(shí)世界帶來便利的同時(shí)也為有害信息的廣泛傳播提供了便捷且廣泛的途徑。人們?cè)谙硎芑ヂ?lián)網(wǎng)帶來的便利的同時(shí),也常常會(huì)受到一些非法信息的滋擾。因此信息安全問題對(duì)于維護(hù)網(wǎng)絡(luò)環(huán)境的健康有著十分重要的意義。 目前網(wǎng)絡(luò)的過濾技術(shù)主要有三種,它們是基于URL過濾方式、基于文本的過濾方式和

聯(lián)系方式 聯(lián)系我時(shí),請(qǐng)告知來自八方資源網(wǎng)!

公司名: 靈玖中科軟件(北京)有限公司

聯(lián)系人: 張寶

電 話: 010-62648216

手 機(jī): 13681251543

微 信: 13681251543

地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號(hào)盈智大廈5層

郵 編:

網(wǎng) 址: ljrj123.cn.b2b168.com

相關(guān)閱讀

影響噴霧干燥機(jī)干燥效果的因素有哪些 CZ125黃銅冷拉管 武漢公司注冊(cè)流程是怎樣的? 宿遷200免澆筑樓承板機(jī)器 紹興鋁拉伸模具涂層 銅扶手與銅樓梯的組合 淺談醫(yī)院節(jié)能降耗的意義和應(yīng)采取的措施 銅川/礦用微挖機(jī)|生產(chǎn)廠家 長(zhǎng)沙鉑樂滿家大黑牛床家具,告別腰酸睡眠的困擾 鄭州彩色瀝青混凝土路面主要性能特點(diǎn) 連云港市回收異丁酸 T4彈簧支吊架質(zhì)量評(píng)估與選擇建議 上海文件銷毀公司處理方法 山西休閑娛樂團(tuán)建 玉溪生活污水處理設(shè)備 大數(shù)據(jù)時(shí)代 九眼智能編織網(wǎng)絡(luò)管理安全網(wǎng) NLPIR教學(xué)科研平臺(tái)為大數(shù)據(jù)人才提供機(jī)遇 NLPIR語義分析解決自然語言理解技術(shù)難題 NLPIR平臺(tái)打造語義智能教學(xué)科研新理念 2018NLPIR新動(dòng)態(tài):推出大數(shù)據(jù)語義智能教學(xué)科研平臺(tái) 靈玖:Nlpir Parser智能語義平臺(tái)提升文本挖掘效果 靈玖軟件:NLPIR-Parser語義挖掘技術(shù)挖掘商業(yè)“石油” NLPIR人工智能技術(shù)智慧挖掘文本語義 糾文網(wǎng)論文智能核查融合人工智能和規(guī)則技術(shù) 靈玖軟件:NLPIR智能技術(shù)推動(dòng)NLP語義挖掘快速發(fā)展 NLPIR大數(shù)據(jù)平臺(tái)新功能力助中文語義深度挖掘 靈玖軟件:NLPIR語義技術(shù)賦予數(shù)據(jù)挖掘新生命 NLPIR語義智能系統(tǒng)可以文本多語言處理 NLPIR漢語分詞為自然語言處理提供新方向 NLPIR/ICTCLA2018分詞用戶體驗(yàn)日發(fā)布新語義技術(shù)
八方資源網(wǎng)提醒您:
1、本信息由八方資源網(wǎng)用戶發(fā)布,八方資源網(wǎng)不介入任何交易過程,請(qǐng)自行甄別其真實(shí)性及合法性;
2、跟進(jìn)信息之前,請(qǐng)仔細(xì)核驗(yàn)對(duì)方資質(zhì),所有預(yù)付定金或付款至個(gè)人賬戶的行為,均存在詐騙風(fēng)險(xiǎn),請(qǐng)?zhí)岣呔瑁?
    聯(lián)系方式

公司名: 靈玖中科軟件(北京)有限公司

聯(lián)系人: 張寶

手 機(jī): 13681251543

電 話: 010-62648216

地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號(hào)盈智大廈5層

郵 編:

網(wǎng) 址: ljrj123.cn.b2b168.com

    相關(guān)企業(yè)
    商家產(chǎn)品系列
  • 產(chǎn)品推薦
  • 資訊推薦
關(guān)于八方 | 八方幣 | 招商合作 | 網(wǎng)站地圖 | 免費(fèi)注冊(cè) | 一元廣告 | 友情鏈接 | 聯(lián)系我們 | 八方業(yè)務(wù)| 匯款方式 | 商務(wù)洽談室 | 投訴舉報(bào)
粵ICP備10089450號(hào)-8 - 經(jīng)營(yíng)許可證編號(hào):粵B2-20130562 軟件企業(yè)認(rèn)定:深R-2013-2017 軟件產(chǎn)品登記:深DGY-2013-3594
著作權(quán)登記:2013SR134025
Copyright ? 2004 - 2024 b2b168.com All Rights Reserved