中文中有一詞多義,相比英文分析,中文語義分析的語義分析面臨更多技術難題。靈玖大數據在研發過程中,充分考慮到了中文特殊性,針對一詞多義和文章中出現的新地點名均提出了解決方案,提高了中文語義分析的準確性。
漢語智能分詞
中文分詞是語義分析的基礎階段,是進行中文信息處理必備的核心部件。靈玖綜合了各家所長,采用條件隨機場(Conditional Random Field,簡稱CRF)模型。
條件隨機場運用CRF模型,采用了先將漢語語言進行定性的方式分析語言,根據自然語言的運用環境對多義詞進行定義,極大地提高了中文語言解析的準確性,**詞性標注準確率接近99%,準確率高、速度快、可適應性強。
除了對多義詞的高準確率區分,在對一些地點和機構名的識別問題上,即使這類詞沒有事先存入系統,CRF模型同樣能夠自動挖掘出這類詞。條件隨機場極大地提高了識別的準確率,能夠滿足多樣場景需求。
文本關鍵字提取
提取文章關鍵詞對于讀取文章的意義在于,在掌握文章的主題思想的前提下,了解文章關鍵字能夠達到精華閱讀效果,完成文章的語義查詢和快速匹配。采用基于語義分析的語言統計模型,文檔使用的范圍也更加廣泛,對新詞的識別率也很高。
關鍵詞提取組件的主要特點包括:
1、速度快:實現對海量網絡文本處理,實現每小時50篇文檔的高效處理模式。
2、處理精準: N的結果反應了文章的主要枝干方向。
3、精準排序:根據影響權重進行排序,關鍵詞可以輸出權重值;
4、開放式接口:作為LJParser的一部分,文章關鍵詞能夠提取組件采用靈活的開發接口,能夠方便地融入到用戶的業務系統中,以及支持各種操作系統和調用語言。
自動文本摘要
對文章進行摘要提取能夠使用戶快速掌握文章內容,提供工作效率。
自動摘要的中間件能夠處理的不只是單篇文章的摘要提取,還包括對同類型的文章進行處理,提取出一篇簡明扼要的摘要。同時,用戶可以自由設定摘要的長度、百分比等參數;處理速度達到每秒鐘20篇。
靈玖軟件專注于大數據語義智能分析,憑借其在自然語言處理、信息檢索、信息過濾、知識圖譜等方向的**核心技術積累,形成了面向大型企業和政府軍隊的一系列語義智能化軟件系統。
|