盤古分詞可以對一些不在字典中的未登錄詞自動識別
詞頻優先
盤古分詞可以根據詞頻來解決分詞的歧義問題
多元分詞
盤古分詞提供多重輸出解決分詞粒度和分詞精度權衡的問題
中文人名識別
輸入: “張三說的確實在理”
分詞結果:張三/說/的/確實/在理/
輸入 “李三買了一張三角桌子”
分詞結果:李三/買/了/一張/三角/桌子/
強制一元分詞
輸入 “張三說的確實在理”
分詞結果: 張(0,1)/張三(0,5)/三說的(1,1)/三(1,1)/說(2,5)/的(3,5)/確(4,1)/確實(4,5)/實(5,1)/在(6,1)/在理(6,5)/理(7,1)/
繁體中文分詞
輸入"我的選擇"
分詞結果: 我/的/選擇/
同時輸出簡體和繁體
輸入"我的選擇"
分詞結果:我(0,5)/的(1,5)/選擇(2,1)/選擇(2,5)/
中文詞性輸出
盤古分詞可以將以登錄詞的中文詞性輸出給用戶,以方便用戶做進一步處理。
全角字符支持
盤古分詞可以識別全角的字母和數字
英文分詞英文分詞
英文單詞通常都是靠空格等符號分割,這個比較簡單,盤古分詞分英文自然也沒有什么問題。
英文專用詞識別
一些英文簡寫是字母符號混合,或者是字母數字混合,這個分詞起來就不能按照空格符號這樣分割了,對于字母符號混合的如 U.S.A ,
只要將這個詞錄入到字典中,盤古分詞就可以分出整詞。對于字母和數字混合的,盤古分詞會自動作為整詞輸出。
英文原詞輸出
英文大小寫同時輸出
其他功能停用詞過濾
對于一些標點符號,連詞,助詞等有時候需要在分詞時過濾掉,盤古分詞提供一個 StopWord.txt 文件,用戶只要將需要過濾的詞加入到這個文件中,
并將停用詞過濾開發打開,就可以過濾掉這些詞。
設置分詞權值
盤古分詞可以讓用戶對如下特性設置自定義權值
1.未登錄詞權值
2.最匹配詞權值
3.次匹配詞權值
4.再次匹配詞權值
5.強行輸出的單字的權值
6.數字的權值
7.英文詞匯權值
8.符號的權值
9.強制同時輸出簡繁漢字時,非原來文本的漢字輸出權值。
*用戶自定義規則
字典管理
盤古分詞提供一個字典管理工具 DictManage 通過這個工具,你可以增加,修改,和刪除字典中的單詞
動態加載字典
通過字典工具增加,修改,和刪除字典中的單詞后,保持字典,盤古分詞會自動將新的字典文件加載進去,而不需要重新啟動。
關鍵詞高亮組件
Lucene 提供了一個關鍵詞高亮組件,但這個組件對中文的支持不是特別好,特別是如果還有多元分詞的情況,處理的就更不好。
盤古分詞提供了一個針對中文和英文的關鍵詞高亮組件 PanGu.HighLight ,其對中文的支持要好于Lucene 那個高亮組件。
同義詞輸出(后續版本提供)
Lucene.net 接口及示例
在PanGu4Lucene 這個包里面有我做的一個盤古+Lucene 的簡單新聞搜索Web示例程序,Release 包里面有使用說明。
性能指標
Core Duo 1.8 GHz 下單線程 分詞速度為 390K 字符每秒,2線程分詞速度為 690K 字符每秒。
- PC官方版
- 安卓官方手機版
- IOS官方手機版