1. 中研院CKIP parser
http://ckipsvr.iis.sinica.edu.tw/
http://parser.iis.sinica.edu.tw/
#繁體 #斷詞 #詞性標記 #句型結構 #修飾關係
1. 有點慢,準確率最高
2. 可透過web service呼叫(詞性較粗)或爬網頁(詞性較細)。
3. 可細分四十多種詞性,如名詞可細分為地方名詞、普通名詞,專有名詞等。
2. stanford parser
http://nlp.stanford.edu/software/lex-parser.shtml
http://nlp.stanford.edu/software/segmenter.shtml
http://nlp.stanford.edu/software/tagger.shtml
#簡體 #斷詞 #詞性標記 #句型結構 #修飾關係 #NER
1. 處理繁體建議先轉成簡體以得到較佳效果
2. 可下載單機版,可自己訓練繁體模型(不知道有沒有人分享出來)
3. 支援多種程式語言:JAVA, Python, Ruby, PHP
4. 詞性有十幾種
5. 有NER 具名實體辨識
3. mmseg 斷詞
http://technology.chtsai.org/mmseg/
可下載單機版,可自己訓練繁體模型,可使用自訂字典
4.SCWS 中文分词
http://www.xunsearch.com/scws/
雖然是中國開發者做的,但試過處理正體中文也 OK ,只是詞庫並不是很豐富就是了。詞庫可以擴充,主要針對 PHP 開發者。
5.NLTK
python的自然語言處理包,需要先斷詞
6.CNLP
師大語言所製作的中文處理整合包(基於NLTK),根據網頁說明,能處理經中研院斷詞、詞性標記過的文本,其他系統處理的斷詞不曉得能不能適用
http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5
7.結巴中文分詞(簡中)
https://github.com/fxsjy/jieba
8. FudanNLP(簡中)
https://github.com/xpqiu/fnlp/
9. Glove
Create word embeddings for further analysis
http://nlp.stanford.edu/projects/glove/
10. OpenCC
繁簡轉換
https://github.com/BYVoid/OpenCC
11. ansj
簡體斷詞
https://github.com/NLPchina/ansj_seg
12. 國教院分詞系統
中研院 CKIP 的衍生系統,據國教院的同仁說,新近詞的收量較大,跑起來也稍快些。
http://120.127.233.228/Segmentor/
另外還附有一個語料索引系統:http://120.127.233.228/Concordancer/
13. cjknife
ref: http://logbot.g0v.tw/channel/g0v.tw/2015-03-26#94
異體字的辨識,輸出範例
cjknife -i 寳
14. Unicode Normalization
主要是用在清理一些看起來長的一樣但實際字碼不同的字
官方定義: http://unicode.org/reports/tr15/
PHP: http://php.net/manual/en/class.normalizer.php
JS: https://github.com/walling/unorm
15.JIEBA 結巴中文斷詞
1. 句型結構 syntactic structure
主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等
ps. 中英文的句型不一樣,所以括號內的英文句型詞彙只是簡單解釋,非相等。
2. 修飾關係 dependency relation
例句: 猴子喜歡吃香蕉。
ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語
dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語
3. NER, Named Entity Recognition, 具名實體辨識
可以抽取出特定專有名詞,常見的如人名、地名、組織名、數字、時間(time)、日期(date)。
cicilia> 簡體的分詞器用在繁體文章,正確率大概是75%跟95%的差別,除了字典以外,訓練的語料庫影響也很大。繁體也有很多分詞器了。