中文處理工具簡介

最後編輯:2015-08-15 建立:2014-11-14 歷史紀錄

 

張淵智1. 中研院CKIP parser

http://ckipsvr.iis.sinica.edu.tw/

http://parser.iis.sinica.edu.tw/

#繁#斷詞#詞性標記#句型結構#修飾關係

1. 有點慢,準確率最高

2. 可透過web service呼叫(詞性較粗)或爬網頁(詞性較細)。

3. 可細分四十多種詞性,如名詞可細分為地方名詞、普通名詞,專有名詞等。

    August Chao中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的,主要是因為在建立這個工具時,是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修…
    張淵智我申請帳號一直沒給認證信,工具下載下來也沒動靜,不知那邊出了問題
    張淵智能用了,不過速度有點慢
    張淵智現在繁體中文分詞器可以做到95%正確率,詞性標記也有90%,其他功能就比較低了。中文的詞性是很複雜的,又可以『轉品』,有的時候詞庫沒有涵蓋到的例子,也parser很難正確標記出來。

 

2. stanford parser

http://nlp.stanford.edu/software/lex-parser.shtml

YONG-SIANG Shttp://nlp.stanford.edu/software/segmenter.shtml

http://nlp.stanford.edu/software/tagger.shtml

張淵智#簡體#斷詞 #詞性標記 #句型結構 #修飾關係 #NER

1. 處理繁體建議先轉成簡體以得到較佳效果

2. 可下載單機版,可自己訓練繁體模型(不知道有沒有人分享出來)

3. 支援多種程式語言:JAVA, Python, Ruby, PHP

4. 詞性有十幾種

5. 有NER 具名實體辨識

 

3. mmseg 斷詞

http://technology.chtsai.org/mmseg/

#繁體 #斷詞 #

可下載單機版,可自己訓練繁體模型,可使用自訂字典

    張淵智我執行的時候跳出視窗說windows版本不符

4.SCWS 中文分词

http://www.xunsearch.com/scws/

雖然是中國開發者做的,但試過處理正體中文也 OK ,只是詞庫並不是很豐富就是了。詞庫可以擴充,主要針對 PHP 開發者。

 

5.NLTK

python的自然語言處理包,需要先斷詞

http://www.nltk.org/book/

 

6.CNLP

師大語言所製作的中文處理整合包(基於NLTK),根據網頁說明,能處理經中研院斷詞、詞性標記過的文本,其他系統處理的斷詞不曉得能不能適用

http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5

 

7.結巴中文分詞(簡中)

https://github.com/fxsjy/jieba

 

8. FudanNLP(簡中)

YONG-SIANG Shttps://github.com/xpqiu/fnlp/

 

9. Glove

Create word embeddings for further analysis

http://nlp.stanford.edu/projects/glove/

 

10. OpenCC

繁簡轉換

https://github.com/BYVoid/OpenCC

 

CHIENJ11. ansj

簡體斷詞

http://www.nlpcn.org/demo

https://github.com/NLPchina/ansj_seg

 

AUDREY T12. 國教院分詞系統

中研院 CKIP 的衍生系統,據國教院的同仁說,新近詞的收量較大,跑起來也稍快些。

http://120.127.233.228/Segmentor/

另外還附有一個語料索引系統:http://120.127.233.228/Concordancer/

 

KIANG13. cjknife

ref: http://logbot.g0v.tw/channel/g0v.tw/2015-03-26#94

異體字的辨識,輸出範例

cjknife -i 寳

  • Information for character 寳 (traditional locale, Unicode domain)
  • Unicode codepoint: U+5BF3 (23539, character form)
  • In character domains: Unicode, JISX0208, GlyphInformation, HKSCS, JISX0208_0213, BIG5HKSCS, IICore
  • Radical index: 40, radical form: ⼧
  • Stroke count: 19
  • Phonetic data (GR): bao
  • Phonetic data (MandarinBraille): ⠃⠖⠄
  • Phonetic data (MandarinIPA): pau˨˩˦
  • Phonetic data (Pinyin): bǎo
  • Phonetic data (WadeGiles): pao³
  • Semantic variants: 宝, 寶
  • Z-Variants: 寶
  • Glyph 0(*), stroke count: 19
  • ⿱宀  ⿱珎              貝      
  •  ⿻冖? ⿰王      尔      ⿱目    八
  •     ⿱一土    ⿱⺈小     ⿻口二  
  •       ⿱十  一  ⿻亅八     ⿱一一
  •        ⿻一丨    ⿰??
  • Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D)

14. Unicode Normalization

主要是用在清理一些看起來長的一樣但實際字碼不同的字

官方定義: http://unicode.org/reports/tr15/

PHP: http://php.net/manual/en/class.normalizer.php

CAASI HJS: https://github.com/walling/unorm

 

CHE L15.JIEBA 結巴中文斷詞

 

 

    張淵智名詞解釋

張淵智1. 句型結構 syntactic structure

主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等

ps. 中英文的句型不一樣,所以括號內的英文句型詞彙只是簡單解釋,非相等。

 

2. 修飾關係 dependency relation

例句: 猴子喜歡吃香蕉。

ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語

dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語

 

3. NER, Named Entity Recognition, 具名實體辨識

可以抽取出特定專有名詞,常見的如人名、地名、組織名、數字、時間(time)、日期(date)。

 

 

    CHE L經驗分享與討論

CHE Lcicilia> 簡體的分詞器用在繁體文章,正確率大概是75%跟95%的差別,除了字典以外,訓練的語料庫影響也很大。繁體也有很多分詞器了。