中文處理工具簡介

編輯歷史

時間 作者 版本
2017-07-07 17:45 – 17:45 (unknown) r0 – r1
顯示 diff
+ 中文處理工具簡介
+
+ 1. 中研院CKIP parser
+ http://ckipsvr.iis.sinica.edu.tw/
+ http://parser.iis.sinica.edu.tw/
+ ‪#繁體‬ ‪#斷詞‬ ‪#詞性標記‬ ‪#句型結構‬ ‪#修飾關係‬
+ 1. 有點慢,準確率最高
+ 2. 可透過web service呼叫(詞性較粗)或爬網頁(詞性較細)。
+ 3. 可細分四十多種詞性,如名詞可細分為地方名詞、普通名詞,專有名詞等。
+ *中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的,主要是因為在建立這個工具時,是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修…
+ *我申請帳號一直沒給認證信,工具下載下來也沒動靜,不知那邊出了問題
+ *能用了,不過速度有點慢
+ *現在繁體中文分詞器可以做到95%正確率,詞性標記也有90%,其他功能就比較低了。中文的詞性是很複雜的,又可以『轉品』,有的時候詞庫沒有涵蓋到的例子,也parser很難正確標記出來。
+
+ 2. stanford parser
+ http://nlp.stanford.edu/software/lex-parser.shtml
+ http://nlp.stanford.edu/software/segmenter.shtml
+ http://nlp.stanford.edu/software/tagger.shtml
+ ‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬
+ 1. 處理繁體建議先轉成簡體以得到較佳效果
+ 2. 可下載單機版,可自己訓練繁體模型(不知道有沒有人分享出來)
+ 3. 支援多種程式語言:JAVA, Python, Ruby, PHP
+ 4. 詞性有十幾種
+ 5. 有NER 具名實體辨識
+
+ 3. mmseg 斷詞
+ http://technology.chtsai.org/mmseg/
+ #繁體 #斷詞 ‪#快‬
+ 可下載單機版,可自己訓練繁體模型,可使用自訂字典
+ *我執行的時候跳出視窗說windows版本不符
+ 4.SCWS 中文分词
+ http://www.xunsearch.com/scws/
+ 雖然是中國開發者做的,但試過處理正體中文也 OK ,只是詞庫並不是很豐富就是了。詞庫可以擴充,主要針對 PHP 開發者。
+
+ 5.NLTK
+ python的自然語言處理包,需要先斷詞
+ http://www.nltk.org/book/
+
+ 6.CNLP
+ 師大語言所製作的中文處理整合包(基於NLTK),根據網頁說明,能處理經中研院斷詞、詞性標記過的文本,其他系統處理的斷詞不曉得能不能適用
+ http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5
+
+ 7.結巴中文分詞(簡中)
+ https://github.com/fxsjy/jieba
+
+ 8. FudanNLP(簡中)
+ https://github.com/xpqiu/fnlp/
+
+ 9. Glove
+ Create word embeddings for further analysis
+ http://nlp.stanford.edu/projects/glove/
+
+ 10. OpenCC
+ 繁簡轉換
+ https://github.com/BYVoid/OpenCC
+
+ 11. ansj
+ 簡體斷詞
+ http://www.nlpcn.org/demo
+ https://github.com/NLPchina/ansj_seg
+
+ 12. 國教院分詞系統
+ 中研院 CKIP 的衍生系統,據國教院的同仁說,新近詞的收量較大,跑起來也稍快些。
+ http://120.127.233.228/Segmentor/
+ 另外還附有一個語料索引系統:http://120.127.233.228/Concordancer/
+
+ 13. cjknife
+ ref: http://logbot.g0v.tw/channel/g0v.tw/2015-03-26#94
+ 異體字的辨識,輸出範例
+ cjknife -i 寳
+ *Information for character 寳 (traditional locale, Unicode domain)
+ *Unicode codepoint: U+5BF3 (23539, character form)
+ *In character domains: Unicode, JISX0208, GlyphInformation, HKSCS, JISX0208_0213, BIG5HKSCS, IICore
+ *Radical index: 40, radical form: ⼧
+ *Stroke count: 19
+ *Phonetic data (GR): bao
+ *Phonetic data (MandarinBraille): ⠃⠖⠄
+ *Phonetic data (MandarinIPA): pau˨˩˦
+ *Phonetic data (Pinyin): bǎo
+ *Phonetic data (WadeGiles): pao³
+ *Semantic variants: 宝, 寶
+ *Z-Variants: 寶
+ *Glyph 0(*), stroke count: 19
+ *⿱宀  ⿱珎              貝      
+ * ⿻冖? ⿰王      尔      ⿱目    八
+ *    ⿱一土    ⿱⺈小     ⿻口二  
+ *      ⿱十  一  ⿻亅八     ⿱一一
+ *       ⿻一丨    ⿰??
+ *Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D)
+ 14. Unicode Normalization
+ 主要是用在清理一些看起來長的一樣但實際字碼不同的字
+ 官方定義: http://unicode.org/reports/tr15/
+ PHP: http://php.net/manual/en/class.normalizer.php
+ JS: https://github.com/walling/unorm
+
+ 15.JIEBA 結巴中文斷詞
+ *介紹簡報:https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci
+
+
+ *名詞解釋
+ 1. 句型結構 syntactic structure
+ 主語(主詞),述語(動詞),賓語(受詞),子句,連接詞等
+ ps. 中英文的句型不一樣,所以括號內的英文句型詞彙只是簡單解釋,非相等。
+
+ 2. 修飾關係 dependency relation
+ 例句: 猴子喜歡吃香蕉。
+ ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語
+ dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語
+
+ 3. NER, Named Entity Recognition, 具名實體辨識
+ 可以抽取出特定專有名詞,常見的如人名、地名、組織名、數字、時間(time)、日期(date)。
+
+ *經驗分享與討論
+ cicilia> 簡體的分詞器用在繁體文章,正確率大概是75%跟95%的差別,除了字典以外,訓練的語料庫影響也很大。繁體也有很多分詞器了。