中文處理工具簡介

編輯歷史

時間	作者	版本
2017-07-07 17:45 – 17:45	(unknown)	r0 – r1
顯示 diff + 中文處理工具簡介 + + 1. 中研院CKIP parser + http://ckipsvr.iis.sinica.edu.tw/ + http://parser.iis.sinica.edu.tw/ + ‪#繁體‬ ‪#斷詞‬ ‪#詞性標記‬ ‪#句型結構‬ ‪#修飾關係‬ + 1. 有點慢，準確率最高 + 2. 可透過web service呼叫（詞性較粗）或爬網頁（詞性較細）。 + 3. 可細分四十多種詞性，如名詞可細分為地方名詞、普通名詞，專有名詞等。 + 中研院的 CKIP parser 是比較建議使用在台灣語言環境中。但是很多時候分詞結果與辭典辭條的結果是不符合的，主要是因為在建立這個工具時，是依照專業家標記後的詞彙進行決定詞彙詞性。但這個工具也年久失修… + 我申請帳號一直沒給認證信，工具下載下來也沒動靜，不知那邊出了問題 + 能用了，不過速度有點慢 + 現在繁體中文分詞器可以做到95%正確率，詞性標記也有90%，其他功能就比較低了。中文的詞性是很複雜的，又可以『轉品』，有的時候詞庫沒有涵蓋到的例子，也parser很難正確標記出來。 + + 2. stanford parser + http://nlp.stanford.edu/software/lex-parser.shtml + http://nlp.stanford.edu/software/segmenter.shtml + http://nlp.stanford.edu/software/tagger.shtml + ‪#簡體‬ #斷詞 #詞性標記 #句型結構 #修飾關係 ‪#NER‬ + 1. 處理繁體建議先轉成簡體以得到較佳效果 + 2. 可下載單機版，可自己訓練繁體模型（不知道有沒有人分享出來） + 3. 支援多種程式語言：JAVA, Python, Ruby, PHP + 4. 詞性有十幾種 + 5. 有NER 具名實體辨識 + + 3. mmseg 斷詞 + http://technology.chtsai.org/mmseg/ + #繁體 #斷詞 ‪#快‬ + 可下載單機版，可自己訓練繁體模型，可使用自訂字典 + 我執行的時候跳出視窗說windows版本不符 + 4.SCWS 中文分词 + http://www.xunsearch.com/scws/ + 雖然是中國開發者做的，但試過處理正體中文也 OK ，只是詞庫並不是很豐富就是了。詞庫可以擴充，主要針對 PHP 開發者。 + + 5.NLTK + python的自然語言處理包，需要先斷詞 + http://www.nltk.org/book/ + + 6.CNLP + 師大語言所製作的中文處理整合包(基於NLTK)，根據網頁說明，能處理經中研院斷詞、詞性標記過的文本，其他系統處理的斷詞不曉得能不能適用 + http://tm.itc.ntnu.edu.tw/CNLP/?q=node/5 + + 7.結巴中文分詞（簡中） + https://github.com/fxsjy/jieba + + 8. FudanNLP（簡中） + https://github.com/xpqiu/fnlp/ + + 9. Glove + Create word embeddings for further analysis + http://nlp.stanford.edu/projects/glove/ + + 10. OpenCC + 繁簡轉換 + https://github.com/BYVoid/OpenCC + + 11. ansj + 簡體斷詞 + http://www.nlpcn.org/demo + https://github.com/NLPchina/ansj_seg + + 12. 國教院分詞系統 + 中研院 CKIP 的衍生系統，據國教院的同仁說，新近詞的收量較大，跑起來也稍快些。 + http://120.127.233.228/Segmentor/ + 另外還附有一個語料索引系統：http://120.127.233.228/Concordancer/ + + 13. cjknife + ref: http://logbot.g0v.tw/channel/g0v.tw/2015-03-26#94 + 異體字的辨識，輸出範例 + cjknife -i 寳 + Information for character 寳 (traditional locale, Unicode domain) + Unicode codepoint: U+5BF3 (23539, character form) + In character domains: Unicode, JISX0208, GlyphInformation, HKSCS, JISX0208_0213, BIG5HKSCS, IICore + Radical index: 40, radical form: ⼧ + Stroke count: 19 + Phonetic data (GR): bao + Phonetic data (MandarinBraille): ⠃⠖⠄ + Phonetic data (MandarinIPA): pau˨˩˦ + Phonetic data (Pinyin): bǎo + Phonetic data (WadeGiles): pao³ + Semantic variants: 宝, 寶 + Z-Variants: 寶 + Glyph 0(), stroke count: 19 + ⿱宀　　⿱珎　　　　　　　　　　　　　　貝　　　　　　 + *　⿻冖？　⿰王　　　　　　尔　　　　　　⿱目　　　　八 + *　　　　⿱一土　　　　⿱⺈小　　　　　⿻口二　　 + *　　　　　　⿱十　　一　　⿻亅八　　　　　⿱一一 + *　　　　　　　⿻一丨　　　　⿰？？ + Stroke order: ㇔㇔㇖㇐㇐㇑㇐㇒㇖㇚㇒㇔㇑㇕㇐㇐㇐㇒㇔ (D-D-HG H H-S-H P-HG SG P D S-HZ-H-H-H P D) + 14. Unicode Normalization + 主要是用在清理一些看起來長的一樣但實際字碼不同的字 + 官方定義： http://unicode.org/reports/tr15/ + PHP: http://php.net/manual/en/class.normalizer.php + JS: https://github.com/walling/unorm + + 15.JIEBA 結巴中文斷詞 + 介紹簡報：https://speakerdeck.com/fukuball/jieba-jie-ba-zhong-wen-duan-ci + + + 名詞解釋 + 1. 句型結構 syntactic structure + 主語(主詞)，述語(動詞)，賓語(受詞)，子句，連接詞等 + ps. 中英文的句型不一樣，所以括號內的英文句型詞彙只是簡單解釋，非相等。 + + 2. 修飾關係 dependency relation + 例句：猴子喜歡吃香蕉。 + ccomp(喜歡-2, 吃-3) =>喜歡是吃的補語 + dobj(吃-3, 香蕉-4) => 香蕉是吃的賓語 + + 3. NER, Named Entity Recognition, 具名實體辨識 + 可以抽取出特定專有名詞，常見的如人名、地名、組織名、數字、時間(time)、日期(date)。 + + 經驗分享與討論 + cicilia> 簡體的分詞器用在繁體文章，正確率大概是75%跟95%的差別，除了字典以外，訓練的語料庫影響也很大。繁體也有很多分詞器了。