臺灣言語平臺
資訊技術的部份移去https://g0v.hackpad.com/f4rSgcFTIzz
計劃目錄
- http://hackfoldr.org/tai5-uan5_gian5-gi2_phing5-thai5/
相關專案
- 新台語運動
- https://g0v.hackpad.com/moed7ct-taigi-neologism
- TaigiLex
- 萌典
動機
- 母語工作者需要一個編輯、分享平臺
- 母語資料散亂一地
- 做研究時不能公開,做完又沒地方公開
目的
- 提供母語研究者一個編輯平臺
提供功能
- 語料收集
- 每個人可加自己找到的語料
- 可以讓人公開fb塗鴨牆、母語社團資料
- 眾人資料庫語料修改
- 綁FB帳號crowdsourcing,
- 拿出語句給每個人修改,並給每個人參與分數,類似plunker的karma
- 資訊技術
- 語言分類、語料對齊
- 語言模型、斷詞、翻譯
- 語音辨識、語音合成
- 個人語料編輯
- 上傳語音、線上切音/聽打
- http://otranscribe.com/
- https://www.ldc.upenn.edu/language-resources/tools/xtrans
收集資料形式
- 母語文字檔
- 母語語音轉寫文字檔
- 母語聲音檔
資料庫內對應
- 收集資料形式1~3項和華語語料兩兩對應
- 母語聲音和母語文字對照
- 母語語音轉寫文字檔和母語文字對照
- 母語語音轉寫文字檔和母語聲音對照
- 華語文字和母語文字對照
- 華語文字和母語聲音對照
收集資料形式第1~3項混外來語- 混外來語(華語、英語)的文字檔
- 混外來語(華語、英語)的語音轉寫文字檔
- 混外來語(華語、英語)的聲音檔
個人語料編輯做法
- 上傳語音、文字
- 聽打工具
- 有頻譜
- 標文本
- 多語者
- 可參考xtrans
- https://www.ldc.upenn.edu/language-resources/tools/xtrans
實作
版權處理