漢字產業創意工作坊 - 萌典與零時政府演講逐字稿

活動資訊

*

日期:2014 - 7 - 26 Sat.

時間:13:20 - 14:30

地點:台北市敦化南路2段216號9樓(成長教室)

講者:audreyt

活動詳細資訊

演講內容

事前簡報:https://speakerdeck.com/audreyt/meng-dian-yu-ling-shi-zheng-fu

PDF:http://audreyt.org/tmp/moedict-cwcc.pdf

會後逐字稿:

授權:CC BY 4.0

坑(認領請簽名)

錄音:ETBlue (Sony 錄音筆)

錄影:macpaul (高級 DV + 指向性麥克風)

當天即時文字轉播

今天很高興來到漢字產業創意工作坊,跟大家分享萌典和零時政府這一年多來的故事。

先問一下,有人用過萌典,或是在臉書上看過萌典的九宮格字圖,可以舉個手嗎?

謝謝!

這是萌典裡的「資料」條目,可以看到有筆順動畫,一筆一劃教你怎麼寫常用字。

我們也同時提供直排的注音和橫排的拼音,是第一個用 HTML5 技術這樣呈現的網站。

按下三角形的按鈕,可以播放真人發音。

除了釋義,還有英德法語對照,從昨天開始,也可以聽電腦合成語音。

另外,臺灣閩南語和客語辭典也有整合進來,這部份是真人發音。

萌典在網站之外,也有 iOS、Android、Windows 8、FirefoxOS 等行動裝置的 App,都可以離線瀏覽。

萌典免費、開放、任何人都可以拿去利用,聽起來很不錯!

為什麼會出現這樣一群人,願意貢獻自己的時間,來做開放資料、開放政府的專案呢?

想要明白其中原因,就要先瞭解「零時政府」的由來。

2013 年 6 月,Wired 雜誌訪問重度臉書使用者張大春,他對臉書促使公民參政的看法。

當時雖然台灣的臉書用戶已超過上網人口的 75%,但大家普遍認為存在「萬人按讚、一人到場」的情況。

當時洪仲丘案還沒發生,張大春的答案很接近一般看法,也就是在鍵盤後面按讚,無法轉成實際的行動。

零時政府,就是為了扭轉這個情況而出現的。

這裡是一個零時政府的專案,請大家一起來辨識政治獻金。畫面上 99/9/24,是陽光法案下政治公職人員申報獻金,掃描出紙本資料裡的一小格。右邊的鄉民們,就不斷輸入,打完這格後按「送出」就會跳到下一格。在大家幫忙之下,紙本的資料就逐步變成數位的資料。會有這個專案,是因為政治獻金的細目,雖然可以去監察院當場查詢,可是只能列印,目前是不讓人把 PDF 檔帶出監察院的。

所以就有設計師幫忙設計文案,像「你今天監察院了沒?」這些活動,不斷推出資料片,也就是更多朋友進去監察院列印,把資料帶出來掃描、處理、協作。在 24 小時內,第一批掃描進去的兩千多份文件,也就是三十多萬筆政治獻金,在一天之內就由鄉民合力辨識完成了。所以在鍵盤後面,也是可以做事的。

這件事情是怎麼來的呢?去年年底在零時政府的 hackpad 裡,出現了「開放政治獻金」這份共筆文件,描述陽光法案沒有完全落實的情況。共筆開了,就有四五個人加入編輯,一起想該怎麼動手改善,於是提出了「北風與太陽」的想法,大家先手動取得資料上網,並且跟監察院和政治人物說,既然鎖在紙本資料裡也沒有什麼意義,不如就主動把它開放吧。

為了要印監察院的資料,提案人就找到了 NGO 的朋友,說「這裡有一批好柴,要幫忙砍嗎?」在零時政府的術語裡,所謂「砍柴」就是把沒有結構的大宗資料,進行數位化之後,轉換成可以靈活運用的結構化資料素材,把它公開之後,建立新的整合與應用。這就是「拆政府原地重建」的意思。

於是 NGO 的朋友就走進了監察院,列印了第一批的政治獻金,再掃描成圖檔,貼在零時政府的共筆上,好做進一步的處理。

榮尼王看到這批資料,就寫了程式偵測畫線的位置,自動把它切成一小格一小格,暱稱為「豆腐」的圖片。這樣的好處,就是可以並行處理,每小塊可以給不同的網友來辨識,辨識結果再交給其他人校對,這就是「分身伐樹」的概念。

切好的豆腐實際 po 上網之後,大家就卯起來輸入。這像是即時的遊戲,鄉民都來一起玩,就可以在很短的時間裡,達到快速辨識的效果,也可以經過多次的校對,來確保它是正確的。

在轉成結構化的資料後,我們就可以做資料分析和視覺化,看哪些政治人物最常接受哪幾家公司的贊助、競選時的支出是花在哪裡,收入來源中政黨、個人、營利事業的比例也可以一目瞭然。這是零時政府「立委投票指南」網站上的畫面。

這些資料還可以再串連到臺灣公司關係圖,這也是一個零時政府的專案,來看捐獻的這些公司的股份結構裡,又是哪些集團或控股公司轉投資的。因為工商登記也是開放資料,所以就有了這個視覺化的網站,讓大家可以瞭解集團之間交叉持股的情況。

以上所說「分散協作輸入、開放結構化資料、開發新的應用」是零時政府常見的運作方式。我們是透過萌典等許多專案累積的經驗,來慢慢確立這樣的模式。我們希望能結合原本的社運團體,引進自由軟體工作者常用的開源模式,跟群眾媒體(像是維基百科,以及最進的公民直播等),大家彼此學習。

主辦方只需要準備好食物、飲料、空間,就可以……這是一個請小叮噹吃銅鑼燒的概念

第零次比較衝,因為廣告的關係,之後每次黑客松有不同主題、不同號召方式。使用 hackpad 寫想做的事情,叫做一個坑,實際黑客松時完大風吹,分組把事情做完。在聊天室(像是綜合櫃臺…)

開源的概念是,我創造出的東西有著作權,但我把他放出來,讓大家可以去改作,讓其他人在上面加東西,做不同的應用。在 irc 上只要有人說他想做什麼專案,會有人告訴他去哪裡、參加什麼活動。

github 、共筆、irc,公開討論的好處是大家在估開場合講話會變得善良,而且東西會累積,不會私下講講完就沒有了。

以前習慣把東西做完整才釋出,

因為已經開源了,批評的人沒有藉口不來幫忙。

第一個 logo 是高嘉良自己做的,他也是先把他放出來,後來有設計師看不下去。如果高嘉良決定要把 logo 做到最好才釋出,那今天根本不會有這個漂亮的 logo。

我今天講我比較有參與的部分,就是萌典。

第零次黑客松後大家很嗨,錢也沒用完,就決定辦下次。pingooo 說想參加但人在美國,他想教小孩學中文,讓小孩去看國語辭典,但小孩現在用 ipad 或手機,但教育部線上辭典網站幾乎不能用,所以決定來拆政府。g0v 的想法是同一個網址,只要把 gov 的 o 換成 0,就變成地下政府網站,所以為了對應教育部的 moe,這個計畫就取名叫 moedict,moe 日文的意思是萌,所以就叫萌典。

教育部辭典印出來很厚,所以就不印了,但又沒有做網站的經費,只好自掏腰包架這個網站,但編字典的老師不是架網站的專業,

1996 年到現在沒有改過,

無法分享,

big 5 碼,有些文字無法顯示,

過幾分鐘沒有動以後他會說系統自動幫你登出了,但我沒有登入,為什麼要登出?

所以 pingoo 說來拆網站吧,一天之內轉完資料…

再來是要辨識那些 16 x 15 的字圖

不到 24 小時這些字通通找出他的 unicode 對應了。

粗略的共識是我們大概知道要砍字典,大概知道字典有哪些欄位,大家都不用問彼此,也沒有專案經理,就各自去做。有人架網站,有人寫瀏覽器延伸……一個星期內這些元件雨後春筍地冒出來。

當時一大堆人一起做這種很類似公民不服從的事情的時候第一個問題是這樣做和第一個問題是這樣做到底合法嗎?教育部網站上說版權所有翻印必究。所以只好回去看著作權法,法條寫非營利合理使用範圍,而合理使用範圍是法官的心證。所以我們使用激進的方式,用 CC0 拋棄所有著作權,讓教育不知道我們沒有侵權的意思,成果也完全歡迎他們使用,以這樣的路徑來證明自己合理使用。教育部後來也覺得是好主意,所以閩南語跟客語字典就直接用 CC 授權釋出。

大家會常用到一些 cc 授權的資源,所以可能要瞭解一下這些標章的意思。(逐一解釋)

去年年底,跟教育部開了會,他們的立場是字典跟筆畫隨便使用,只要不要改成別的系統別的筆順,就都是合理使用。

他們也很樂意使用群眾校正的方式來除錯

萌典網站的創舉,任何時候 /(資料) 就是他的連結網址。

滑鼠滑上去,就會顯示詞條內容,因為有連結網址所以可以互相連結。

沒有詞條的網址,會用教務部筆順把他畫出來,還可以換成各種不同字體。

萌典變成像是開放字型的展示櫥窗,有很多做開放字型的朋友主動來希望加入萌典。

有這個分享基礎,大家可以有事沒事分享字圖,就有一個 user base。

後來教育部有個啄木鳥活動,我們想說有什麼錯誤是結構化資料擅長做的呢?如果兩個同樣的出處內容不同,很可能其中一個是錯的。

時隔一年,萌典也組團參加 yahoo hack,做了萌典字宙反應爐。(解釋反應爐)

萌典固定每兩個月有大約 30 人的小聚會,下週末也是,各專案的人都會來。八月底大的黑客松也歡迎大家報名。11/8 國際朋友會來台灣進行高峰會,討論怎麼讓政府資料更活絡應用

這是北島的一首詩,是用來展示思源黑體,他有七種不同粗細

Q

協作部分,如果一兩百人在線上做同樣的事會很嗨,一兩個人就很唏噓,一兩萬筆資料裡有遺落的小羊時,怎麼解決?

A

如果同樣性質的資料,會亂數發,看起來做一樣的事情,其實是在看不同的部分。有些詩經,看不懂的就跳過跳過…五分鐘也可以做,五小時也可以做,剩下缺的就是某些中文魔人填上的。設計時要注意,絕大多數來的人是一時好玩,填了十筆也要讓人可以在臉書上跟人炫耀。這是使用者體驗設計的工作。

Q

教育部或其他政府組織一定沒有開放資料,最初怎麼去談開放?

A

一開始就先做了再說

一兩個人砍資料會怕怕的,五十個人一起砍就很嗨。葉平第一步是他先號召大家說這件事情,要一起來做。現在法規理論上公部門資料如果不開放要特別解釋,所以我們去談的時候是有底氣的。

加上拋棄所有著作權,他們沒辦法站在我們對立面。

沒有預算但還是想要有政績的時候就會想拿來用,對他們來說百利無一害,先把東西做出來再去談,比酸民去談來得有力。

Q

對官僚機構的觀察?

A

特殊的政府對政府關係的經營方式:其實我們不是很 care 政府提供什麼幫助,他們受限於預算編列,想幫忙到真的幫忙都過一年。我們只希望他們不要增加麻煩,像是實價登錄地圖那樣的麻煩。其實這些事情是讓他們省力氣的,基層公務員很容易被吸收,高層也樂見其成,中層比較難處理…如果不是先做東西出來,而是一開始寫信,可能就會收到中層官僚的官樣回應

Q

nchild 補充:根據政府資訊公開法,政府資料要開放,只是開放完不見得好用。g0v 讓資料變得更好用。

合理使用的規定是舉例,這條法規今年的修正草案中,已經把合理範圍內這個文字給劃掉了,因為這會讓這條很模糊。增加了另一條例外條件,說除非明白反對意思表示才不能用。那什麼情況下可以作法對意思表示?我們參加估聽會時要求他要明確定義出來。以上是之後可能會調整的部分。

A

我們希望是預設公開、不公開也是正面表列。即使現在法規還沒有如此,還是可以形成一種氣氛,不公開的話要踹共

Q

公部門跟民間如何正向溝通?像是智庫

A

我們是有進入公部門的房子,在三四月的時候作了全程的直播。

發現到處都是錄影機就比較不會出現流血事件。

在那場之後,政府部門看到新媒體的方式可以讓營幕後面的聲音反應到螢幕前面,現在的自經區、經貿會議,都是同一組人用同樣的技術,像是經貿國是會議用文字牆做網路即時 call in。現在...也跟沃草合作…blah

Q

很多行業說我們法規很多陳舊落伍,是否可以建構針對法規的討論平台,讓政府有壓力,希望是正面的

A

資料科學黑客松要來報名提案,有個長期專案叫動民主,專案主持人就坐在你後面…

會後活動

結束後去 7/26 萌典迷你松