jrf_data

編輯歷史

時間 作者 版本
2017-07-07 16:39 – 16:39 (unknown) r0 – r1
顯示 diff
+ jrf_data
+ 本頁請關掉 Privacy Badger 不然附圖會看不到哦!
+ 沒聽過 Privacy Badger 的話,推薦參考 https://chrome.google.com/webstore/detail/privacy-badger/pkehgijcmpdhfbdbbnkijodmdjhbjlgp?hl=zh-TW 這是 EFF 推出的增加瀏覽隱私的套件,歡迎使用!
+
+ *工作表
+ 請先填寫本表,再開始爬資料,謝謝!
+
+ 以下的下載似乎不包括簡易判決,在司法院的法學資料檢索系統中,有分裁判書查詢與簡易案件查詢,以下的資料似乎只包括裁判書查詢系統中的資料。
+
+ *
+
+ 缺檔案待補
+
+ *./2002/01/01/case_3c81c87ceda1775015396573e9f5affb
+ *./2002/01/01/case_8d3070d3e372c5188266b7b5b3be8382
+ *./2002/01/01/case_eb11494c12e5306c332d9cd686141767
+ *./2002/01/07/case_dd99f7ed4c8f6e2016e70a68287dc52f
+ *./2002/01/07/case_ecb506982b1e165d0efe95353dfe438f
+ *./2002/02/14/case_6f96a5d1b300912c83edb133ad79dbbd
+ *./2002/02/14/case_f6005e0934fb6497912b475a2ef7dcdd
+ *./2002/03/18/case_a8ad58993a3de274129566aac2f05123
+ *./2002/03/26/case_b24815eee273e35384884d36769e3cb8
+ *./2002/03/28/case_596f9ee7fbf468ca226cef18cd3beb9b
+ *./2002/04/15/case_0185e3de45b324bac2d8c05423906c2f
+ *./2002/06/30/case_a171b2c050948d6770672affcf6be2dc
+ *./2002/06/30/case_c2e67924f8e03ee10141098ace815a49
+ *./2002/07/02/case_6556e38a1c12d426d1faac98cc485e53
+ *./2004/01/05/case_a2dfb7d51ea37a9d646c3858041af7bd
+ *./2004/01/07/case_b09cafc779f01766bf2d063c64a976a9
+ *./2004/01/07/case_d4fda857554e67ef10dd0fe830dff89e
+ *./2004/03/15/case_63e3f0b53fc4d50f3c54a5ffed6ecb36
+ *./2004/03/17/case_05aecd82ee3e84fb5f1e8256ec9979df
+ *./2004/03/17/case_ab2875b8975ab7dc42595c3440d09cfc
+ *./2004/04/08/case_64980e6ee39edb7bfdb2fd0bfe9c645d
+ *./2004/04/08/case_681fdcee50691d15fc6fc10a45e3260d
+ *./2004/07/27/case_eae4b8192376fa1a27fdce014d6d2046
+ *./2005/06/24/case_da1219fe2db27f7553513e387c56ad91
+ *./2007/01/01/case_545f2cf162d9265dd6b714b2783710e2
+ *./2007/05/21/case_fa1dc0db610d92f0703399aaf1446552
+ *./2007/06/06/case_e140b2365388ef8c66f8df0fba9b844b
+ *./2007/06/10/case_850ebde6d9f7464ac0ccf51de32afced
+ *./2011/05/23/case_445ee50895eefce9a20abeee2e9fad80
+ *./2011/05/23/case_ce3c3502a20617bf60afff2f841bf95e
+ *./2011/05/31/case_d57da3a56af96387b3b319ff2a260dbe
+ *./2011/08/31/case_9dbb2b0826b1259af831b5bbd8a8312d
+ *./2011/09/28/case_a7d54696279815dcd8aaa699b2a369e5
+ *./2011/09/30/case_027480e18c1c02a7925e2b2f852dba61
+
+ 歷審裁判?
+ http://jirs.judicial.gov.tw/FJUD/HISTORYSELF.aspx?SwitchFrom=1&selectedOwner=H&selectedCrmyy=086&selectedCrmid=%E5%8F%B0%E4%B8%8A&selectedCrmno=006052&selectedCrtid=TPS
+
+ *Tor Client
+ 由於 DigitalOcean 不反對使用 Tor, 我們可以參考 https://gist.github.com/pdp7/138768f9279740096fe8 的做法,先架設 Tor Service 。以下是 step-by-step 照著做就可以了。
+ *先申請 Digital Ocean 帳號。
+ *Create Droplet*
+ *
+ *Distribution : Ubuntu 14.04.3 x64 預設的
+ *Size : $10/mo 預設的 ← 表示你用滿一個月的話,要付 US$10
+ *Data center region : 都可以,但西岸的網路比較快,我選 San Francisco
+ *Add SSH Key : 請看網路上的教學文...
+ *Choose a droplet name : 取一個自己懂的名字,像這樣*
+ *
+ *開好後, Mac 下請用 ssh 登入,Windows 下可以用 putty 登入主機,開始打一堆指令...orz
+ *apt-get update
+ *apt-get dist-upgrade -y
+ *apt-get install tor tor-arm
+ *cd
+ *wget https://gist.githubusercontent.com/miaoski/bf5afdada7bb4c00f873/raw/441009fb02dd4548c136d88b480097d9f010d39a/.screenrc
+ *screen
+
+ 建議使用 screen ,一個螢幕看 Tor 的使用量,一個螢幕抓判決,就算斷線也沒關係。
+ 重新連上的時候 screen -d -r 就可以恢復原先的 session 了。
+
+ 在第 0 個視窗打以下指令:
+ */etc/init.d/tor restart
+ *sudo -u debian-tor arm
+ 按 Ctrl-A Ctrl-C 開新視窗,就可以開始抓判決書。
+
+
+ Ruby (雨蒼版)
+ 在第 1 個視窗打以下指令:
+ *apt-get install screen ruby ruby-dev ruby-mechanize
+ *wget https://github.com/miaoski/jrf-data-2010/raw/master/jrf_data.tar.gz
+ *tar zfx jrf_data.tar.gz
+ *cd jrf_data
+ *./run.sh 2009 ← 這個就是你要抓的年份了
+
+ 看到這樣的畫面,就是有開始抓了
+ *
+
+
+
+ PHP (Kiang 版)
+ 在第1個視窗打以下指令:
+ *apt-get install php5-cli php5-curl
+ *mkdir ~/jrf
+ *cd ~/jrf
+ *wget https://raw.githubusercontent.com/miaoski/jrf-data-2010/master/get_judgements_cache.php
+ *wget https://raw.githubusercontent.com/kiang/jrf_data/master/courts.json
+
+ 執行:
+ *php get_judgements_cache.php 2008 ← 這個就是你要抓的年份了
+ 看到這樣的畫面,就是有開始抓了
+ *
+
+
+ *這個程式只會抓網頁,不做任何處理,所以產出的檔案需要另外解析
+ *在 cache 目錄下會產生 2008.log 與 2008 目錄, 2008.log 是即時的記錄、 2008 目錄則是放置所有取得的網頁檔案
+ *程式每次抓取兩天的資料,然後放在第一天的日期目錄下,例如 2008/01/01~2008/01/02 的資料會放在 cache/2008/01/01 中
+ *list_* 的檔案是列表檢索產出的網頁、case_* 則是個別判決書檢索產出的網頁
+ *在 files_map.csv 可以看到檔案的明細,以及取得個別檔案使用的參數(並不是永久網址,所以直接貼到瀏覽器是無法使用的,只是用來方便辨識)
+ *可以用 https://github.com/kiang/jrf_data/blob/master/cache2archive.php 打包產出的檔案
+
+ 確認 Tor 的流量
+ 離開前 Ctrl-A 0 確認一下 tor 的流量不要爆 quota ...
+ *
+
+ 嗯,下載 93.4 Kb/sec 應該不會爆一個月 2TB 的限制吧...
+
+ 要離開,直接關掉視窗就可以了,它會在幕後繼續跑。下次再 ssh / putty 上來,打 screen -d -r 就可以接回關掉的視窗。
+
+
+
+ *爬完之後的上傳
+ [雨蒼版] 資料都放在 ~/jrf_data/data/judgemets/
+ *
+
+ 打包
+ *cd ~/jrf_data/data
+ *tar zfc data-2010.tar.gz judgemets/
+
+ [Kiang版] 資料都放在 ~/jrf/cache/2008/01/01/
+ 打包
+ *cd ~/jrf/cache/
+ *tar zfc data-2008.tar.gz 2008/
+
+ 打包後,請上傳到 Github 或 Dropbox 再分享連結。謝謝!
+
+ *2016/01/15 雨蒼的資料庫匯出 - http://203.69.90.98/db.sql.gz
+ *判決資料個人隱私權討論
+ 這邊可能要討論一下,如果把判決書資料放到可被 Google 搜尋的地方,會不會有隱私權的疑慮