公有土地資料擷取討論

一般注意事項

舉例

所有權人:中華民國

管理者:財政部國有財產署

縣市:台北市

行政區:中正區

段小段:永昌段一小段

地號:00300000

面積(平方公尺):9

分母:1

分子:1

持分面積(平方公尺):9

使用分區:第三種住宅區

地目:

編定使用種類:

狀態:標售

公告現值日期:

公告現值單價(元/平方公尺):

公告現值總價(元):

資料時間:2015

圖片:.....

資料清理

由於目前主流文字編碼都採用UTF-8,但是台灣政府系統依舊使用BIG5編碼,在文字編碼轉換上有時候會出現問題,例如下方心得列舉中的「も魚堀段」問題。

從資料面來看,目前最正確完整的應該是內政部地政司,政府資料開放平台提供的土地段名代碼原始來源也是這裡,但是該檔案除了編碼有問題,也幾乎沒在更新,所以這邊先做了一個爬蟲,先把內政部地政司提供的資料抓下來,並將編碼從「Big5-HKSCS」轉成「UTF-8」,可以正確對應到已經上線的地號轉地圖工具

之後抓取的資料都會先跟這裡的名稱進行初步比對,至少段、小段名稱要正確才會儲存,如果比對錯誤可能就是程式Bug或者應該找管道回報。

程式位置:https://github.com/Shihta/FNP_Crawler

已經轉檔好的土地段名放在:OtherDatas/landnames.json

編碼參考:Mozilla 系列與 Big5 中文字碼

心得列舉

財政部國有財產署北區分署資料如下:

看起來缺少「地號」與使用狀態,其中土地明細如下:

這資料不知道該如何處理呢?

另外想請教以這張圖為例,所謂的「段小段」是不是「德音段0574」呢?

此外關於政府的「土地段名代碼」是不是也要合併使用呢?http://data.gov.tw/node/7504

好像沒找到已有的資料表關聯?

有些資料好像查不到...

我查詢「新北市,坪林區,大粗坑段虎寮潭小段,57」沒有顯示資料,另外還有些日文字,不知道是亂碼還是?

國有財產署的有一個業務是紀錄國有土地上的狀況,所以除了一般的土地地號相關欄位之外,以這塊 200 坪的臺北市中正區福和段二小段0244 地號的「土地明細」來看,國產署自己有紀錄他們認定目前地上的狀況(ex保留、占用),不過每一筆錄號的範圍形狀、位置、狀況判定,可能只有國產署自己有紀錄方法吧我猜。至於是什麼樣的,現場現勘、紀錄、面積計算的流程,我就不太清楚了。以下是國產署針對此地號的「土地明細」表格。第二張圖片則是此地號範圍的衛星圖,可以看到有許多建築物。