閱讀進度0%

臺灣政商關係資料庫:讓每一次的努力都能成為下一次的墊腳石
讓每一次的努力都能成為下一次的墊腳石

臺灣政商關係資料庫:讓每一次的努力都能成為下一次的墊腳石

閱讀時間 5 分鐘

    READr 即將推出「臺灣政商人物關係資料庫」計畫,它是一個需要大家協作的大型資料庫,這篇文章想要告訴你的是:
    • 我們為什麼想做、為什麼要做這個計畫
    • 這個計畫有什麼需要協作的地方
    • 可以如何應用
    • 預計會收集哪些「關係」
    文/READr 數位專題製作人李又如
    回顧這個計畫的起源已經是 2 年前了!當時我和同事不約而同地在不同的場合、從外國人口中聽到這個「Popolo」(Open Data Standards for Persons, Posts and Organizations to track PEPs, Popolo)計畫,簡單來說,它就是一個大型的公眾人物資料庫,用標準化的方式收集公眾人物的資料。
    所謂的標準化方式,其實就是統一資料的形式。例如立法委員的資料,只要按照格式:姓名、別名、舊名、email、性別⋯⋯等等欄位填入資料,就可以將資料匯入資料庫。而這是「大量上傳」的案例,我們也將這樣的表格設計成簡單的表單,你也可以單筆新增資料。
    當時我們正經歷「你全家都議員」專題的肉搜地獄,花了超多時間才完整了全臺灣歷屆議員的親屬關係。但除了照慣例將 csv 檔案開放給大家使用以外,還有沒有什麼能將這段期間的努力留下來、甚至作出更好的應用?這是我當時一聽到 Popolo 就覺得一定要把它引進臺灣的原因。
    以「你全家都議員」這個專題為例。先屏除在網路上找不到資料的問題(這個專題中有一部分的資料來自地方政府提供的、志工去議會圖書館印的紙本資料),大多數的人物親屬關係都可以在網路上找到,無論是新聞報導,或是已經被驗證及整理過、被放在維基百科上的資料。
    但這些都是散落在四處的「點」。即便有資料,我們還是必須花費大量的人工,將這些親屬關係全數蒐集起來、驗證後建檔,才能進行下一步的視覺化與分析。
    過去曾經做過公眾人物關係專題的至少就有公視 P# 新聞實驗室、關鍵評論網、天下雜誌,但就我所知,包括 READr 在內,儘管網路上的資料眾多、過去也有這麼多相關專題的前例,我們仍得從零開始。

    想找什麼資料,一鍵下載 csv 就好

    但如果每次做完類似的專題,花大把人力蒐集完資料,都可以將這些資料上傳到同一個地方,這些新聞專題的資料與力量就不再只是個體,而是 1+1+1⋯⋯不用多久,我們就能有一個大型的公眾人物關係資料庫了。
    不只新聞媒體,現存的「關係資料」專案如:g0v 獎助金得主「台電金流追追追」爬梳的「立委關係人」、「透明足跡」爬梳的「集團與子公司」資料等等,國外的 Popolo 計畫也有許多鄉民自願寫政府網頁爬蟲程式,資料生產的方式五花八門,但只要透過一致的格式匯出結果,就能將這些「線」匯集成「面」。
    當然,資料的建立需要有所依據。除了上傳資料一定要附上資料來源以外,我們也新增「驗證」關卡,讓其他網友來幫你確認資料是不是對的。所以,協力的方式除了新增資料,你也以隨時打開網頁,點選「驗證」按鈕,協助看看其他人新增的資料是不是正確的。
    驗證正確次數達到一定比例,該筆資料就會匯進資料庫。我們也會在不久後公開這些驗證完成的資料,以 CC0 授權。

    我們想做的事:把心力放在開發而非整理資料上

    READr 在 2018 年推出《數讀政治獻金》專題時,因為政治獻金資料只能進監察院印出紙本,需要大量人力整理數位化,當時我們花了近 2 個月的時間,才完成資料整理、視覺化及分析報導。
    後來《政治獻金法》修法,選舉政治獻金明細全數公開上網,今年我們在更新第 10 屆立委的政治獻金資料庫時,從資料校對、清理到上線只花了一週。
    耗費時間大量減少,除了歸功於資料終於開放上網以外,我們沿用已開發好的視覺化套件,只要把乾淨的、同樣格式的資料倒進去,第十屆的立委政商關係圖就能立刻呈現。
    READr 的「數讀政治獻金」專題
    原計畫 Popolo 就是這樣的概念。我當年是在韓國首爾參加世界調查記者組織舉辦的亞洲年會時聽到講者分享,講者當場展示了很多可以套用 Popolo 資料的視覺化套件。只要倒進同樣格式的資料,就能馬上將你的關係資料視覺化。
    READr 也預計針對臺灣政商人物關係資料庫推出視覺化查詢資料庫,讓讀者可以方便地搜尋群眾協力建置完成的資料。
    如果你不滿意 READr 的呈現方式,你也可以寫一個自己的視覺化套件。反正資料是全數開放的,大家盡量拿去用!

    我們想做的事:讓每一次新聞製作都能成為下一次的墊腳石

    我自己覺得當記者的這幾年來,我的腦袋就充斥著這樣的資料。資訊四散在各處,在報導裡、在筆記裡、在錄音檔裡、有些只是模糊的印象,但一直缺乏系統性的整理。每做一個題目,關於資料的整理都得從頭來過。
    READr 透過開放資料與程式碼開源,希望降低新聞行業的「重工」比例,這次推出臺灣政商人物關係資料庫也是同樣的初衷。枯燥無味的基本功大家一起來做,打好基礎,就有更多的時間可以花在精進資訊傳遞的方式、深度或調查報導上面。
    目前臺灣政商關係資料庫計畫仍在初初初初版,我們預計會推出的功能有:
    • 開放標籤功能,讓參與者能知道資料庫已經有哪類的資料被上傳(例如,選舉後要一次更新很多資料。若你想協助幫忙更新立委的資料,你可以在資料加上「第X屆立法委員」的標籤,這樣別人就知道這份資料已經被上傳,可以去處理其他的資料)
    • 將已驗證的資料以 csv 格式開放給使用者下載
    • 開放更多表單,目前預計會開放的表單還有:選舉資料、著作資料(想幫忙新增政治人物的論文?請期待!)、行動資料、表決資料、談話資料、資產資料、政治獻金資料⋯⋯還有什麼資料是你覺得可以新增的嗎?歡迎許願!
    • 推出視覺化版本的臺灣政商關係資料庫,方便使用者查詢
    贊助 READr 一起媒體實驗改革
    最新報導