閱讀進度0%
  • 新聞幕後

【記者筆記】我們如何發現中國網軍沒朋友

2019/09/17 閱讀時間 4 分鐘
  • 記者
    李又如
  • 設計
    陳怡蒨

Twitter 這一系列文章,主要是由我與工程師同事(HC)、淡江資工的老師洪智傑、台大新研所的同學吳冠賢共同做出來的,還有總是在深夜幫我們趕圖的設計蒨。我們已經把相關資料丟上 github,這篇主要會來分享一切是如何完成的。

先提一下,我本人不會寫程式,手邊的工具就只有 RStudio,在還沒正式開始之前從社群那邊聽到災情說資料太大包 RStudio 跑不動⋯⋯

而第一篇報導之所以可以這麼快產出,是我跟工程師同事的分工:我把資料需求給他,他依照我的條件把資料 filter 出來,讓我做分析。

Twitter 公佈資料的那天我手邊還有別的稿子在忙,同事先開始 survey 資料,我把手邊事情完成時已經傍晚了,迅速跟同事開會之後決定要從發過反送中相關內容的帳號出發。

為什麼侷限在「反送中帳號」

為什麼會這麼決定?主要有兩個考量:

1.Twitter 說發現這批帳號是中國政府支持的,且發佈很多跟反送中運動有關的假訊息

因為假訊息是很嚴重的指控,為了看「這些帳號都在說反送中的什麼」,我請同事 filter 出這些帳號在香港政府宣布修訂《逃犯條例》之後、也就是 2019 年 2 月之後的貼文,做了簡單的斷詞分析。

不過拿到這批資料之後,馬上就發現帳號數沒有到 Twitter 說的 936 個那麽多——也就是說,其實並沒有每個帳號都有發跟反送中有關的訊息——跟蠻多媒體解讀的不同。

所以我們就決定人工看過這批貼文,標註出哪些貼文跟反送中有關,進一步建立起這 105 個帳號名單。

(BTW, 其實整個專題做完,我仍然不敢斷定這些東西都是「假訊息」,只能說有明顯立場。也就是這些貼文幾乎都是反反送中的)

2.Twitter 判斷它們是網軍的標準可能有很多,而且並沒有公開原因

光從 2019 年 2 月之後(其實範圍甚至可以限縮到 2019 年 6 月之後)發的文的斷詞分析,就可以看出主題不僅限於反送中,可辨識出的至少還有約炮網站跟色情內容,在無法充分知道 Twitter 是用什麼方式找出這些網軍之前(而且標準可能有很多),我們判斷直接用整包資料去分析是很危險的

簡單決定了分工,主要外包的是 Twitter 帳號的互動網絡分析。假設這些帳號真的是 Twitter 說的網軍,那他們發佈的訊息影響力有多大?我腦中想到的是之前面試暑期 workshhop 時學員提供的作品,冠賢曾做過 Twitter #METOO的發文網絡分析,並繪製成圖,有現成的 code 跟知道怎麼做是得以快速完成的關鍵。剛好當天是我們團隊跟 workshop 學員的聚餐,所以順利完成了發包。也非常感謝冠賢,因為我們並不熟悉 Twitter,中間有很多背景資訊都是靠她提供。

解碼追星

做完熱詞分析之後,就我的知識領域,可以辨認的只有 2018 年 6 月之後大量出現中文內容,大致可以看見一個:反郭文貴、反美、反反送中、撐警察的脈絡。

本來已經打算將 2018 年以前的內容當作「無意義日常詞彙」(因為當時已經深夜 11 點然後主管說今天要出 T__T),一邊撰文,一邊把跑出來的結果給在香港的記者同業幫忙看看有沒有我忽略掉的熱詞,結果她說:「⋯⋯這些帳號以前都是粉絲帳號嗎?看到好多韓團關鍵字 XDD」

「天啊居然是韓團!!!!!!!」瞬間清醒的我差點在無人的辦公室尖叫。

瞬間那些「wanna one」、「blackpink」、「parkjihoon」詞彙都有意義了,我立刻把結果拿給我另一位韓飯朋友,又指認出一堆,最後終於建立出韓國偶像追星族、反郭文貴+反美、反反送中這個整個轉變的脈絡。

做第二篇報導時也另外做了 6 個帳號的深度分析,英文以外的熱詞真的超需要解碼,例如一堆看不懂的西班牙文,搜尋其中一個發現是《飢餓遊戲》,然後瞬間理解為什麼他的熱詞有那麼多 Jennifer Lawrence。

原來是邊緣人啊

冠賢即時在我們第一篇報導發布之前做出互動網絡圖,但當下實在沒有時間仔細分析,所以第一篇只有簡單帶過,當時我就跟冠賢約定接下來要好好看看這個互動網絡。

前述提到,想看互動網絡的原因是想看網軍的影響力有多大,資料愈完整愈好,Twitter 公佈的資料中,只能看到網軍的貼文裡曾經跟誰互動(標註、回覆、轉推),但沒辦法看出其他人跟網軍的互動。

所以我們決定,從這 105 個帳號的貼文中,找出他們曾經互動的對象(也就是在貼文裡@誰),再去撈這些帳號目前在 Twitter 上可見的公開貼文(最多可以撈 3200 篇),再從這些公開貼文中找出他們跟網軍互動的貼文。

但這 105 個人互動過的對象實在是太多了⋯⋯總共有 7 萬多個。我們用「互動次數」當作 filter,留下互動超過 10 次、總共 3981 個帳號的公開貼文。扣掉不公開的帳號,總共抓了 3469 萬多篇。

我請工程師幫我過濾這 3 千多萬篇貼文有多少曾經@過網軍帳號,結果,是 0 篇。

我們還懷疑是不是 code 寫錯、資料抓錯,幾經確認之後,才發現網軍是真的沒朋友。也就是說,這些人瘋狂地標註別人,但是被他們標註的人從來沒有(或是在我們可撈到的範圍內沒有)回覆過,這大概是這次最有趣的收穫了。

之後預計還會有幾篇分享,不知道大家還有沒有什麼想知道的?

贊助 READr 一起媒體實驗改革