【Twitter 大戰中國網軍】Twitter 如何辨認政治網軍？

2019/09/16

閱讀時間 6 分鐘

作者
簡信昌李又如
設計
陳怡蒨
資料分析
簡信昌
其他作者
洪智傑(資料協力)

「網軍」是近幾年各國都想要釐清的現象。乘著社群網絡普及，開始有人嘗試以組織性的行動去影響一般人對特定人物、或特定議題的看法，如美國參議院情報委員會就調查過俄羅斯透過網軍干預了 2016 年的美國選舉。2018 年臺灣選舉後，民進黨政府也一再宣傳假訊息的危險性，並將敵人指向與我們關係一向敏感的中國。臺灣即將迎來 2020 年總統大選，對於可能已經展開的資訊戰，我們準備好了嗎？
8 月 19 日，Twitter 第三度發布它們監測到的政治網軍行為，並釋出相關資料集。我們在前兩篇報導探討了「反送中」帳號的行為模式，決定再更進一步透過機器學習（Machine Learning）暸解被刪除帳號的活動特徵、以及千萬筆隨機帳號的貼文模式，去推測 Twitter 刪除這些帳號的可能原因，找到「網軍」的辨別方式。
Twitter 釋出的資料分成兩組，但並沒有解釋這兩組的區別。在 READr 第一時間對這批資料的報導中，我們發現只有 11% 的被刪除帳號發過和反送中運動相關的內容，而這 11% 的帳號，都在 Twitter 公佈的第一組帳號清單中。
除此之外，這一組帳號在近兩年來使用 Twitter 的軟體跟過去有蠻大的差別。原本使用網頁推文的比例非常低，到 2018 年之後卻開始增加。但第二組卻沒有這麼明顯的趨勢。
從「是否發過反送中相關推文」及「帳號推文軟體變化」兩個例子就可以看出兩組帳號的行為並不完全相同，卻都在 Twitter 刪除的名單當中。我們認為透過機器學習也許可以找出第一組帳號和第二組帳號的共通性，來推測 Twitter 刪除帳號的原因，也就是網軍可能有的行為模式。

我們發現，相關性最高的主要是「發文時間」以及「帳號跟他人之間的追蹤關係」。也就是說，當某些帳號經常在特定的時間發文，但是其實看起來朋友的數量又遠低於平均，那麼這些帳號就有可能是網軍的帳號（註：相關的因子非常多，我們只是列舉相關性最高的進行討論）。
網軍發文時間集中在亞洲時區上班時間
這次被刪除的兩群帳號中，發文時間比例最高的是半夜一點到三點。通常系統會儲存的時間會是世界協調時間（Coordinated Universal Time），如果以台灣跟中國的時區來看，高峰時間則是早上9 點到中午12 點，到下午4 點過後比例就明顯下滑。這和之前暱稱 Air-Moving Device 網友所寫的分析結果相當接近。
我們取得大量隨機帳號，分析他們的貼文方式，發現一般使用者發文的時間相對平均，這些網軍發文的時間卻相當集中，且集中在亞洲時區的上班時間，印證了網友戲稱的「領薪水上網」。

但單從發文時間判定有一定的危險性。因為此次 Twitter 公佈的 936 個刪除帳號中，有高達 50 個帳號其實從來沒有發過文。
網軍帳號沒有在「交朋友」
我們從機器學習找到了另一個兩組帳號的共同特徵：帳號追蹤與被追蹤的人數，這兩個數據某種程度代表這些帳號是不是真的是使用社群網站來「交朋友」。同樣地，我們也取得大量隨機帳號，比較兩者的差別。
在去除極端值之後，我們發現被視為「網軍」的帳號，無論被追蹤人數（follower）多寡，他們都會追蹤大量的人（following）。網軍帳號通常追蹤很多人，但是追蹤人數比一般人低，驗證了另一篇報導中的網軍互動模式：這些帳號會嘗試標注（mention）其他流量較高的帳號，但他們實際上很少透過 Twitter 跟別人社交。
註：為了讓圖表內的特徵表現更明顯，我們去除極端值，只留下追蹤其他帳號個數以及追蹤者人數都低於 15,000 人的帳號呈現）
長期研究網軍、台北大學犯罪學研究所助理教授沈伯洋在 READr 的上一篇關於 Twitter 的報導中提到，網軍行動通常有不同分工，作為「節點」功能的帳號，會在乎雙向追蹤；作為「海量發文」功能的帳號，就比較不在乎他人是否追蹤。從這些帳號特徵一致性，再次彰顯「這批中國網軍的分工沒有那麼細」。
再加上這批帳號明顯在亞洲上班時間發文，「很遵守《勞基法》。」沈伯洋笑道。他指出，中國的省台辦、市台辦有自己的網軍，這種就是很有系統地在上班；另一種就是外包給行銷公司，而發文時間算是近年 Twitter 會去注意的標準，「如果外包給行銷公司還這麼守時，那就是很低級的錯誤。」
「但這可能是件好事。因為就我所知，臺灣的行銷公司都不會犯這種低級錯誤，那至少這批中國網軍不是外包給臺灣公司做的。」沈伯洋說。
高度「工人智慧」，辨識網軍變更難
除了以上兩個行為，從「網軍帳號」跟「隨機一般帳號」的使用行為比較中，另一個可能的歧異是「使用者回報地點」（user_reported_location）。
由於此欄位可以自行填寫，從我們作為隨機樣本的 1227 個帳號中，共有 595 個不同的答案（48%）；而這批 940 個網軍帳號只有 181 個不同的答案（19%），比例低了很多，且刪除帳號中有相當高的比例的回報地點是「空白」，也成為一種特徵。
除了發文時間外，網軍與一般帳號的差別程度
（註：由於「發文時間」完整呈現在另一張圖表，此圖排名已扣除「發文時間」，否則影響辨識網軍帳號與一般帳號差別程度的前三名應該是發文時間 1 時、21 時、20 時）
我們透過幾次不同的隨機帳號取得，總共測試超過千萬筆貼文模式，讓機器學習的結果有更好的理論基礎，雖然明確地找出幾個可疑的特徵，但我們相信 Twitter 仍然隱藏了部分資料沒有公佈，而這些隱藏的資料可能是判斷網軍帳號與否的重要依據。
隨著俄羅斯網軍影響美國大選的證據慢慢浮上檯面，社群平台也開始重視這些可能是以國家資源支援（potential state-backed）、在社交平台上影響各國政治的活動。如 Twitter 於 2016 年在美國國會承諾，將定期公布他們對外國勢力如何干預 Twitter 上政治議題的調查成果。2018 年 10 月，Twitter 首次公佈刪除的伊朗網軍帳號資料集，至今已經有數以千計的研究人員下載這些資料進行研究。
今年 6 月，從 Twitter 的新聞稿中可以看見他們的調查成果以及釋出的資料，包括伊朗、俄羅斯、西班牙、委內瑞拉的網軍，隨後，就是 8 月公布的中國網軍。按照往例，Twitter 會釋出這些被刪除資料集，代表他們已經調查一段時間了。Twitter 的調查工作除了例行性的監測，有所發現時會花數天至數月的時間進行深入調查，除了技術人員與研究單位以外，他們也與當地的執法機關合作，在調查結束後，也會將相關的結果交給同業及相關執法機關。
從機器網軍發展到國家資源支持的政治網軍，有困擾的不只是社群平台，還有被動搖民主的政府體系、以及直接被不實訊息或片面資訊影響的一般大眾。社群平台嘗試透過增加透明度來對抗，如何將這股力量延續到最基層的民眾，培養辨識網軍的認知，將是民主社會的巨大挑戰。

贊助 READr 一起媒體實驗改革