Nature Communications paper on the influence of fake news
I am happy to announce that my work on the Influence of fake news in Twitter during the 2016 US presidential election was recently published by Nature Communications.
In this work, we use network science, physics and data science methods to answer the questions of what was the importance and influence of fake news vs traditional news in Twitter during the 2016 US election, what are the different mechanisms of news diffusion in Twitter and who are the spreaders of fake and traditional news?
You will find a summary of our research below (also in french).
Summary
To understand the role of fake news in Twitter during the 2016 US election, we combined machine learning, network science and physics to not only measure the importance of fake news compared to traditional news in Twitter but also understand their influence and the mechanisms of their diffusion.
We use a dataset of 171 million tweets in the five months preceding the election day to identify 30 million tweets, from 2.2 million users, which contain a link to news outlets. Based on a classification of news outlets curated by www.opensources.co, we classifed outlets as diffusing misinformation or traditional, fact-based, news. We find that 25% of the tweets linking to a news outlet spread either fake or extremely biased news and that these tweets are sent by 12% of the users sharing news on Twitter. Although we find approximately the same ratio of users using automated Twitter clients in each media category, we find that automated accounts diffusing fake news are much more active than the automated accounts diffusing other types of news.
We analyzed the structure of the information diffusion network of each category of news and found that fake and extremely biased news diffusion networks are more densely connected, i.e. users retweet more people and are more retweeted in average, and have less heterogeneous connectivity distributions than traditional, center, and left leaning, news diffusion networks. We identified the top spreaders of each type of news and found very different profiles of fake and extremely biased news top spreaders compared to traditional news spreaders. While traditional news spreaders are mostly journalists with verified Twitter accounts, fake and extremely biased news top spreaders include unverified accounts with seemingly deceiving profiles and deleted accounts.
Finally, a causality analysis between the top news spreaders activity and the activity of presidential candidate supporters revealed that the top news spreaders of center and left leaning news outlets are the ones driving Twitter activity while top news spreaders of fake news are in fact following Twitter activity, particularly Trump supporters activity.
Our investigation provides new insights into the dynamics of news diffusion in Twitter. Namely, our results suggests that fake and extremely biased news are governed by a different diffusion mechanisms than traditional center and left leaning news. Center and left leaning news diffusion is driven by a small number of influential users, mainly journalists, and follow a diffusion cascade, typical of diffusion in social networks, that reaches Twitter globally while the diffusion of fake and extremely biased news seems to not be controlled by a small set of influencers but rather to take place in more local clusters and to be the result of a collective behavior.
Résumé
Pour comprendre l’importance et l’influence des fake news dans Twitter pendant l’élection présidentielle américaine de 2016, nous avons utilisé des outils de la physique, de la science des réseaux et de la science des données.
Nous avons analysé 171 millions de tweets collectés durant les 5 mois qui ont précédé le jour de l’élection et avons identifié 30 millions de tweets, envoyés par 2.2 millions d’utilisateurs, qui contiennent un lien vers une source d’information. En se basant sur la classification faite par les experts de www.opensources.co, nous avons classifié les sources d’information comme contenant de la désinformation ou comme source traditionnelle. Nous trouvons que 25% des tweets avec un lien vers un site d’information dirigent vers des sites web connus pour diffuser des fake news ou des news extrêmement biaisées et que ces tweets sont envoyés par 12% des utilisateurs partageant des nouvelles. Bien que la proportion d’utilisateurs utilisant des clients Twitter automatisés est approximativement la même à travers toute les catégories de média (4%), nous trouvons que les comptes automatisés diffusant des fake news sont plus de deux fois plus actif que les autres en moyenne.
Nous avons analysé les réseaux de diffusion de chaque catégorie de médias et avons trouvé que les réseaux de diffusion de fake news et de nouvelles extrêmement biaisées sont plus densément connectés, i.e. les utilisateurs retweet plus de gens et sont plus souvent retweetés en moyenne, et ont des distribution de connectivité moins hétérogènes que les réseaux de diffusion des nouvelles traditionnelles du centre et du centre-gauche. Alors que les diffuseurs de news traditionnelles les plus importants sont principalement des journalistes avec des comptes vérifiés par Twitter, des comptes non-vérifiés et des comptes effacés sont également présents parmi les diffuseurs principaux de fake news et de news extrêmement biaisées.
Finalement, nous avons estimé les liens de causalité entre l’activité des diffuseurs de chaque type de média et l’activité des partisans des deux candidats à l’élection pour estimer l’influence des diffuseurs de média. Nous trouvons que les principaux diffuseurs des médias du centre et du centre⁻gauche influencent largement l’activité de Twitter alors que les diffuseurs de fake news semble simplement suivre l’activité de Twitter, en particulier celle des partisans de Trump.
Nos résultats suggèrent que la diffusion des fake news et des informations extrêmement biaisées sur Twitter est régie par un mécanisme différent que la diffusion des nouvelles traditionnelles du centre et de du centre-gauche. La diffusion des informations du centre et du centre-gauche est dirigée par un petit nombre d’utilisateurs très influents, principalement des journalistes, et suit une diffusion en cascade, typique de la diffusion dans les réseaux sociaux, qui atteint Twitter globalement, tandis que la diffusion des fake news et des informations extrêmement biaisées ne semble pas être contrôlée par un petit nombre d’utilisateurs mais plutôt se produire de manière plus locale, dans des réseaux plus denses, et être le résultats d’un comportement collectif.