Réseaux sociaux : ces biais que l’on feint de ne pas voir

Un livre blanc visant à améliorer la représentativité des réseaux sociaux a été publié par des chercheurs anglais. L’objectif ? Essayer de mieux comprendre les « couches de subjectivité » qui biaisent les analyses issues du Web social.

Cela fait plus de dix ans que les réseaux sociaux existent et ils continuent de fasciner. Les possibilités offertes par le Web social semblent infinies, ses avatars (de Facebook à LinkedIN, de Twitter à Instagram, de Snapchat à WhatsApp) sont en constante expansion. Cette nouvelle donne, alliée à la rapidité à laquelle l’information se propage, donne le vertige aux générations plus anciennes comme aux nouvelles.

Les réseaux sociaux s’invitent désormais partout, au détour d’une émission de télévision, dans les articles de journalistes, dans les sondages, dans la communication des entreprises, des Etats ou des groupes terroristes. Pourtant, en dix ans d’existence, une inconnue demeure encore : ce qui se passe sur les réseaux sociaux est-il représentatif de la réalité ?

Une étude pour mieux comprendre l’interconnexion entre Web social et vie réel

Qu’entendons-nous par « représentativité du Web social » ?

Un exemple simple permet de le comprendre. En 2014, lors du referendum sur l’indépendance de l’Ecosse, si l’on se fondait uniquement sur les réseaux sociaux, le « Oui » aurait dû l’emporter. Ce fut tout le contraire qui se produisit, avec la victoire écrasante du Non. Les réseaux sociaux étaient dans l’erreur, car ils ne s’intéressaient qu’à une fraction de la population.

Lire l’étude “The Road to Representivity” en entier

Ce n’est pas la première fois que les prédictions du Web sont faussées. A plusieurs reprises, des décalages ont été remarqués ou dénoncés, au point où la représentativité du Web social est devenue un thème d’étude récurrent. Pour cette raison, dans un souci « d’objectivisation » des réseaux sociaux, des professionnels britanniques de Demos et Ipsos MORI ont publié un livre blanc intitulé « The Road to Representivity » dans lequel ils donnent les clefs pour mieux tirer parti des ressources du Web social. Ce qui distingue ce livre blanc d’autres études menées par ailleurs est cette volonté de rapprocher les opinions provenant du « réel » ou du « virtuel », en opposant sondages classiques et analyse des réseaux sociaux. Leurs recherches portaient sur trois thèmes différents : les entreprises, les questions socio-économiques et la vie politique. Au terme de leur étude, les auteurs ont identifié plusieurs « couches de subjectivité » qui introduisent des biais cognitifs qui nuisent à l’analyse.

Les questions les plus abordées, en ligne et hors ligne, en février 2015

Road to representitivity - Les sujets les plus discutés en ligne et hors line

Sans surprise, les chercheurs s’appuient sur Twitter dont les données ouvertes permettent une meilleure analyse que Facebook, qui fonctionne en vase semi-clos.

L’ambivalence de la collecte de données

A rebours des outils qui prétendent donner le « pouls » de l’opinion, les chercheurs évoquent à quel point la collecte de données est fondamentalement ambivalente. Deux facteurs s’additionnent pour faire de la collecte de données un sujet particulièrement complexe : l’exhaustivité et la pertinence.

Pour le premier facteur, il faut savoir qu’il est difficile d’obtenir toutes les données provenant des réseaux sociaux. Certaines publications sont protégées – c’est particulièrement le cas sur Facebook par exemple qui inclut plusieurs niveaux de confidentialité. D’autres publications incluent des fautes d’orthographe qui perturbent la veille. Plus rares, certaines pratiques d’internautes permettent de dissimuler de tromper des systèmes de collecte de données en adoptant des tactiques peu orthodoxes (lire « Comment les internautes déjouent le fichage sur le Web »).

Dans le deuxième cas, même si on dispose d’un volume de données important, cette masse brute peut se révéler peu précise car les outils permettant d’identifier le sentiment d’une publication sont encore trop peu développés. Dès lors, la pertinence des données est mise en cause, et l’analyse de masse perd de son intérêt.

Au final, si exhaustivité et pertinence sont des objectifs à atteindre, ils demandent généralement un investissement chronophage et un professionnalisme sur lesquels certains chercheurs font l’impasse, selon les auteurs de l’étude.

Les comptes dit « prolifiques »

L’une des principales causes de biais sur Twitter tient à la différence entre chaque compte.

C’est une lapalissade, mais tous les comptes ne sont pas égaux : le volume de tweets ne représente pas le volume d’utilisateurs. Dit autrement, là où un utilisateur de Twitter peut ne pas utiliser le réseau social pendant plusieurs jours, un autre prend la parole jusqu’à dix fois par jour. C’est comme si certains électeurs avaient la possibilité de voter plusieurs dizaine de fois face à une masse abstentionniste.

Dans le cadre de leurs recherches, les auteurs de l’étude ont également découvert qu’un petit groupe de « super utilisateurs » avait une importance disproportionnée sur les données collectées. Les chercheurs ont démontré que 1% des comptes Twitter envoient en moyenne entre 14 et 33% des données qu’ils ont collectées pour leurs tests. Des conclusions qui font écho à des recherches précédentes démontrant que 1% des utilisateurs de Twitter actuels peuvent contrôler l’information.

Or, les données collectées lors de la plupart des investigations classiques n’isolent pas toujours les tweets des utilisateurs. Les comptes les plus prolifiques influenceront donc davantage et l’analyse sera moins objective. Il en va de même des solutions clef-en-main qui ne prennent pas en compte les faux positifs.

Les bots : visibles mais perturbants

Autre problématique fréquemment abordée sur ce blog, la présence de bots sur Twitter est devenue récurrente. Véritable fléau, le « bot » introduit une nouvelle « couche de subjectivité » en multipliant des publications déshumanisées et automatiques. Les bots sont généralement utilisés afin d’augmenter artificiellement un buzz ou dans le but de hisser un hashtag en trending topic. Actuellement, la présence de bots est facile à détecter dès lors que l’on croise plusieurs facteurs (date de publication, origine de publication, horaire, etc.), ou grâce à l’utilisation de logiciels tels que Gephi qui permettent de déterminer, à partir de la centralité des échanges, si les comptes suspects discutent avec d’autres comptes ou se contentent de se retweeter en masse. Encore faut-il avoir quelqu’un capable de faire le tri…

RTs_Bots_Spam_Twitter

Ici, des bots spamment avec le terme X Factor, du nom du célèbre télé-crochet américain.

Comment comptabiliser les institutions ?

Parties prenantes récurrentes des conversations sur Twitter, les institutions (Ministères, organismes transnationaux, etc.) ont représenté entre 10 à 20% des données collectées par les auteurs de l’étude durant leurs recherches. Savoir s’il faut prendre ou non en compte ces institutions dans les recherches est donc capital si on veut véritablement estimer la vision de citoyens, de consommateurs ou de clients vis-à-vis d’une situation.

Géolocaliser les tweets : une ordalie ?

Dans le livre blanc, les auteurs de l’étude constatent que certaines zones étaient surreprésentées par rapport à d’autres dans leurs recherches. Il s’agit d’un problème récurrent sur Twitter : dans le cas du référendum de l’Ecosse, il y avait une surreprésentation de Glasgow, ville ouvertement pro-indépendance, et une sous-représentation des campagnes. Les prédictions faites à partir des réseaux sociaux étaient donc fatalement biaisées, ce qui explique en partie qu’ils ont échoué à prédire les résultats de l’élection.

Parallèlement, dans un rapport sur l’Etat islamique et Twitter, d’autres professionnels ont évoqué la difficulté de savoir si les comptes qui s’exprimaient en ligne tweetaient réellement depuis les zones de conflit ou non. Cela est rendu d’autant plus difficile qu’il est également possible de tromper la géolocalisation par le biais de VPN, entre autres.

Les CSP ou Catégories Socio-Professionnelles

Les catégories socio-professionnelles sont surreprésentées ou sous-représentées sur les réseaux sociaux. Dans le cas de Twitter, qui est l’outil le plus utilisé dans les sciences sociales, les cadres ont une présence beaucoup plus importante que les catégories populaires. Sont-ils pour autant représentatifs ou pertinents dans toutes les études ? D’ailleurs, la difficulté à accéder aux données de réseaux plus variées comme Facebook fait que le croisement de données issues de réseaux sociaux est parfois, sinon souvent, impossible.

Pour les entreprises, identifier clairement ses besoins

Le Web social n’est pas le monde réel et vice-versa. Les individus ne s’expriment pas de la même façon sur l’un ou sur l’autre. Twitter est par exemple un réseau social où les internautes réagissent à un évènement : cela buzze ou cela ne buzze pas, mais il s’agit fréquemment d’une réaction commune, parfois presque pavlovienne, à un évènement ou une stimulation… ce que de nombreux communicants chevronnés ont compris en créant des « faux bad buzz » pour exciter des communautés.

Les auteurs de l’étude « Road to Representivity » concluent donc à une utilisation conjointe et complémentaire des réseaux sociaux et des outils de sondage pour mesurer l’opinion, tout en alertant sur les « couches de subjectivité » qui peuvent biaiser notre analyse.

De notre côté, nous estimons avant toute chose que chaque acteur sur les réseaux sociaux  doit étudier avec soin ses objectifs. Dans le cas des entreprises, par exemple, recherchent-elles un résumé ou l’exhaustivité ? Préfèrent-elles une esquisse ou une photographie haute définition ? Ont-elles besoin d’une vision globale ou d’information stratégique ? En fonction, il faudra orienter le choix vers une offre clef-en-main ou une offre de veille, en gardant à l’esprit que se défaire des « couches de subjectivité » demande une certaine maîtrise.

 

(Cet article s’inscrit dans une série sur les mirages et les limites du Web social. La première partie ici)

Tags :

Nous suivre :
  • S’abonner à notre flux RSS
  • Partagez ce post sur

    Réseaux sociaux : ces biais que l’on feint de ne pas voir

    3