Ce que peut réellement Memex, le moteur de recherche du web profond américain
Mar03

Ce que peut réellement Memex, le moteur de recherche du web profond américain

Memex, le moteur de recherche du Web profond de la défense américaine, est entré en phase beta. Ses premiers succès présentent des menaces comme des opportunités.     Ce qu’est le Web profond et pourquoi les moteurs classiques n’y accèdent pas Avec les années, Google est devenu un moteur de recherche redoutable, permettant de trier ses résultats selon les dates, les langues, les pays, les sites Web, les types de fichier ou encore la géolocalisation. Mais quel que soit le volume des résultats que l’on trouve par le biais d’un moteur de recherche, pour qu’un site soit visible effectivement il n’existe qu’une alternative : soit son Webmaster n’interdit pas son indexation (c’est-à-dire qu’il autorise le robot de Google à faire des recherches sur son site), soit un site indexé intègre un lien vers le site non-indexé. Dans le cas contraire, ni Google ni aucun autre moteur de recherche ne peut théoriquement accéder au site et donc aux informations qu’il contient car pour un moteur de recherche, un site non-indexé n’existe pas. Dès lors, notre vision du Web est fondamentalement tronquée par les résultats des moteurs de recherche ce qui induit qu’un espace plus ou moins vaste reste inaccessible par les moyens les plus classiques (mais qui peut l’être par d’autres biais, qu’il s’agisse de forums, de liens sur les réseaux sociaux ou des échanges privés). Cet espace difficile d’accès représente le Web profond (Deep Web en anglais) : un ensemble de sites, de pages et autres fichiers non-indexés. Rendu célèbre par l’analogie de l’iceberg (le Web visible représente 5% du Web entier, à la façon de la partie immergée d’un iceberg), le Web profond est supposé renfermer une mine d’or d’informations : de la base de données cachée aux documents sensibles stockés de façon hasardeuse sur un site. Une théorie à laquelle adhèrent les ingénieurs de Memex, qui évoquent près de 60 millions de pages Web créées en deux ans. Le Web profond abrite évidemment son lot d’activités illicites (bien qu’il soit loin de se limiter à cela), ce qu’on appelle, par néologisme ou sensationnalisme, le Dark Web – une sous-partie du Deep Web régulièrement confondu avec les Dark Nets.   Le site de vente de produits illicites Silk Road était une figure iconique du Dark Net Pour s’attaquer aux échanges illégaux, le département de la défense américain est en train de développer Memex, une sorte de super Google qui va fouiller dans ces pans non explorés du Web. Il est encore difficile de savoir comment il procède, mais en toute vraisemblance l’outil choisit de passer outre le fichier robots.txt qui est généralement utilisé sur le Web pour bloquer l’accès à certaines parties...

Lire la suite
Secteur sensible : deux stratégies digitales passées à la loupe
Fév03

Secteur sensible : deux stratégies digitales passées à la loupe

La transparence des réseaux sociaux effraie parfois les organisations liées à un secteur sensible, soumis à des impératifs de confidentialité. Pourtant, il existe des moyens d’adapter ce caractère très particulier à sa stratégie digitale.   Avant-propos : qu’entendons-nous par stratégie digitale dans un secteur sensible Il convient tout d’abord de définir le périmètre de cet article. Quand nous évoquons une stratégie digitale adaptée aux entreprises/organisations d’un secteur sensible, nous excluons l’utilisation spécifique des réseaux sociaux à des fins de recherche d’information qui aborde les réseaux sociaux en qualité de récepteur (à savoir les pratiques de veille, d’Open Source Intelligence, ou de Social Network Analysis utilisés notamment dans la lutte dans les trafics et les contrefaçons ou l’analyse des réseaux). Ici, nous nous positionnons davantage en tant qu’émetteur (le volet communication et engagement d’une stratégie digitale) : il s’agit de décrire comment un acteur d’un “secteur sensible” peut nouer ou renouer le dialogue avec ses parties prenantes alors même que sa situation lui impose une certaine confidentialité. Les longs discours théoriques ne peuvent convaincre les plus sceptiques, cet article se concentrera sur des exemples concrets issus de la sphère publique avant de les mettre en perspective avec le secteur privé.   Secteur sensible, sujets sensibles ? Qu’est-ce qu’un secteur sensible ? Arriver à une définition exhaustive est finalement assez complexe car le terme est très peu discriminant. Le secteur d’une entreprise peut ne pas être fondamentalement sensible, celle-ci peut néanmoins avoir des sujets sensibles qui touchent à son secteur (exemple : les conditions de travail dans l’industrie du textile ou de la traçabilité dans le secteur alimentaire). Toute entreprise peut ainsi se retrouver dans une situation où sa capacité à s’exprimer est  restreinte par la sensibilité d’un sujet sur son secteur. Pour autant, il existe des entreprises ou des organisations auxquelles s’imposent de fortes contraintes en termes de confidentialité, comme les entreprises du secteur de la Défense, des hautes technologies, mais aussi à des organisations étatiques soumises au secret-défense. Ce nécessaire besoin de confidentialité et de protection de l’information peut parfois jeter une image négative sur ces acteurs ou nourrir les suspicions, ce qui justifie le recours à une stratégie digitale adaptée à ces besoins. Plusieurs acteurs ont ainsi réussi à passer outre leurs contraintes pour réussir à communiquer, améliorer leurs images, combattre une situation de danger ou contrôler leurs communications.   La stratégie digitale de la CIA La CIA a fait une entrée remarquée sur le site de microblogging l’année dernière avec ses tweets décalés et son second degré. Pour un communicant comme pour n’importe quel consultant en intelligence économique, il s’agissait d’un défi de taille… que le service de renseignement a su relever...

Lire la suite
Comment le cybercrime manipule Google
Oct02

Comment le cybercrime manipule Google

Avec l’essor du e-commerce, le Web est devenu plus qu’un lieu d’échanges entre les entreprises et leurs parties prenantes : c’est aussi l’espace où se fait une partie significative de leur chiffre d’affaires. Les moteurs de recherche tiennent une place particulière dans ces échanges commerciaux, car ils sont bien souvent la porte d’accès des sites, qu’il s’agisse de commerce ou même d’informations. Conscients de cet état de fait, des cybercriminels ont décidé d’utiliser des techniques de référencement frauduleuses pour polluer les résultats de recherche des moteurs, infecter des sites ou des ordinateurs, afin d’écouler des produits illicites issus de la contrefaçon, de la contrebande ou encore sans autorisation légale.   Cybercrime: définir et analyser la criminalité en ligne Si la question de la vente de produits illicites en ligne n’est pas une problématique récente, la publication de la thèse de Nektarios Leontiadis, chercheur spécialisé dans le cybercrime, est l’occasion de revenir sur un sujet encore trop peu médiatisé. Intitulée “Structuring Disincentives for Online Criminals“, cette publication revient sur la question de la cybercriminalité, que le chercheur définit comme “toute activité impliquant l’utilisation d’ordinateurs et d’Internet avec l’intention de tromper quelque individu ou de vendre des marchandises illicites“, en se concentrant notamment sur la question de la vente de médicaments contrefaits et des fausses pharmacies, un trafic particulièrement inquiétant notamment pour son impact désastreux sur la santé publique. Plus globalement, la thèse donne une vision assez précise de la structure des marchés criminels en ligne et de l’économie parallèle qu’ils représentent. L’analyse, le monitoring et les dangers des trafics illicites avaient déjà été abordés dans un article précédent (voir : cartographier les trafics à l’échelle planétaire, l’exemple de l’ivoire). Cependant, l’intérêt de la thèse de M. Leontiadis tient également à son analyse très intéressante des techniques employées par les cybercriminels pour monopoliser les résultats de recherche sur des moteurs comme Google, Bing ou Yahoo – des techniques auxquelles notre département a également été confronté dans ses propres investigations.   Contrôler l’offre : l’utilisation frauduleuse du référencement Le cas spécifique des DarkNets mis à part, la vente de produits illicites passe avant tout par une visibilité accrue sur le Web. Outre le fait que les premiers résultats des moteurs de recherche sont considérés comme plus fiables par certains internautes et que les premiers résultats Google captent 30-60% des clics, le fait de monopoliser la visibilité dans les moteurs de recherche permet d’occuper le marché… et de contrôler l’offre. Pour atteindre ces objectifs très marketing, certains sites n’hésitent pas à utiliser des techniques de référencement frauduleuses ou pernicieuses (black hat SEO), dont M. Leontiadis a dressées un portrait relativement fidèle et complet lors d’un colloque. On retiendra plusieurs techniques généralement employées pour générer...

Lire la suite
Des robots pour soutenir #jesuisparisienne ?
Sep09

Des robots pour soutenir #jesuisparisienne ?

Le bad buzz relatif au hashtag #jesuisparisienne aura fait couler beaucoup d’encre… Au risque d’occulter des aspects plutôt étranges liés à la viralité du buzz. Notamment le fait qu’une part (certes faible) du trafic a été alimentée… par des robots. Le 25 août 2014 en fin d’après-midi, un tweet de @zeparisienne, auteure du blog “The Parisienne “, s’insurge contre Le Parisien, qui l’assigne en justice pour avoir utilisé comme nom de blog un intitulé trop proche de sa marque protégée “La Parisienne”, qui correspond à un magazine du quotidien. @ze_parisienne maitrise très bien les codes de Twitter, et a immédiatement utilisé un hashtag dédié pour sa “campagne” #jesuisparisienne. L’idée étant de fédérer autour d’elle pour dénoncer la protection jugée abusive de la marque “La Parisienne”, et le caractère procédurier du Parisien. Une pétition de soutien avec plusieurs milliers de signatures a d’ailleurs été lancée. Avec près de 15 000 tweets sur le sujet en 48h, @le_parisien a bien été forcé de répondre, même si tous les twittonautes ne soutenaient pas @zeparisienne. Dans tous les cas, un contact a été établi après cette “démonstration de force” de @zeparisienne, qui a réussi un très joli buzz sur cette affaire. Nicolas Vanderbiest a ainsi réalisé une très intéressante analyse de la propagation de ce bad buzz, qui est pour ainsi dire un cas d’école sur le sujet. Nous vous invitons vivement à lire son article d’ailleurs, très complet et didactique, une référence du genre ! Détection d’une anomalie dans les tweets #jesuisparisienne La présente analyse s’intéresse à une anomalie, repérée via la cartographie de l’ensemble des tweets sur le sujet qui ont été envoyés dans les premières 48h.  En utilisant le logiciel Gephi, après extraction des données via Visibrain, on obtient une carte représentant les liens de mentions autour de #jesuisparisienne, la taille des nœuds (qui représentent les comptes Twitter) étant fonction du nombre de fois qu’ils sont mentionnés (RT ou cités) par d’autres twittonautes. Les couleurs sont attribuées en fonction de la proximité des comptes Twitter détectés par le logiciel : un groupe de twittonautes qui va discuter d’un sujet, ou un ensemble de comptes isolés qui reprennent le même tweet vont former une communauté. Si, logiquement, @zeparisienne et @le_parisien se détachent du lot, on constate qu’un compte Twitter (que nous baptiserons “Mr XFr”) semble également être beaucoup repris. Néanmoins, la communauté auquel il appartient (en vert clair) apparait plutôt isolée par rapport aux autres. Comprenez par cela que sa communauté est composée de comptes Twitter individuels qui ont tous repris un ou plusieurs de ses tweets, sans pour autant interagir entre eux. Pour vérifier cette hypothèse, on va effectuer un calcul de proximité : Gephi peut...

Lire la suite
Twitter vs Facebook : la guerre du contenu – Partie 2
Sep05

Twitter vs Facebook : la guerre du contenu – Partie 2

Si on ne présente plus Twitter, temple des nouvelles fraîches et de la concision millimétrique, force est de constater que le réseau de microblogging pourrait connaître de multiples changements qui modifieraient son aspect tel qu’on le connaît. Entre la montée en puissance des robots, la complexité de son utilisation et les "dérives" de son hyper-exhaustivité, Twitter voit en une modification de sa politique de contenu une réponse à sa chute libre en bourse mais aussi une ouverture auprès d’un public moins expert… au risque de se renier ?   Vers plus de native advertising On le voit partout dans les media. Twitter veut se rapprocher de Facebook. Les raisons sont principalement financières : l’oiseau bleu est en chute libre en bourse, il lui faut trouver un moyen de reprendre son envol. Comme beaucoup, le réseau de microblogging cède donc aux sirènes du "native advertising" ou publicité native, nouvel eldorado publicitaire qui justifie son efficacité à grands coups d’études et d’articles inspirés. Car l’efficacité prouvée de cette méthode de publicité en ligne a gagné les cœurs des marques et des entreprises, qui voient dans cette nouvelle approche une façon de toucher les clients sans pour autant paraître intrusif. Twitter veut tirer profit du regain d’intérêt pour la publicité en ligne et surfer sur l’idylle en proposant plus de contenus sponsorisés. Comparaison d'impact de différentes techniques de publicité sur les réseaux sociaux pour une marque de boisson   La future mise à jour devra certainement accompagner cette tendance : si tous les tweets ne s’affichent pas automatiquement, l’intérêt pour une marque de promotionner ses messages devient plus important. Ce faisant, Twitter lâche du lest sur ses fonctions analytics et Twitter cards qui deviennent gratuites. Le message est clair : le futur de Twitter sera axé contenu ou ne sera pas.   Une révolution pro-contenu et surtout user-friendly Parallèlement, le réseau social veut être moins hermétique aux nouveaux venus et répondre aux accusations de trop plein d’informations et de complexité. La réponse à ces deux objectifs passe naturellement par un algorithme qui modifiera le fil Twitter des usagers pour en trier le contenu. Chez les afficionados, c’est la douche froide, les cris d’orfraie, les menaces de départ précipités… Cependant, quelques éléments laissent à penser que Twitter ne va pas changer du tout au tout : Pour Twitter, créer un algorithme qui ferait fuir ses usagers pour en obtenir de nouveaux est un non-sens. Le réseau social, soucieux de ne pas froisser ses usagers fidèles est aussi immanquablement conscient de l’impact décisif qu’il a auprès d’une foule de professionnels (journalistes, veilleurs, communicants…). De fait, il ne peut pas introduire un algorithme qui bouleverserait les habitudes au point de provoquer un exode ;...

Lire la suite
Cartographier les trafics à l’échelle planétaire : l’exemple de l’ivoire
Août29

Cartographier les trafics à l’échelle planétaire : l’exemple de l’ivoire

L’arrivée des réseaux sociaux n’a pas seulement changé la nature du trafic illicite : elle a aussi modifié la façon de le combattre. Alors que le crime organisé a de plus en plus recours au Web (via notamment des services comme TOR ou l’utilisation des DarkNets), Internet peut aussi se révéler une arme redoutable pour les entreprises ou les ONG cherchant à exposer ces trafics illicites et immoraux. C’est ce que nous démontre cette semaine l’organisation non gouvernementale C4ADS avec son rapport Out of Africa sur le trafic illicite de l’ivoire dans le monde. Source: USAID GIST Portal Africa roads basemap; shortest path analysis QGIS route plugin; C4ADS investigation   Out of Africa : le rapport qui cartographie le trafic d’ivoire Entre 2009 et 2014, des organisations criminelles ont écoulé près de 170 tonnes d’ivoire, ce qui correspond à près de 230 000 éléphants abattus. Le prix de revient de l’ivoire au kilo, en Chine, étant de 2.100 dollars, le trafic s’élève à 23 milliards de dollars l’année. Pour répondre au danger d’un trafic qui provoque des dégâts autant écologiques qu’économiques (notamment par la baisse du tourisme), C4ADS, une organisation non-gouvernementale, a réussi à cartographier, par le biais de sources ouvertes (presse, réseaux sociaux, base de données…) et de données d’entreprise, les réseaux des organisations criminelles. Non sans mal, ils ont ainsi été capables de géolocaliser les "points chauds" du trafic d’ivoire mais également de déterminer avec précision les routes, maritimes ou terrestres, employées par les trafiquants d’Afrique vers l’Asie. Trafic maritime international de l'ivoire Parallèlement, ils ont aussi été capables d'identifier les chaînes de distribution et de remonter les traces de certains trafiquants tout en établissant les points d’entrée ou d’échanges de l’ivoire clandestin (principalement en Chine, principal pays consommateur de la matière). Le résultat est un rapport très éclairant. Même si, de l’avis même des rédacteurs, il reste des zones d’ombre, les conclusions des chercheurs permettent de mettre en avant certains dysfonctionnements et d’orienter les recherches des autorités compétentes.   L’analyse des sources ouvertes, une chance à saisir pour les entreprises L’analyse de sources ouvertes est une pratique encore sous-estimée. A l'heure actuelle, les sources ouvertes représentent 90% de l'acquistion d'informations selon les services de renseignement, et la plupart de ces données sont disponibles en ligne. Les exemples ne manquent pas pour illustrer cet état de fait : du bloggeur capable de suivre avec précision l’état des frappes aériennes et le trafic d’armes en Syrie (en croisant les données de Youtube, Facebook, Twitter…) aux journalistes qui ont découvert une base secrète de l’EIIL et ont également été capables d’établir où le journaliste James Foley aurait été assassiné en analysant les photos du groupe armé radical (architecture des ponts,...

Lire la suite