Ce que peut réellement Memex, le moteur de recherche du web profond américain
Mar03

Ce que peut réellement Memex, le moteur de recherche du web profond américain

Memex, le moteur de recherche du Web profond de la défense américaine, est entré en phase beta. Ses premiers succès présentent des menaces comme des opportunités.     Ce qu’est le Web profond et pourquoi les moteurs classiques n’y accèdent pas Avec les années, Google est devenu un moteur de recherche redoutable, permettant de trier ses résultats selon les dates, les langues, les pays, les sites Web, les types de fichier ou encore la géolocalisation. Mais quel que soit le volume des résultats que l’on trouve par le biais d’un moteur de recherche, pour qu’un site soit visible effectivement il n’existe qu’une alternative : soit son Webmaster n’interdit pas son indexation (c’est-à-dire qu’il autorise le robot de Google à faire des recherches sur son site), soit un site indexé intègre un lien vers le site non-indexé. Dans le cas contraire, ni Google ni aucun autre moteur de recherche ne peut théoriquement accéder au site et donc aux informations qu’il contient car pour un moteur de recherche, un site non-indexé n’existe pas. Dès lors, notre vision du Web est fondamentalement tronquée par les résultats des moteurs de recherche ce qui induit qu’un espace plus ou moins vaste reste inaccessible par les moyens les plus classiques (mais qui peut l’être par d’autres biais, qu’il s’agisse de forums, de liens sur les réseaux sociaux ou des échanges privés). Cet espace difficile d’accès représente le Web profond (Deep Web en anglais) : un ensemble de sites, de pages et autres fichiers non-indexés. Rendu célèbre par l’analogie de l’iceberg (le Web visible représente 5% du Web entier, à la façon de la partie immergée d’un iceberg), le Web profond est supposé renfermer une mine d’or d’informations : de la base de données cachée aux documents sensibles stockés de façon hasardeuse sur un site. Une théorie à laquelle adhèrent les ingénieurs de Memex, qui évoquent près de 60 millions de pages Web créées en deux ans. Le Web profond abrite évidemment son lot d’activités illicites (bien qu’il soit loin de se limiter à cela), ce qu’on appelle, par néologisme ou sensationnalisme, le Dark Web – une sous-partie du Deep Web régulièrement confondu avec les Dark Nets.   Le site de vente de produits illicites Silk Road était une figure iconique du Dark Net Pour s’attaquer aux échanges illégaux, le département de la défense américain est en train de développer Memex, une sorte de super Google qui va fouiller dans ces pans non explorés du Web. Il est encore difficile de savoir comment il procède, mais en toute vraisemblance l’outil choisit de passer outre le fichier robots.txt qui est généralement utilisé sur le Web pour bloquer l’accès à certaines parties...

Lire la suite