Ce que peut réellement Memex, le moteur de recherche du web profond américain
Mar03

Ce que peut réellement Memex, le moteur de recherche du web profond américain

Memex, le moteur de recherche du Web profond de la défense américaine, est entré en phase beta. Ses premiers succès présentent des menaces comme des opportunités.     Ce qu’est le Web profond et pourquoi les moteurs classiques n’y accèdent pas Avec les années, Google est devenu un moteur de recherche redoutable, permettant de trier ses résultats selon les dates, les langues, les pays, les sites Web, les types de fichier ou encore la géolocalisation. Mais quel que soit le volume des résultats que l’on trouve par le biais d’un moteur de recherche, pour qu’un site soit visible effectivement il n’existe qu’une alternative : soit son Webmaster n’interdit pas son indexation (c’est-à-dire qu’il autorise le robot de Google à faire des recherches sur son site), soit un site indexé intègre un lien vers le site non-indexé. Dans le cas contraire, ni Google ni aucun autre moteur de recherche ne peut théoriquement accéder au site et donc aux informations qu’il contient car pour un moteur de recherche, un site non-indexé n’existe pas. Dès lors, notre vision du Web est fondamentalement tronquée par les résultats des moteurs de recherche ce qui induit qu’un espace plus ou moins vaste reste inaccessible par les moyens les plus classiques (mais qui peut l’être par d’autres biais, qu’il s’agisse de forums, de liens sur les réseaux sociaux ou des échanges privés). Cet espace difficile d’accès représente le Web profond (Deep Web en anglais) : un ensemble de sites, de pages et autres fichiers non-indexés. Rendu célèbre par l’analogie de l’iceberg (le Web visible représente 5% du Web entier, à la façon de la partie immergée d’un iceberg), le Web profond est supposé renfermer une mine d’or d’informations : de la base de données cachée aux documents sensibles stockés de façon hasardeuse sur un site. Une théorie à laquelle adhèrent les ingénieurs de Memex, qui évoquent près de 60 millions de pages Web créées en deux ans. Le Web profond abrite évidemment son lot d’activités illicites (bien qu’il soit loin de se limiter à cela), ce qu’on appelle, par néologisme ou sensationnalisme, le Dark Web – une sous-partie du Deep Web régulièrement confondu avec les Dark Nets.   Le site de vente de produits illicites Silk Road était une figure iconique du Dark Net Pour s’attaquer aux échanges illégaux, le département de la défense américain est en train de développer Memex, une sorte de super Google qui va fouiller dans ces pans non explorés du Web. Il est encore difficile de savoir comment il procède, mais en toute vraisemblance l’outil choisit de passer outre le fichier robots.txt qui est généralement utilisé sur le Web pour bloquer l’accès à certaines parties...

Lire la suite
Memex, le crawler du Web profond de la Défense américaine
Fév17

Memex, le crawler du Web profond de la Défense américaine

La Défense américaine veut mettre au point le Google du Web profond. Baptisé Memex, du nom de l’ordinateur analogique fictif pensé par le scientifique Vannevar Bush, le moteur de recherche devrait permettre de sonder les recoins d’internet qui échappent encore aux crawlers classiques. Une initiative pionnière, vraisemblablement réservée aux forces de l’ordre, et qui ne devrait pas aboutir avant 3 ans.   50 nuances de Web Avant d’évoquer Memex, il convient de définir exactement ce qu’est le Web profond, également connu sous l’appellation de Web invisible. Il y a dix ans, évoquer le terme en public suscitait les regards incrédules ou moqueurs de nos interlocuteurs. Aujourd’hui, le nom est tombé dans le jargon et les articles de presse fleurissent sur cette terra incognita numérique, avec malheureusement son lot de raccourcis : on ne compte plus les amalgames et les approximations relatives à cet espace, considérés un peu trop rapidement comme la capitale du cybercrime, du trafic de drogues et de la pédophilie en ligne. Contrairement à son homologue visible, le Web profond englobe tout ce qui n’est pas indexé par les moteurs de recherche, pour des raisons multiples : fichiers trop volumineux, trop complexes à lire, pas référencés, protégés ou volontairement exclus des recherches Google par le webmaster, etc. Pour mieux comprendre la complexité et le volume d’informations dont regorge le Web profond, l’analogie la plus  courante est celle de l’Iceberg : la partie visible est beaucoup moins importante que la partie invisible – ainsi les ressources profondes de l’internet seraient jusqu’à 400 fois plus importantes que celles que l’on trouve sur les moteurs classiques. Cette portion dissimulée du Web est souvent confondue, à tort, avec le Dark Net, un patchwork non-homogène de réseaux parallèles qui accueillent aussi bien journalistes en quête d’anonymat, hacktivistes, dissidents politiques ou cybercriminels s’échangeant drogues, produits de contrefaçon, armes à feu et… livres de collection.   Memex, un moteur de recherche révolutionnaire ? L’objectif de Memex n’est pas d’indexer le Dark Net ; ce qui serait impossible vu que ce terme recouvre un ensemble de réseaux désagrégés et indépendants. Le programme semble plutôt se concentrer sur une recherche élargie qui se baserait sur l’exploration, la découverte et l’exploitation de noms de domaine, tout en permettant d’écumer les forums, les services publics (cadastre, archives), les catalogues de librairie, etc. Contrairement à ce qui a été écrit ailleurs, le programme Memex « n’a pas vocation à fouiller les adresses IP, les serveurs ou accéder à des informations personnelles » (p.5). Il s’agit d’une initiative révolutionnaire à plus d’un titre. La capacité d’agréger selon des requêtes précises des informations « cachées » permet d’obtenir de l’information stratégique de haute volée. Le projet vise ni plus, ni...

Lire la suite