Memex, le crawler du Web profond de la Défense américaine

La Défense américaine veut mettre au point le Google du Web profond. Baptisé Memex, du nom de l’ordinateur analogique fictif pensé par le scientifique Vannevar Bush, le moteur de recherche devrait permettre de sonder les recoins d’internet qui échappent encore aux crawlers classiques. Une initiative pionnière, vraisemblablement réservée aux forces de l’ordre, et qui ne devrait pas aboutir avant 3 ans.

 

50 nuances de Web

Avant d’évoquer Memex, il convient de définir exactement ce qu’est le Web profond, également connu sous l’appellation de Web invisible. Il y a dix ans, évoquer le terme en public suscitait les regards incrédules ou moqueurs de nos interlocuteurs. Aujourd’hui, le nom est tombé dans le jargon et les articles de presse fleurissent sur cette terra incognita numérique, avec malheureusement son lot de raccourcis : on ne compte plus les amalgames et les approximations relatives à cet espace, considérés un peu trop rapidement comme la capitale du cybercrime, du trafic de drogues et de la pédophilie en ligne.

Contrairement à son homologue visible, le Web profond englobe tout ce qui n’est pas indexé par les moteurs de recherche, pour des raisons multiples : fichiers trop volumineux, trop complexes à lire, pas référencés, protégés ou volontairement exclus des recherches Google par le webmaster, etc. Pour mieux comprendre la complexité et le volume d’informations dont regorge le Web profond, l’analogie la plus  courante est celle de l’Iceberg : la partie visible est beaucoup moins importante que la partie invisible – ainsi les ressources profondes de l’internet seraient jusqu’à 400 fois plus importantes que celles que l’on trouve sur les moteurs classiques.

Web de surface et Web profond

Cette portion dissimulée du Web est souvent confondue, à tort, avec le Dark Net, un patchwork non-homogène de réseaux parallèles qui accueillent aussi bien journalistes en quête d’anonymat, hacktivistes, dissidents politiques ou cybercriminels s’échangeant drogues, produits de contrefaçon, armes à feu et… livres de collection.

 

Memex, un moteur de recherche révolutionnaire ?

L’objectif de Memex n’est pas d’indexer le Dark Net ; ce qui serait impossible vu que ce terme recouvre un ensemble de réseaux désagrégés et indépendants. Le programme semble plutôt se concentrer sur une recherche élargie qui se baserait sur l’exploration, la découverte et l’exploitation de noms de domaine, tout en permettant d’écumer les forums, les services publics (cadastre, archives), les catalogues de librairie, etc. Contrairement à ce qui a été écrit ailleurs, le programme Memex « n’a pas vocation à fouiller les adresses IP, les serveurs ou accéder à des informations personnelles » (p.5).

Il s’agit d’une initiative révolutionnaire à plus d’un titre. La capacité d’agréger selon des requêtes précises des informations « cachées » permet d’obtenir de l’information stratégique de haute volée. Le projet vise ni plus, ni moins à construire un moteur de recherches de nouvelle génération qui viendrait automatiser la recherche sur le Web profond en adoptant un spectre plus large. Malheureusement, Memex sera cantonné à la DARPA et au monde de la défense. Appliqué au monde de l’entreprise, ce dernier aurait aussi bien pu jouer un rôle offensif (acquérir de l’information à haute valeur ajoutée) que défensif (identifier les sites a priori « invisibles » mais accessibles et regorgeant d’informations sensibles) et ainsi améliorer la sécurité de l’entreprise.

Actuellement, une recherche et une veille de cette partie invisible du Web est possible, mais requiert de solides compétences humaines, une connaissance étendue des différents moteurs de recherche non classiques (méta-moteur, moteur sémantique) et des techniques de veille qui vont au-delà des compétences ou des outils d’un service de veille classique.

 

Tags :

Nous suivre :
  • S’abonner à notre flux RSS
  • Partagez ce post sur

    Memex, le crawler du Web profond de la Défense américaine

    0