Il y a quelques semaines un ami à moi avec qui j’avais travaillé il y a longtemps est venu chez moi faire une journée de télétravail. Dans la discussion nous avons parlé de l’importance dans la veille et de comment j’ai transformé mon ancien site portfolio vers ce site actuel. Pour voir la différence je suis allé voir sur la Wayback Machine si mon site y était. Et là je le vois avec toutes les modifications que j’ai pu apporter. Le soir, je me suis posé la question: Comment est-il possible qu’un site mal référencé, sans réel apport à internet puisse être suivi par Wayback Machine ?

Introduction

L’Internet Archive, fondé en 1996 par Brewster Kahle, s’est donné pour mission de préserver la mémoire numérique du web et de rendre accessible à tous une bibliothèque universelle. À travers des outils comme la Wayback Machine, l’Archive permet de consulter des milliards de pages web, des livres, des enregistrements sonores, des vidéos et des logiciels, offrant ainsi une fenêtre sur l’histoire culturelle et numérique de l’humanité.

Mais comment une telle entreprise est-elle possible ? Où et comment sont stockées ces montagnes de données ? Quels sont les défis techniques et juridiques auxquels l’Internet Archive doit faire face ? Et quel est son avenir dans un monde où la censure et la liberté d’expression se font face ?

Où sauvegarder cela ?

La PetaBox

La PetaBox est le cœur du système de stockage de l’Internet Archive. Conçue initialement pour stocker et traiter un petabyte (un million de gigabyte) de données, cette infrastructure a évolué pour répondre aux besoins croissants de l’Archive. Chaque rack PetaBox permet aujourd’hui de stocker jusqu’à 1,4 Pb de données (soit 1 400 Tb), avec une consommation énergétique optimisée : environ trois kilowatts par petabyte, et sans besoin de climatisation, la chaleur dégagée étant réutilisée pour chauffer les bâtiments. En 2021, l’Internet Archive utilisait 745 nœuds et 28 000 disques durs répartis dans quatre centres de données, pour une capacité totale dépassant les 50 Pb.

De terabytes à petabytes

L’évolution technologique a permis de réduire considérablement les coûts de stockage.

En 2004, le premier rack de 100 Tb était une prouesse ; aujourd’hui, chaque rack peut contenir plusieurs centaines de fois plus de données. L’Internet Archive ajoute environ un nouveau rack de PetaBoxes chaque mois, et la capacité totale ne cesse de croître, dépassant désormais les 70 Pb pour le seul web français archivé.

1ère génération (2004)4ème génération (2010)Génération actuelle (2024-2025)
Capacité par rack100 TB480 TB~1.4 PB (1,400 TB)
Nombre de disques par rack (approximatif)~40-80 disques240 disques (2TB chacun)~360+ disques (8TB+ chacun)
Consommation électrique6 kW~6-8 kW~6-8 kW
RefroidissementPassif, assisté par des ventilateursPassif, assisté par des ventilateursPassif, assisté par des ventilateurs

La Blackbox

L’Internet Archive utilise également des solutions de stockage innovantes, comme des conteneurs de transport conçus pour résister aux conditions extrêmes et permettre le déplacement physique de grandes quantités de données. Ces conteneurs, développés en partenariat avec des entreprises spécialisées, peuvent contenir l’équivalent de plusieurs bibliothèques nationales et sont utilisés pour des transferts massifs de données, comme ce fut le cas pour l’archivage du web français entre 1996 et 2011.

On sauvegarde quoi ?

Legacy crawler

Historiquement, Internet Aarchive s’appuyait sur Heritix. Cette solution Java, développé en collaboration avec la Norvège et l’Islande. Ce crawler n’est pas là pour récupérer des informations afin d’indexer une recherche, comme le fait Google. Ici, Heritix sauvegarde tout le DOM de la page ainsi que les headers de le réponses dans un fichier WARC (Web ARChive)

Fun fact: si vous ouvrez la console dans la Wayback Machine, vous voyez les headers lors du crawl.

Seulement Heritix permet juste le crawling, derrière Internet Archive utilise Frontier, pour gérer leur file d’attente et choisir quel site explorer par la suite. Il permet aussi de respecter les robots.txt et limite le nombre de requête pour éviter de DDOS certains petits sites.

Le problème de JavaScript

Le JavaScript pose un défi majeur à l’archivage du web moderne. Les pages dynamiques, dont le contenu est généré ou modifié par du code JavaScript, sont difficiles à archiver correctement. Les crawlers traditionnels ne peuvent pas exécuter ce code, ce qui entraîne des archives incomplètes ou erronées. Des solutions comme l’utilisation de navigateurs headless (PhantomJS) ou de crawlers spécialisés (Jawa) ont été développées pour améliorer la fidélité des archives, mais elles ralentissent considérablement le processus et augmentent les coûts de stockage.

Alexa et Amazon

En 1996, Brewster Kahle lance une seconde entreprise: Alexa Internet. Cette société a pour but de naviguer et récolter tous ce qui se trouve sur internet. Ce qui donnera le Alexa Rank.

Pendant un peu plus de 20ans, Alexa fournissait ses données à Internet Archive. Alexa explorait le Web à des fins commerciales, puis faisait don des données collectées à l’Internet Archive après une période d’embargo. Cette relation symbiotique fournissait à Internet Archive un flux de données massif et continu, sans qu’elles aient besoin d’explorer le web tous seul. Un moyen aussi qui permet de financer les ambitions de son créateur. Cependant, suite à l’arrêt du service Alexa par Amazon (qui avait acquis Alexa en 1999) en mai 2022, Internet Archive à dû s’appuyer davantage sur sa propre infrastructure.

La limite entre sauvegarde culturelle et le droit

Hachette et le Covid-19

Pendant la pandémie de Covid-19, l’Internet Archive a lancé la « National Emergency Library », offrant un accès illimité à des millions de livres numérisés, y compris des œuvres encore sous copyright. Quatre grands éditeurs (Hachette, HarperCollins, Penguin Random House, Wiley) ont porté plainte pour violation du droit d’auteur. En 2023, un tribunal américain a condamné l’Archive, qui a fait appel, arguant que sa mission de préservation culturelle prime sur les intérêts commerciaux.

78 Project et Sony

Le Great 78 Project, visant à numériser et préserver des enregistrements historiques sur disques 78 tours, a été attaqué par des labels comme Sony et Universal. Ces derniers estiment que les œuvres déjà disponibles en streaming n’ont pas besoin d’être archivées, tandis que l’Internet Archive défend la valeur patrimoniale et historique de ces enregistrements, souvent rares ou oubliés.

MySpace et la migration en erreur

Mais il y a aussi du positif. En 2019, une migration ratée des serveurs de MySpace a entraîné la perte de 50 millions de chansons. L’Internet Archive avait déjà sauvegardé une partie de ces données, illustrant son rôle crucial dans la préservation de la culture numérique face aux défaillances techniques ou aux décisions commerciales.

Un futur décentralisé et politique

L’Internet Archive milite pour un web décentralisé, où la mémoire collective n’est pas contrôlée par quelques plateformes privées. Des technologies comme IPFS (InterPlanetary File System) ou des partenariats avec des bibliothèques fédérales (comme sa désignation récente comme Federal Depository Library aux États-Unis) renforcent cette vision.

Tous les 4 ans, Internet Archive prête une attention particulière aux sites en .gov et .mil pendant la transition présidentielle. Entre 2024 et 2025, Internet Archive a assimilé plus de 500 Tb de données gouvernementales.

L’enjeu est autant technique que politique : garantir un accès universel et pérenne à la connaissance, tout en résistant à la censure et à la centralisation.

Conclusion

L’Internet Archive incarne une utopie numérique : celle d’un web où rien ne disparaît, où la connaissance est accessible à tous, et où la mémoire collective est préservée pour les générations futures. Mais cette mission se heurte à des défis colossaux : techniques, financiers, juridiques et politiques.

À l’heure où le web devient de plus en plus éphémère et contrôlé, l’Internet Archive reste un rempart contre l’oubli, un gardien de notre patrimoine numérique.

Sources