Articles

Publié le 26 octobre 2021 Mis à jour le 27 octobre 2021

Archiver Internet

Les pertes quotidiennes d'information du Net sont colossales

Si vous voulez voir pleurer un historien, particulièrement spécialisé dans le monde antique, parlez-lui de la bibliothèque d'Alexandrie. Cet établissement presque mythique contenait une immense partie du savoir accumulé durant cette période. Puis elle a été détruite par un envahisseur, emportant avec elle des siècles de connaissances.

Pour plusieurs, Internet est devenu la nouvelle utopie du savoir où les informations s'accumulent et se gardent. En théorie seulement. Parce qu'en pratique, nous sommes tous déjà tombés sur une page affichant la fameuse erreur 404, signifiant que le contenu a été déplacé ou supprimé. Un coin d'Internet rendu caduc et possiblement perdu pour de bon. Et cela arrive bien plus fréquemment que nous pouvons le croire.

Éviter l'érosion du Net

En effet, nous nous trouvons aveuglés par la multitude de contenus qui s'ajoute quotidiennement. Pendant ce temps, toutefois, du contenu se supprime. Et pas seulement des messages sur les réseaux sociaux. Cet article de The Atlantic en 2015 rappelait qu'un travail d'investigation d'un journaliste sélectionné au prix Pulitzer a fini par disparaître de la Toile. Une série de 34 articles fouillés sur une tragédie au Colorado partie en fumée. Or, comme le dit un historien d'Internet dans le texte, il est toujours possible de déchiffrer, ne serait-ce qu'en partie, un bout de papier brûlé. Or, un site peut disparaître sans laisser pratiquement aucune trace.

Heureusement, certains ont vite compris que le réseau mondial aurait besoin d'archivistes. Ainsi, chaque jour, des individus travaillent à archiver les pages, les images, les messages publics, etc. Parce que le temps est compté. Une équipe de chercheurs a réalisé que, particulièrement sur les réseaux sociaux, 11% des éléments partagés se perdent après une année de publication. Puis, cela augmente à un rythme de 0,2% par jour depuis l'anniversaire de parution. Ce qui veut dire que des ressources ayant abordé des éléments marquants comme le printemps arabe, les attentats de novembre 2015 à Paris ou de la Coupe du Monde en 2014 sont disparues à jamais.

Ainsi, les archéologues du Web essaient de préserver ce qui se publie en ligne. Bien sûr, le travail est colossal et quasi impossible de tout sauvegarder ce qui est mis sur Internet chaque jour. Ils tentent tout de même avec l'aide de robots qui collectent automatiquement. Le plus connu, Internet Archive, est né de cette volonté d'en conserver le plus possible avant que cela ne disparaisse. La Wayback Machine permet ainsi aux Internautes de revoir des sites dans leurs anciennes versions. Intéressé de voir Thot Cursus en 2008

Depuis, d'autres joueurs sont entrés dans la danse de l'archivage comme Archive.today, PageFreezer ou la bibliothèque du Congrès américain qui a décidé aussi de jouer ce rôle d'archiviste du Net. Du côté français, la Bibliothèque nationale de France (BnF) fait de même depuis quelques années.

Un devoir de mémoire

Cela pourrait sembler vain d'archiver un média aussi foisonnant qu'Internet. Après tout, à quoi cela pourrait-il bien servir? Pourtant, de plus en plus de professionnels doivent faire affaire aux archives. Dans les médias d'information, revoir d'anciennes déclarations est toujours important pour la contextualisation. Les personnalités publiques utilisent  de plus en plus Internet pour s'exprimer et laissent  donc des paroles intéressantes, choquantes ou contradictoires qu'il faut pouvoir retrouver. Pour la vérification de faits, cela devient très pratique. Par exemple, en 2018, Donald Trump se lamentait que Google n'ait pas promu sur sa page d'accueil son discours de l'État de l'Union alors qu'il le faisait pour Obama. Il aura suffi d'une petite inspection pour prouver que le président mentait et que Google avait bien souligné l'événement la journée même.

Pour les chercheurs, entre autres, en sciences humaines, ces archives se veulent une colossale matière à analyser. Ils peuvent ainsi filtrer selon leur champ d'intérêt, noter des comportements ou mouvements, les amasser et les visualiser. Encore plus facile avec l'infonuagique de faire de la recherche dans les archives. D'où l'importance pour les archivistes de non seulement accumuler les données mais aussi bien les classer et offrir des outils afin que les savants puissent facilement dénicher un temps précis, des termes en particulier, etc.

Ainsi, pensons à la période de la covid-19 qui aura marqué durablement le début de la décennie 2020. Des archivistes sont déjà en train, autant sur le terrain que sur Internet, d'amasser le plus d'éléments possible. Il s'agira de la pandémie la plus médiatisée de l'histoire suscitant aussi de nombreux débats et désinformation. D'ailleurs, la WayBack Machine a décidé à la fin de 2020 d'offrir de la vérification de faits de pages archivées. Ainsi, il sera indiqué si un site ou une vidéo a été supprimé pour avoir propagé de l'information mensongère.

Des citoyens archivistes

Si de nombreux robots et humains travaillent à sauvegarder des sites de la disparition complète, les internautes pourraient les aider en faisant de même. En effet, il existe des solutions technologiques afin de soi-même archiver des sites. Wallabag est un logiciel qui permet de conserver une page et d'être capable de la relire même des années après de façon intelligible. Du coup, le programme ne garde pas nécessairement le contenant mais plutôt le contenu.

Pour cela, il vaut mieux se tourner vers Conifer, qui enregistre en format WARC les pages Internet désirées comme le fait un archive.org, par exemple. Le site propose un compte gratuit de 5 gigaoctets et il faudra payer pour plus de stockage. Néanmoins, cela peut être intéressant si vous avez peur de perdre une page en particulier. Enfin, Archivebox est un logiciel au code libre d'autohébergement de pages Web. Il développera donc un serveur sur lequel il sera possible de mettre autant de contenu que souhaité.

Archiver Internet n'est pas simplement là pour se moquer des mises en page affreuses de l'époque. Cela offre aux chercheurs une base de données colossale pour analyser des pans de l'histoire moderne ou de la sociologie au 21e siècle. De plus, l'archivage permettrait de conserver aussi du matériel didactique ou des approches pédagogiques. En effet, combien d'entre elles se perdent dans l'océan d'informations Internet alors qu'elles pourraient servir à de jeunes enseignants? Les archivistes du Net ont donc fort à faire afin de s'assurer que toute cette masse de connaissances ne disparaisse pas.

Illustration : Markus Spiske sur Unsplash

Références :

"3 Outils Très Pratiques Pour Archiver Sa Vie Numérique !" Dbeley. Dernière mise à jour : 15 mars 2021. https://dbeley.ovh/post/2021/03/15/3-outils-tr%C3%A8s-pratiques-pour-archiver-sa-vie-num%C3%A9rique/.

Cuneo, François. "Internet Archive Et Son WayBackMachine, Toute L’histoire Du Web Sous L’index." Le Blog Du Cuk. Dernière mise à jour : 9 mars 2021. https://leblogducuk.ch/2021/03/09/internet-archive-et-son-waybackmachine-toute-lhistoire-du-web-sous-lindex/.

Ferreira, Elsa. "L’inéluctable Désintégration D’Internet Et Les Archivistes Du Web." CTRLZ. Dernière mise à jour : 16 juillet 2021. https://ctrlzmag.com/pourquoi-internet-disparait-et-comment-certains-sarrachent-pour-archiver-notre-memoire-collective/.

Gelinas, James. "The Wayback Machine Will Now Fact-check Archived Websites and Articles." Komando.com. Dernière mise à jour : 4 novembre 2020. https://www.komando.com/social-media/wayback-machine-fact-check/762651/.

LaFrance, Adrienne. "Raiders of the Lost Web." The Atlantic. Dernière mise à jour : 14 octobre 2015. https://www.theatlantic.com/technology/archive/2015/10/raiders-of-the-lost-web/409210/.

Lo, Saliou. "L’archivage Du Web Par La BnF : Sauvegarde Et Valorisation De La Mémoire En Ligne." Métiers Des Archives Et Des Bibliothèques : Médiation De L'histoire Et Humanités Numériques. Dernière mise à jour : 13 janvier 2021. https://masterabd.hypotheses.org/7796.

Puren, Marie. "L’archivage du Web." Archive Ouverte HAL. Dernière mise à jour : 13 novembre 2020. https://hal.archives-ouvertes.fr/hal-03152742/document.

Ruest, Nick, Samantha Fritz, Jimmy Lin, et Ian Milligan. "From Archive to Analysis: Accessing Web Archives at Scale Through a Cloud-based Interface." International Journal of Digital Humanities. Dernière mise à jour : 6 janvier 2021. https://link.springer.com/article/10.1007/s42803-020-00029-6.

Shreffler, Stephanie. "The Internet Archive Has Been Fighting for 25 Years to Keep What's on the Web from Disappearing – and You Can Help." The Conversation. Dernière mise à jour : 13 août 2021. https://theconversation.com/the-internet-archive-has-been-fighting-for-25-years-to-keep-whats-on-the-web-from-disappearing-and-you-can-help-163867.

Spinney, Laura. "What are COVID archivists keeping for tomorrow’s historians?" Nature. Dernière mise à jour : 23 décembre 2020. https://www.nature.com/articles/d41586-020-03554-0.

Turbé, Sébastien. "5 Archives En Ligne Pour Visualiser Les Anciennes Versions D'un Site." Codeur Mag. Dernière mise à jour : 23 avril 2021. https://www.codeur.com/blog/outils-archives-en-ligne-historique-anciennes-versions-site-web/.

Vlassenroot, Eveline, Sally Chambers, Sven Lieber, Alejandra Michel, Friedel Geeraert, Jessica Pranger, Julie Birkholz, et Peter Merchant. "Web-archiving and Social Media: an Exploratory Analysis." International Journal of Digital Humanities. Dernière mise à jour : 22 juin 2021. https://link.springer.com/article/10.1007/s42803-021-00036-1.


Voir plus d'articles de cet auteur

Dossiers

  • Mémoire et enregistrement


Le fil RSS de Thot Cursus - Besoin d'un lecteur RSS ? Feedly, NewsBlur


Les tweets de @Thot


Accédez à des services exclusifs gratuitement

Inscrivez-vous et recevez nos infolettres en pédagogie et technologies éducatives

Vous pourrez aussi indexer vos ressources préférées et retrouver votre historique de consultation

M’abonner à l'infolettre

Superprof : la plateforme pour trouver les meilleurs professeurs particuliers en France (mais aussi en Belgique et en Suisse)


 

Ajouter à mes listes de lecture


Créer une liste de lecture

Recevez nos nouvelles par courriel

Chaque jour, restez informé sur l’apprentissage numérique sous toutes ses formes. Des idées et des ressources intéressantes. Profitez-en, c’est gratuit !