Retrouver la trace d'une page web disparue ou modifiée

Des conseils techniques et méthodologiques en matière de recherche d'information

Selon Serge Bouchardon, le numérique se caractérise par la variabilité : la variabilité du code informatique, la variabilité d'un contenu affiché à l'écran, la variabilité d'un contenu dans le temps (soumise à la variabilité des dispositifs techniques). En outre, tout fichier numérique est reproductible à l'infini, créant de facto « une traçabilité généralisée des documents et des individus ». Comment dans ce contexte procéder pour récupérer un contenu devenu inaccessible (« adresse introuvable ») ?

Le « cache » des moteurs de recherche

Dans un premier temps, il conviendra d'utiliser la fonction « cache » des moteurs de recherche qui apparaît plus ou moins clairement à côté de l'adresse dans la page de résultats de chaque outil. Il suffit de saisir soit directement « cache:URL » (pour Google par exemple) pour pouvoir accéder à une version préalablement enregistrée du contenu recherché, soit saisir dans le formulaire de recherche (Bing, Yahoo, Exalead, Google) l’adresse, le titre, voire un extrait de la page à retrouver.

Exemple d'affichage avec Google

Pour Google et Bing notamment, il faudra cliquer sur la petite flèche à droite de l'URL (voir illustration ci-dessus), puis sur « (Page) en cache ».

La machine à remonter le temps

L’Internet Archive, fondé en 1996 par Brewster Kahle, est une initiative à but non lucratif dédiée à l’archivage du Web. Le service WayBack Machine proposé par l'association permet de visualiser l'évolution d'un site à différentes dates. Il suffit de saisir l'URL de la page d'accueil du site ou d'une page web spécifique dans le formulaire mis à disposition :

WayBack_Machine

Si le contenu visé a été capturé par le service, on obtient alors un tableau chronologique des différents « clichés » effectués correspondant bien évidemment aux versions antérieures de la page ou du site en question.

Voyez ici à quoi ressemblait le site cursus.edu le 11 novembre 1998 !

Des extensions pour navigateurs comme CacheIt! ou Resurrect Pages permettent également de disposer de fonctionnalités assez similaires car elles « interrogent » plusieurs services de cache ou sites miroirs dont Internet Archive.

Une nouvelle fonctionnalité fort utile s'ajoute depuis peu à WayBack Machine : elle offre en effet un outil baptisé « Save Page Now » qui permet aux utilisateurs de soumettre un lien à l'archivage et de recevoir ensuite un lien permanent (« permalink ») à condition que les robots (« crawlers ») puissent techniquement sauvegarder le contenu demandé.

Utiliser les réseaux sociaux

Dans leur récente publication (septembre 2013) intitulée «Resurrecting My Revolution Using Social Link Neighborhood in Bringing Context to the Disappearing Web», Hany M. SalahEldeen and Michael L. Nelson, chercheurs à l'Old Dominion University, (Norfolk VA, USA, Department of Computer Science) montrent à travers leurs expérimentations qu’il est possible de retrouver en partie le contenu d’une page web « disparue » en s'appuyant sur les ressources du web social, notamment en utilisant l'outil de recherche de Twitter, Topsy.

En outre, les auteurs soulignent le phénomène suivant : plusieurs des ressources qui étaient auparavant déclarées comme manquantes sont devenues à nouveau disponibles. L'une des explications avancées par les chercheurs est que cette réapparition est due à la restauration d'un nom de domaine ou d'un serveur web temporairement « suspendus » ou le rétablissement d'un compte d'utilisateur dont dépendaient les ressources manquantes...

Sources

PRECIP. « Qu’est-ce que le numérique ? - Présentation de nos modules d’écriture numérique ». utc.fr [en ligne]. 2014. [Consulté le 11 mai 2014]. Disponible à l’adresse : http://www.utc.fr/~wprecip//modules/introduction/adultes/co/QCMtest_7.html

SALAHELDEEN, Hany M. et NELSON, Michael L. « Resurrecting My Revolution: Using Social Link Neighborhood in Bringing Context to the Disappearing Web ». arXiv:1309.2648 [cs] [en ligne]. 10 septembre 2013. [Consulté le 11 mai 2014]. Disponible à l’adresse : http://arxiv.org/abs/1309.2648

Illustration (vignette) : capture d'écran de « Save Page Now » (WayBack Machine)

Le fil RSS de Thot Cursus - Besoin d'un lecteur RSS ? Feedly, NewsBlur

Les tweets de @Thot

Accédez à des services exclusifs gratuitement

Inscrivez-vous et recevez nos infolettres en pédagogie et technologies éducatives

Vous pourrez aussi indexer vos ressources préférées et retrouver votre historique de consultation

M’abonner à l'infolettre

Superprof : la plateforme pour trouver les meilleurs professeurs particuliers en France (mais aussi en Belgique et en Suisse)

Retrouver la trace d'une page web disparue ou modifiée

Des conseils techniques et méthodologiques en matière de recherche d'information

Ajouter à mes listes de lecture

Accédez à des services exclusifs gratuitement