Lorsqu'on lance une requête par format de fichier sur tel ou tel site ou tel ou tel nom de domaine (filetype:pdf site:cursus.edu), on peut déterminer après examen des propriétés le type de logiciel utilisé par la personne, l'organisme ou l'institution. Mais le constat ne s'arrête pas là : en effet, la collecte d'informations peut aller beaucoup plus loin lorsqu'on s'intéresse aux données renseignées (volontairement ou involontairement) par l'auteur du document sans que celui-ci en ait toujours conscience, ce qui peut éventuellement poser des soucis de sécurité. On distingue généralement trois grands types d'informations à ce niveau :
- les métadonnées descriptives du fichier : nom de l'auteur, date de création...
- les informations liées aux différentes versions d'un même document
- les informations "invisibles" indiquant par exemple le chemin de répertoires
Analyser automatiquement des documents
FOCA est un logiciel gratuit qui permet de lancer une requête sur un site spécifique ou sur un nom de domaine permettant de rapatrier tous les fichiers de type .doc, .pdf, .odt, etc. La recherche s'effectue à l'aide de trois moteurs de recherche ( Google, Bing et Exalead) mais on peut bien sûr la limiter à un seul. Il convient au préalable de créer un projet pour pouvoir sauvegarder les résultats de son analyse. Celle-ci s'effectue en trois temps à partir de l'onglet "metadata" :
- recherche des documents sur le(s) moteur(s)
- téléchargement des fichiers
- analyse et extraction des métadonnées
Constat inquiétant
Les résultats proposés par cet outil, notamment quand on les combine avec une autre recherche sur la même cible sur un format de fichier différent, peuvent apporter des informations que l'on ne souhaitait pas forcément rendre accessibles à l'origine. On conçoit ainsi les potentialités de ce type de logiciel qui peut permettre de constituer des bases de données et favoriser certains recoupements. L'intérêt est de disposer d'un outil qui repère les failles événtuelles de sécurisation d'éléments plus ou moins confidentiels, nous invitant par voie de conséquence à prendre davantage de précautions.
Dans un second article, nous étudierons le cas spécifique des images et dans un troisième nous verrons quelques moyens techniques visant à éliminer certaines de ses données plus ou moins cachées.
Détails techniques
Foca version 3.0
Logiciel gratuit
Testé sous Windows 7
Outil d'analyse en ligne : http://www.informatica64.com/foca/
Sources
Informatica 64 : http://www.informatica64.com/foca.aspx
Pour une approche globale de la notion de métadonnée : Hervé Le Crosnier. « Culture numérique 14, les métadonnées ». Canal U. 2009 [Consulté le 07 juin 2013]. Disponible sur le Web : CEMU
Illustration : Shutterstock,
alexskopje, Security
Voir plus de technologies de cette institution