Données massives d’étudiants : ce que l’on en fait et comment

La sciences des données se développe

Depuis l’apparition des plate-formes de formation en ligne, les données s’accumulent en volume, en variété et de plus en plus rapidement.

Ces données se présentent sous une forme primitive : des chaînes de caractères ou des chiffres considérées comme des objets et des clics sur un objet virtuel, (qui a cliqué, quand il a cliqué, sur quoi il a cliqué, quelle séquence il a emprunté, combien de temps il a pris).

Certaines données sont associées aux étudiants, d’autres sont liées aux objets d’apprentissage mais toutes font des liens entre deux ou plusieurs éléments, habituellement une personne, un objet, une valeur, un lieu et le temps. De ces données, on produit des rapports individuels ou collectifs qui permettent d’orienter l’action et les décisions.

Mais voilà, les données s’accumulent et ne sont consultées que rarement après un cours. Pourtant elles peuvent encore livrer des informations stratégiques ou pratiques importantes pour qui sait les questionner. Mais qui en est capable ?

Bien sur les plates-formes produisent des rapports pré-programmés qui répondent aux besoins immédiats des étudiants, des professeurs et des administrateurs, mais pour aller au delà et exploiter ces données accumulées, on ne peut pas compter sur un système qui ignore tout des besoins particuliers d’une institution. Il faudra jouer dans les données brutes.

Science des données

Sous l’appellation générique de «sciences des données», une grande disparité se révèle : non seulement les formats de données sont différents d’un milieu à l’autre et exigent un pré-traitement élaboré (vérification, imputation, transformation, sélection des variables), mais la manière de les traiter l’est également : une entreprise ne s’appuie pas sur les mêmes algorithmes pour cibler des consommateurs qu’un chercheur en génétique qui cible des altérations de chromosomes ou un opérateur municipal face à un flot de voitures qu’il doit diriger au mieux. En éducation les besoins sont tout aussi spécifiques.

Par ailleurs, les capacités de traitement entrent aussi dans l’équation : un traitement linéaire est possible si la quantité de données ne dépasse pas la mémoire d’un ordinateur, mais si elle la dépasse, il faut alors trouver des solutions alternatives (échantillonnage, traitement distribué, etc.). Quelle est la meilleure stratégie à adopter ? Pour extraire, traiter et analyser correctement les données, plusieurs compétences spécialisées et complémentaires sont nécessaires.

Complexité payante

Devant ces défis, on assiste actuellement au développement de toute une industrie du traitement des données, Des entreprises comme AWS (Amazon Web Services), MAPS (Microsoft Analytics Platform System), IBM Cloud ou Google Cloud Platform, offrent des capacités informatiques de traitement, des services conseils et des formations.

Le logiciel libre n’est pas en reste, car les services professionnels permettent à toute une communauté de prospérer : Enthought (Canopy), Continuum Analytics (Anaconda), Databricks (Apache Spark), Oxdata (Data Science - H2O), Fondation Apache - Big Data.

La formation pour les besoins de traitement des données en éducation

Mais il ne faut pas trop compter ni sur le privé, ni sur le libre pour répondre aux besoins spécifiques de l’éducation. L’éducation peut elle-même développer ses propres spécialistes. Le CNRS avec Madics (Masses de Données, Informations et Connaissances en Sciences) offre des orientations de recherche intéressantes.

D’un autre coté, les universités enseignent pour la plupart déjà les mathématiques, la statistique, l’informatique et la pédagogie. Proposer une spécialisation en «Traitement des données éducatives» serait tout à fait appropriée. L’INSA de Toulouse tente d'assurer une formation plus générale autour du traitement des données. Il y a assurément de la place et le besoin de compétences est bien réel !

Illustration : Bruce Rolff - ShutterStock

Références

De Statisticien à Data Scientist - Développements pédagogiques à l’INSA de Toulouse - Philippe Besse, Beatrice Laurent - Octobre 2015
https://hal.archives-ouvertes.fr/hal-01205336v2/document

AWS (Amazon Web Services)   https://aws.amazon.com/fr/
MAPS (Microsoft Analytics Platform System)
http://www.microsoft.com/en-us/server-cloud/products/analytics-platform-system/
IBM Cloud   http://www.ibm.com/cloud-computing/
Google Cloud Platform   https://cloud.google.com/

Enthought (Canopy)    https://www.enthought.com/services/consulting/
Continuum Analytics (Anaconda)    https://www.continuum.io/
Databricks (Apache Spark)   https://databricks.com/
Oxdata (Data Science - H2O) http://h2o.ai/about/
Fondation Apache - Big Data http://projects-old.apache.org/indexes/category.html#big-data

Madics - Masses de Données, Informations et Connaissances en Sciences (CNRS)
http://www.madics.fr/

Voir plus d'articles de cet auteur

Dossiers

Grands groupes
Données d’apprentissage
Extraire du sens

Auteur Denys Lamontagne Contacter l'auteur

Le fil RSS de Thot Cursus - Besoin d'un lecteur RSS ? Feedly, NewsBlur

Les tweets de @Thot

Accédez à des services exclusifs gratuitement

Inscrivez-vous et recevez nos infolettres en pédagogie et technologies éducatives

Vous pourrez aussi indexer vos ressources préférées et retrouver votre historique de consultation

M’abonner à l'infolettre

Superprof : la plateforme pour trouver les meilleurs professeurs particuliers en France (mais aussi en Belgique et en Suisse)

Données massives d’étudiants : ce que l’on en fait et comment

La sciences des données se développe

Dossiers

Ajouter à mes listes de lecture

Accédez à des services exclusifs gratuitement