Event box

Découverte du Text and Data mining grâce à l'infrastructure Istex (Séance 1 / 2) En Ligne

 

Cette formation vous est proposée par l'Inist dans le cadre de DATA Doct, le programme de formation à destination des enseignants-chercheurs, des doctorants et des personnels d'appui à la recherche de l’atelier de la donnée CoDataSorb (Sorbonne Alliance).

 

Cette formation se déroule sous la forme de 2 séances : le vendredi 03 avril en distanciel et le jeudi 16 avril en présentiel. L'inscription vaut ici pour la séance 1 de cette formation.

Pour s'inscrire à la séance 2, consulter le catalogue CoDataSorb ou ce lien : https://univ-paris3.libcal.com/event/4512226

 

Cette formation est proposée par Mathilde Huguin et Léo Gaillard de l'Inist-CNRS. 

 

Description :

Le TDM (pour Text and Data Mining, ou fouille de textes et de données) est un enjeu pour la recherche, objet de débats politiques dans le cadre de la loi pour une République Numérique (2016). En fonction du type de projet et de la discipline, il permet d’extraire des connaissances à partir d’une grande quantité de données. Face à l’explosion des informations numériques, dont le volume et la diversité rendent impossible une analyse manuelle exhaustive, la fouille de textes s’impose comme un outil indispensable pour transformer cette masse de données en savoir exploitable.

Cette initiation générale vise à présenter le TDM, en combinant notions théoriques et aspects pratiques. Elle présente ainsi l’infrastructure Istex, combinant un réservoir de plus de 31M de publications scientifiques et des outils dédiés à la création corpus et au TDM : Istex Search, Istex TDM, Lodex, TDM Factory.

 

Mots clés : Text and Data Mining/fouille de textes, analyse de corpus, datavisualisation, web services, infrastructure Istex, Lodex

 

Programme :

  • La première partie de la formation propose un panorama du Text and Data Mining. Elle en présente les définitions, les objectifs, ainsi que les principales méthodes et outils. Elle comprend un focus sur les réseaux de neurones artificiels, une présentation des web services TDM de l’Inist et aborde les enjeux éthiques et juridiques associés.
  • La deuxième partie présente le réservoir Istex et explique comment constituer un corpus exploitable pour le TDM. Un corpus doit être scientifiquement pertinent et répondre à des contraintes techniques. Istex offre justement un accès au texte intégral, des enrichissements et des fonctionnalités permettant de construire efficacement des corpus pour l’analyse automatisée. Un cas d’usage illustre concrètement ces possibilités.
  • La troisième partie prend la forme d’une démonstration pratique, montrant comment utiliser Istex Search, Lodex et les web services Istex TDM pour analyser un corpus documentaire ou soutenir une démarche de veille scientifique.

 

 

Date:
vendredi, avril 3, 2026
Heure:
10:00 - 13:00
Fuseau horaire:
Heure de l’Europe centrale (changement)
Online:
This is an online event. Event URL will be sent via registration email.
Période d'inscription terminée

Event Organizer

Atelier de la donnée CoDataSorb

More events like this...