Présentation

Le développement des Intelligences Artificielles et la centralité des corpus d’apprentissage rendent nécessaire le développement de méthodes d’analyse de données textuelles, au croisement de la statistique traditionnelle et du Deep Learning. L’objectif est d’éclairer la boîte noire des réseaux de neurones profonds et de rendre interprétable les nouvelles sorties machines permises par les IA.

Cette école thématique, complémentaire aux autres actions de formation des humanités numériques tels que l'école « Analyser et Publier des corpus encodés en XML » (ÉThAP 2026) https://ethap.sciencesconf.org/ ou encore l'école « Encoder, exploiter, diffuser » (EnExDi 2026) https://enexdi.sciencesconf.org, se focalise sur l'exploration de corpus en abordant des méthodes de statistique textuelle et de deep learning (IA) à vocation descriptive.


Objectifs de formations:

Les objectifs de l’école sont doubles :

  1. Maitriser les méthodes de statistiques textuelles et favoriser l’interprétabilité des sorties machines. Pour y parvenir, l’école s’appuiera sur un savoir-faire développé en France depuis plus de 40 ans autour de la statistique textuelle exploratoire et descriptive. Les méthodes abordées seront détaillées, expliquées et mises en pratique en vue de leur exploitation par et pour les Sciences Humaines et Sociales. Les participants repartiront de l’école thématique avec une connaissance approfondie des outils et méthodes d’analyse de données textuelles mobilisés par la recherche française.
  2. Concevoir et/ou utiliser des modèles de deep learning spécifiques aux besoins des chercheurs en analyse de texte. L’école thématique entend répondre aux questions des participants en matière de bonnes pratiques, d’usages et d’implémentations. Elle insistera notamment sur la nécessité de concevoir des outils en adéquation avec les besoins des chercheurs. Les participants repartiront de l’école thématique avec un savoir théorique leur permettant d’envisager l’implémentation d’IAs dédiées à leurs besoins, ainsi qu’un savoir-faire technique leur permettant de manipuler des IAs descriptives sur leur corpus de travail.

L’école cible des chercheurs et des IT de SHS qui manipulent les textes en tant que matériel exploratoire et objet de recherche. Un des objectifs de l’école est la rencontre entre les acteurs qui fabriquent les outils d’analyse (ingénieurs et chercheurs-développeurs) et les utilisateurs qui mobilisent ces outils (chercheurs, enseignants-chercheurs, doctorants en SHS). Le croisement interdisciplinaire entre informaticiens et linguistes vise à mettre en résonance les besoins théoriques avec les solutions techniques en vue d’accroître le rayonnement des humanités numériques françaises.


Axes du programme:

Le programme de l’École s’articule autour de trois axes principaux déclinés en enseignements complémentaires:

  1. Le texte et les unités textuelles : comprendre la notion de corpus et transformer les (big) data en collections de textes structurées par hypothèse de travail. Collecte, annotation, contraste, comment représenter les sciences de la culture à partir de l’objet texte ?
  2. Les observables des textes : mesurer, définir et analyser les textes. Comment la statistique et le Deep Learning permettent d’extraire des marqueurs linguistiques qui interrogent les chercheurs ?
  3. L’interprétation des sorties logicielles : recontextualiser et expliquer un résultat statistique ou une prédiction de modèle Deep learning. Comment utiliser ou concevoir des outils intelligibles pour les SHS.

Concrètement, au terme de cette école thématique, les chercheurs pourront objectiver le contenu sémantique d’un corpus, identifier les thématiques des discours, modéliser les textes et la textualité, décrire le style des auteurs, le positionnement sociolinguistique des locuteurs et implémenter ou manipuler des IA intelligibles à des fins descriptives sur les textes.

Plus généralement, l'école DLSTexte est l’occasion de fortifier un champ scientifique développé en France et à l’international, et de renforcer un réseau de chercheurs et d’IT qui anime la communauté scientifique autour de l’analyse de données textuelles.

Chargement... Chargement...