Text mining

Attention, cette réponse est ancienne. Son contenu peut être en tout ou partie obsolète.

Question

Bonjour,
En bibliothéconomie, qu'est-ce que des méthodes de text mining?
Merci d'avance!

Réponse

Date de la réponse : 02/03/2016

Vous voulez savoir en quoi consistent les méthodes de text mining.

Vous pouvez vous référer à la description qui figure dans la notice Fouille de textes de Wikipedia :

« La fouille de textes ou « l'extraction de connaissances » dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. (…) cela revient à mettre en algorithme un modèle simplifié des théories linguistiques dans des systèmes informatiques d'apprentissage et de statistiques. Les disciplines impliquées sont donc la linguistique calculatoire, l'ingénierie du langage, l'apprentissage artificiel, les statistiques et l'informatique.
Mise en œuvre :
On peut distinguer deux étapes principales dans les traitements mis en place par la fouille de textes.
La première étape, l'analyse, consiste à reconnaître les mots, les phrases, leurs rôles grammaticaux, leurs relations et leur sens. Cette première étape est commune à tous les traitements. Une analyse sans interprétation n'a que peu d'intérêt et les deux sont dépendantes. C'est donc le rôle de la seconde étape d'interpréter cette analyse.
La seconde étape, l'interprétation de l'analyse, permet de sélectionner un texte parmi d'autres. Des exemples d'applications sont la classification de courriers en spam, c'est-à-dire les courriers non sollicités, ou non spam : l'application de requêtes dans un moteur de recherche de documents ou le résumé de texte sélectionne les phrases représentatives d'un texte, voire les reformule. »

La bibliographie de cet article renvoie vers le texte de Christian Fauré, Introduction au text-mining, qui décrit les phases suivantes :

"D’abord le logiciel doit reconnaître les unités de la langue que sont les mots (tokenisation)
Ensuite il doit savoir interpréter et prendre en compte la ponctuation et la mise page (retour à la ligne, paragraphe, etc.)
Puis les formes lexicales et grammaticales, qui peuvent énormément varier selon que la langue est l’anglais, l’arabe ou le chinois.
Ensuite, il y a une phase de lemmatisation : elle consiste à identifier les différentes flexions d’un terme, ou déclinaisons d’un verbe.
L’ensemble des phases précédentes relèvent de ce que j’appelle l’analyse linguistique, au sortir de laquelle nous avons un document que le logiciel de text-mining a transformé. (…)
Deux approches, qui ne sont pas antinomiques, peuvent ensuite être envisagées : une approche statistique et une approche sémantique …"

Pour aller plus loin, vous pouvez consulter le manuel Fouille de textes : méthodes, outils et applications. Fidelia Ibekwe-SanJuan. Hermes science publ. Lavoisier, 2007.
Fidelia Ibekwe-SanJuan a notamment conçu avec Eric SanJuan l'outil TermWatch