Accès direct au contenu

English flag English

Recherche avancée

ADBS
L'association des professionnels de l'information
et de la documentation


Vous êtes ici : Accueil > Accéder à la doc professionnelle > Nous avons lu...

Statistiques de l'intellect. Lois puissances inverses en sciences humaines et sociales / Thierry Lafouge, Stéphanie Pouchot

publié le 26 septembre 2013

Paris : Editions Publibook, 2012. - 238 p. - (Information & Communication) - ISBN : 9782748397222 : 29,00 €

Analyse de Jean-Christophe TURLOT

jean-christophe.turlot[at]univ-pau.fr

UNE APPROCHE ORIGINALE SUR LES DONNÉES CHIFFRÉES

Le titre de l'ouvrage surprend : « Statistiques de l'intellect ». Que peut-il  contenir de différent des textes classiques en statistique pour justifier d'un tel titre ? Un premier élément de réponse nous est donné en introduction : « Ce sont les pratiques intellectuelles qui nous intéressent, c'est-à-dire des activités étroitement liées à la lecture et à l'écriture ». Le champ des applications proposées confirme les spécificités méthodologique et statistique dans lesquelles les auteurs nous entraînent : loi de ZIPF en lexicométrie : compter les mots ; loi de Lotka pour la mesure de la production scientifique des chercheurs ; loi de Bradford  pour la sélection de l'offre d'un centre de documentation spécialisé. Le modèle de référence commun à ces exemples - qui peut aussi bien s'appliquer à l'étude de la fréquentation du cinéma - est la famille des lois de puissance inverse, ou encore nommée « à longue traîne ». En contraste avec la loi normale de Laplace-Gauss, les auteurs nous présentent les singularités de ces lois. Ils montrent que les caractéristiques standard comme la moyenne empirique ou la variance ne sont pas pertinentes dans ce contexte, qu'elles peuvent même être dépourvues de sens dans le cadre de l'inférence statistique. De fait, une méthodologie spécifique de traitement statistique des données est développée dans le chapitre central de l'ouvrage sous forme d'une boîte à outils simples et faciles à mettre en oeuvre. Ce chapitre consacré aux lois de « puissance inverse » se termine sur leur caractérisation en terme d'indice de concentration de Lorentz : cet indice est invariant par changement d'échelle. Autrement dit, si un texte est homogène, que l'on n'en retienne que des extraits au hasard ou le tout, cela ne modifie pas l'indice de concentration. Cette propriété confère de la stabilité à cet outil d'analyse, ce qui est à mettre en relation avec les exigences de la méthodologie de l'analyse des correspondances développée autour du professeur Benzeci en analyse des données textuelles.

Il y a quelque chose d'un peu mystérieux dans ces lois : en lexicométrie, on ne peut pas ne pas être un peu surpris par le fait qu'il existe une forte régularité dans la liaison entre la fréquence d'un mot et son rang (c'est-à-dire son classement en termes de fréquence rencontrée dans un texte) qui de plus est exprimée de manière simple sous la forme, étant une constante, et cela quel que soit le texte analysé. Les auteurs  nous en donnent un riche exemple à travers le roman Ulysse de Joyce. Cela illustre la loi de ZIPF, suggérée dès les années 1930. Le dernier chapitre est consacré aux travaux de Lotka sur la mesure de la production scientifique des chercheurs (sujet ô combien d'actualité), à la loi de Bradford  en bibliométrie et à la loi de ZIPF en lexicométrie.

Plusieurs exemples sont ensuite traités en détails, dont l'un porte sur le pluralisme et la redondance de l'information sur le Web. Ces trois approches, quoique différentes, présentent des similarités ; elles font appel aux lois de puissance inverse. Une heuristique, mais aussi deux approches mathématiques, l'une due à Naranan modélise la croissance des sources d'information et justifie le modèle de Bradford, l'autre due à Mandelbrot  justifie la loi de ZIPF à partir de son célèbre modèle fractal, constituent le ciment de cet essai véritablement passionnant et convaincant. Les principales idées de ces deux approches sont données dans l'annexe, plus technique, mais riche de compléments statistiques.

Nous recommandons fortement cet ouvrage à tout étudiant en SHS souhaitant traiter des données textuelles, aux chercheurs, mais aussi à toute personne étant amenée par son métier à faire de l'analyse textuelle, par exemple en text mining. Les lois puissance inverse sont rarement présentées comme hypothèses dans les méthodologies statistiques. Elles comptent sûrement, par leur longue traîne, un sujet passionnant - très porteur, mais compliqué - pour la recherche.



Rédigé par ADBS

mise à jour le 26 septembre 2013


L'ADBS sur les réseaux sociaux

NOUS SUIVRE
    

PARTAGER CETTE PAGE

haut de la page

ADBS.fr - Site du premier réseau européen de documentalistes