Hollie Little Pink Laptop.jpg
Garçon devant un ordinateur.jpg

Le Livre d'or  • avoir tout Vikidia hors-connexion

Participez à améliorer Vikidia : Pilpay, L'Île au trésor, Sorgho, Chasseur-cueilleur, et 300 autres articles importants et trop courts à compléter. Vos contributions sont les bienvenues !

Vikidia:TAL

Aller à la navigation Aller à la recherche

Présentation du projet des LITL 2019 : Analyse de la lisibilité des articles[modifier | modifier le wikicode]

Contexte du projet[modifier | modifier le wikicode]

Bonjour ! Nous sommes 6 étudiants (Ariyani, Beatriz, Damien, Manon, Mathilde et Silvia) en deuxième année du Master Linguistique, Informatique et Technologies du Langage (LITL) de l’Université Toulouse Jean-Jaurès. Nous étudions le Traitement Automatique des Langues (TAL), une discipline scientifique qui utilise l'informatique et la linguistique pour étudier des textes en langues naturelles, comme le français ou l’anglais, à l'aide de programmes. L’augmentation des capacités de traitement et de stockage des ordinateurs permet à présent d’étudier de grands ensembles de textes, appelés des corpus, pour approfondir notre connaissance des langues et de leurs utilisations.

Dans le cadre d’un projet collectif de notre formation, nous avons eu le plaisir d’étudier l’encyclopédie Vikidia sous l’angle du TAL : nous nous sommes intéressés au texte des articles. Nous avons essayé d’évaluer la complexité des articles de Vikidia, et de voir les traits qui caractérisent la manière d’écrire des Vikidiens. Comme il est impossible de lire et de se souvenir de tous les articles, nous avons utilisé des programmes informatiques pour regarder :

  • Les différences entre les supers articles de Vikidia et les autres articles de Vikidia
  • Les différences entre tous les articles de Vikidia et d’autres types de textes, comme des romans de Maupassant ou des articles de l’encyclopédie Wikipedia

Notre objectif était d’avoir une idée de la complexité de lecture et de compréhension de Vikidia. Nous voulions répondre aux questions suivantes : Est-ce que Vikidia correspond vraiment aux 8 - 13 ans? Est-ce que les articles sont tous faciles à lire ou est-ce qu’il y en a des particulièrement difficiles ? Pour nous aider à répondre à ces questions, nous avons pioché dans plusieurs articles scientifiques qui nous ont aidés à comprendre comment les chercheurs mesurent la complexité d’un texte.

Des indices pour mesurer la complexité[modifier | modifier le wikicode]

Cette complexité est quelque chose de est difficile à définir et les scientifiques n’ont pas toujours les mêmes éléments de réponse. Ces éléments de réponse correspondent à des variables ou des indices qui peuvent être observées sur les textes. Nous les avons rangées dans quatre grandes catégories ou niveaux :

  • Le niveau syntaxique, c'est-à-dire comment les mots se structurent dans une phrase ;
  • Le niveau morphologique, à savoir comment les mots se composent ;
  • Le niveau sémantique, c'est-à-dire le sens des mots ;
  • Le niveau de la structure du texte lui-même.

Nous avons établi une liste d’indices pour ces différents niveaux, et nous avons écrit un programme qui s’occupe de les mesurerdans le texte des articles. Par exemple, pour évaluer la structure du texte et voir si les consignes de rédaction d’un bon article [1] sont bien respectées, nous avons écrit un programme qui compte le nombre d’images et de liens internes de chaque article.

Nous avons aussi pris comme indice la longueur des phrases. En effet, plus une phrase est longue, plus elle a tendance à être difficile à lire et à comprendre. Regardez par exemple cette longue phrase de l’article Histoire des sciences :

Plus de 70 ans après qu'Einstein ait énoncé cette théorie, on ne sait toujours pas pourquoi elle s'applique plutôt bien à l'échelle gigantesque de l'Univers, mais pas à l'échelle minuscule de la mécanique quantique, qui de son côté explique un grand nombre d'autres phénomènes naturels.”

Cette phrase, qui parle de choses compliquées, devient très difficile à suivre vers la fin, où le lecteur a peut être déjà oublié comment elle commençait !

Un autre indice que nous avons calculé s’intéressait à la syntaxe et essayait de compter le nombre de propositions par phrase. Pour compter le nombre de propositions par phrase, nous avons regardé le nombre de verbes conjugués : plus une phrase a de verbes conjugués, plus elle compte de propositions et plus elle est complexe.

Nous nous sommes aussi demandés si la présence de mots difficiles rendait les articles plus compliqués à comprendre. Mais comment savoir si un mot est difficile à comprendre ou non ? De plus, Vikidia est là pour expliquer des choses compliquées de manière simple. Des articles simples et bien écrits peuvent avoir aussi des mots très compliqués mais arriver à bien les expliquer. Nous avons donc créé une liste de formules utilisées pour expliquer les mots compliqués, et nous avons compté combien de fois elles apparaissent  dans chaque article. Ces formules sont très variées : on peut expliquer un mot en utilisant c’est-à-dire, à savoir, par exemple ou en ajoutant une explication entre parenthèses : un glaive (une épée courte).

Nous avons ensuite, pour chaque indice, écrit des petites parties de programme, qui ont compté le nombre de fois où un élément était repéré dans tout Vikidia puis article par article. Par exemple, nous avons fait une sorte de bébé robot qui a compté tous les liens et les images dans un article. Au final, nous avons écrit une autre partie du programme pour rassembler les indices mesurés pour obtenir un très grand tableau rempli de chiffres. Pour pouvoir utiliser tous ces résultats, nous avons utilisé des statistiques pour étudier s’il y avait des relations entre les indices, si certains indices étaient vraiment très importants ou pas du tout.

Résultats du projet[modifier | modifier le wikicode]

Nous n’avons pas obtenu la recette miracle pour mesurer la complexité, décrivant tout ce qui est bien ou pas bien pour écrire un article. Mais c’est le contraire qui aurait été étrange : la complexité étant très difficile à identifier, chacun peut en avoir une définition différente, sans même pouvoir mettre des mots dessus, On parle alors de subjectivité. De plus, ce n’est pas une bande de vieux croulants (pas encore mais presque) qui peut, par de mystérieux calculs, dire avec certitude ce que des jeunes peuvent comprendre.

Mais notre travail permet tout de même de comprendre comment les articles sont écrits, ce qu’ils comportent comme type de structures de phrase et d’observer ce qui différencie les super articles et les articles à simplifier, et ainsi d’encourager de bonnes pratiques.

Vikidia, lorsque la ressource est comparée à d’autres types de textes, paraît bien correspondre à la jonction entre une ressource écrite par des jeunes et se rapproche de Wikipédia (mais du coup pas écrit par des vieux croulants).

Si on regarde les super articles, on peut voir que les articles plus longs sont souvent les plus travaillés et ceux que les lecteurs préfèrent. Nous avons remarqué que ces articles ont beaucoup d’images et utilisent beaucoup de connecteurs logiques différents. On ne peut que vous féliciter pour tous les merveilleux articles qu’on a pu lire tout au long de notre projet ! Chacun a son style et sa manière d’expliquer les choses, et c’est une des raisons pour lesquelles il est très difficile d’évaluer la complexité d’un article. Si on peut vous donner un conseil sur comment imiter les super articles, ce serait d’aller regarder, et de compléter la page des connecteurs logiques :  n’hésitez à les utiliser dès que possible, pour que toutes les liaisons entre ce que vous expliquez dans un article soient bien claires.

Après nos analyses, nous pensons que Vikidia est une ressource très intéressante. Nous ne pouvons que vous conseiller d’en profiter et de collaborer à l’amélioration de cette ressource. En améliorant ou en écrivant des articles vous aurez l’occasion d’apprendre plus de choses de manière active et amusante ! Également, nous vous conseillons de ne pas hésiter à signaler un article comme trop compliqué si vous avez eu du mal à le comprendre, cela permettra aux collaborateurs de le simplifier et le rendre accessible à tous !

Nous remercions la communauté Vikidia et ses administrateurs pour toute l’aide qu’ils nous ont apportée. Vous pouvez retrouver sur le site Github les résultats de notre projet :