Ce projet consiste à reproduire une expérience déjà réalisée auparavant dans l'article « Evaluating the Generalisation of an Artificial Learner » de Bernardo Stearns et ses collègues. Vous pouvez retrouver l'article et leur expérience dans le lien suivant : Evaluating the Generalisation of an Artificial Learner
Explorer la possibilité de développer un modèle unique capable de simuler le comportement d’apprenants dans divers contextes. En entraînant un modèle de langage sur des données issues d’apprenants, il serait envisageable de créer un "apprenant artificiel" d’anglais reproduisant les particularités des apprenants réels.
Nous avons réparti les tâches comme suit : Perrine a récupéré les corpus EFCAMDAT et C4200M, puis préentraîné deux modèles BERT sur ces corpus respectifs. Zhongjie a pris en charge la récupération du corpus de test (CELVA-SP) et a évalué le modèle BERT préentraîné sur EFCAMDAT par rapport au modèle BERT de base sur ce corpus de test. De son côté, Guilhem a évalué le modèle BERT préentraîné sur C4200M en le comparant également au modèle BERT de base sur le corpus de test. Léa a ensuite comparé les résultats obtenus lors de l'expérimentation avec ceux présentés dans l'article. Enfin, tous les membres du groupe ont contribué à la rédaction de l'article récapitulatif en fonction des tâches qui leur avaient été attribuées.
- Dans quelle mesure l’apprenant artificiel peut-il prédire avec précision ce qu’un apprenant réel dirait ?
- Quelle est la confiance du modèle dans ses prédictions ?
- En quoi le comportement de l’apprenant artificiel diffère-t-il d’un modèle représentant un locuteur natif ?
- Corpus EFCAMDAT :
- Ce corpus contient 723,282 textes produits dans des écoles de langue Englishtown.
- Les apprenants ont écrit des textes en réponse à des consignes, comme "se présenter par e-mail".
- Les productions couvrent 16 niveaux de compétence linguistique.
- Corpus C4200M :
- Il s’agit d’un ensemble de phrases incorrectes générées synthétiquement pour la correction automatique d’erreurs grammaticales.
- À partir de phrases correctes et d’un type d’erreur défini selon l’outil d’annotation ERRANT, ce corpus génère des phrases contenant des erreurs spécifiques : https://github.com/chrisjbryant/errant.
- L’objectif est de trouver un équilibre entre la qualité des textes authentiques et la quantité des textes générés.
- Composé de textes rédigés par des étudiants français (niveau universitaire) utilisant l’anglais à des fins spécifiques : https://nakala.fr/10.34847/nkl.41d57kb0.
- Les apprenants ont répondu à l’une des trois consignes proposées dans le cadre d’une tâche écrite en classe de 45 minutes.
- Tous les textes ont été annotés en fonction des niveaux de compétence CECRL.
- Création du modèle d’apprenant artificiel (ALL) :
- Entraînement préliminaire basé sur des corpus de productions d’apprenants.
- Les textes bruts ont été fournis à un collateur de masquage linguistique, suivant la stratégie standard utilisée dans l’entraînement de BERT (https://github.com/google-research/bert).
- Analyse des prédictions :
- Masquage d’un token à la fois dans une phrase pour créer des phrases uniques masquées.
- Ces phrases ont été analysées par les modèles d’apprenant et de locuteur natif pour comparer leurs prédictions.
- Annotation POS :
- Chaque token des textes a été annoté avec sa catégorie grammaticale à l’aide de l’outil UDPipe, ce qui enrichit les données pour des analyses plus fines.
- Filtrage des textes longs :
- Les textes dépassant 512 tokens WordPiece ont été exclus afin de respecter les limites du modèle BERT de base.
- Affinage d’un modèle BERT déjà pré-entraîné sur des données générales, en l’adaptant spécifiquement aux textes produits par des apprenants.
- Données utilisées : corpus EFCAMDAT et C4200M.
- Méthode : masquage aléatoire de 15 % des tokens WordPiece par phrase pour que le modèle apprenne à prédire les mots manquants à partir du contexte.
Les performances des modèles (apprenant artificiel et locuteur natif) ont été comparées sur des textes d’apprenants externes.
Remarque : Étant donné que l'évaluation du modèle EFCAMDAT sur le corpus complet entraîne toujours la déconnection de l'environnement, ici on prend seulement les 200 premiers textes du corpus pour l'évaluation du modèle EFCAMDAT. À ce jour, nous ignorons les raisons qui n'ont pas permis de mener à bien l'évaluation du modèle EFCAMDAT sur l'ensemble sur corpus test. Cependant, l'évaluation du modèle C4200M a pu être effectuée sur l'ensemble du corpus test.
- Recall-at-k (R@k) :
- Mesure la précision des modèles : combien de fois le mot correct figure parmi les k prédictions les plus probables.
- Calculé pour
k = 1, 5, 10.
- Divergence KL (Kullback-Leibler) :
- Quantifie la différence entre les distributions de probabilité prédites par les modèles.
- Utilisée pour comparer les choix de tokens entre le modèle natif et les modèles d’apprenants.
- Calibration :
- Évalue la confiance du modèle dans ses prédictions. Une bonne calibration signifie que la probabilité attribuée à une prédiction reflète correctement son exactitude.