Centre de recherche informatique de Montréal (CRIM)
L’humanité est ensevelie sous les données, qui ne cessent de se multiplier, et les scientifiques doivent souvent creuser à travers des milliers de points de données avant de trouver ce qu’ils cherchent et d’assembler des statistiques. Bien qu’il excelle dans certaines tâches de traitement de texte comme la recherche de mots-clés, l’ordinateur se perd aisément dans les complexités du langage humain et bute quand il tombe sur des coquilles, des expressions idiomatiques, une orthographe vieillotte et, surtout, le sens caché des mots. Sans formation en langage naturel, il ne peut passer au crible pareille masses de données textuelles, sauf dans les cas les plus simples.
C’est ce qui a incité les chercheurs du Centre de recherche informatique de Montréal (CRIM) à créer PACTE, une plateforme collaborative d’annotation et d’analyse de texte. On ne peut apprendre à un ordinateur à saisir un texte sans annotations, petites étiquettes glissées ici et là pour lui expliquer ce que signifie telle ou telle expression. Les annotations expliquent comment le texte est structuré grammaticalement, les sens qu’on lui prête et les particularités syntaxiques auxquelles il faut porter attention. La plateforme PACTE a été conçue pour simplifier l’apprentissage automatique. Elle gère d’énormes bases de données textuelles, autorise l’annotation manuelle du texte, perfectionne les algorithmes d’apprentissage, puis passe à l’annotation automatique et à l’analyse des résultats.