Données des langues, corpus et applications en TAL
resp. P. Pognan


L’effort principal portera sur la définition, la structuration, l’élaboration et la gestion des corpus. A partir de ceux-ci, on envisage de réaliser des aides automatiques à la constitution de bases de données.

Corpus: Les langues du Maghreb (arabe dialectal et berbère – Malhoun, chants, contes, devinettes,…, flore) sont concernées (coopération avec Fès: FSP et AUF). Un corpus de textes littéraires (autochtones ou traduits) rassemblé pour l’albanais à partir des données de maisons d’édition albanaises (AUF) et de petits corpus tchèque et slovaque serviront de bancs d’essai pour des programmes d’analyse automatique.

Bases de données grammaticales et lexicales: Projets de BD pour l’albanais, le berbère, le tchèque, le slovaque et le slovène. Construction d’une BD français – berbère sur la base du « Taïfi » dictionnaire raisonné berbère – français (Projet AUF).

Lexiques et dictionnaires: Exploitation de la base de données tamazight – français pour l’élaboration d’un dictionnaire français – berbère (coopération avec Fès, projet AUF). Etudes pour un lexique du vocabulaire courant en tachelhit et en tamazight, en albanais (projet AUF). Etude du cadre verbal aux niveaux syntaxico-sémantique et sémantico-cognitif de langues slaves (tchèque, slovaque, slovène) et de l’albanais avec réalisation de lexiques correspondants à partir de BD (coopération avec Prague et Ljubljana, coopération avec Tirana, projet AUF).

Multilinguisme et intercompréhension: Les travaux porteront sur la grammaire comparée de langues d’un même groupe (langues slaves, langues berbères) pour l’apprentissage des langues séparément dans une perspective multilingue ou pour l’apprentissage du groupe dans l’esprit des recherches issues d’Eurom4 conçu sous la direction de C. Blanche-Benvéniste.

(Auto-)apprentissage des langues: L’activité du PPF « traitement automatique des langues – multilinguisme et enseignement des langues étrangères » (Université de Paris-Sorbonne, INALCO, Université de Chambéry, Université de Franche-Comté, Université de Grenoble 1, Université de Nice – Sophia Antipolis) qui devrait débuter à la rentrée universitaire 2008 sera entièrement tournée vers l’utilisation des connaissances, des données et des outils élaborés par le traitement automatique des langues, pour produire des programmes d’apprentissage et d’auto-apprentissage de langues.

Sur la base de l’expérience du projet européen ALPCU « Découvrir et pratiquer le slovaque » (cf. bilan), deux projets concernant le tchèque et le slovaque sont lancés. Le premier, en collaboration avec l’Université de Hasselt (Belgique) concerne une plateforme à distance pour la création d’exercices grammaticaux en slovaque et en tchèque (responsable Lemay). Le second se donne 5 ans pour réaliser une méthode d’auto-apprentissage du tchèque (Antolin, Gruntova, Smilauer sous la direction de Pognan et Lemay).

On envisage également la réalisation d’une méthode d’apprentissage du berbère (tamazight).