Page de Mimi Zhang

Doctorante

LaLIC (Langage Logique Informatique, Cognition)

Université Paris-Sorbonne

28 rue Serpente - 75006 Paris

Thèse en cours : "Résumé automatique de texte en chinois- mandarin par la méthode d’exploration contextuelle avec intégration dans la plate-forme informatique EXCOM"

Directeur de thèse : Jean Pierre Desclés

Résumé

La machine EXCOM fonctionne à partir de ressources linguistiques sous forme de base de marqueurs de points de vue de fouille sémantique, conduisant ainsi à des annotations de relations sémantiques discursives.
Il y a plusieurs utilisations directes de l’annotation automatique (fouille sémantique de textes selon des points de vue, synthèses automatiques de documents textuels avec filtrage dans des fiches, structuration des connaissances et construction d’ontologies à partir de textes, articulation entre textes et images, bibliométrie avancée par la catégorisation de citations, ordonnancement temporel des événements dans une narration et spécifications informatiques à partir de textes) qui sont développées dans le laboratoire LaLICC.
Les points de vue déjà analysés pour le résumé automatique sont: annonces thématiques, remarques conclusives, soulignements de l’auteur, rappels et développements du titre.
EXCOM a donné de bons résultats pour la synthèse de texte en français. La même méthode qui utilise l’analyse sémantique adaptée au français a été étendue, avec la recherche du marqueurs adéquats, à la langue coréenne.

L’objet de la thèse sera une extension comparable pour le chinois, en tenant compte des spécifications de cette langue. n travail d’adaptions des ‘cartes sémantiques’ relatives aux points de vue retenus construites pour le français sera nécessaire pour le chinois et certaines spécificités propres à cette langue.
Dans le chinois (Mandarin, dialecte de Pékin), les morphèmes sont invariables et ne connaissent aucun type d’accord (ni flexion nominale, ni conjugaison), d’où l’importante de la syntaxe (l’ordre des mots est primordial). Il utilise des particules aspecto-temporelle et modales, le verbe est actualisé au moyen de particules la plupart du temps post-verbales qui renseignent sur le temps, l’aspect, le mode de procès et le monde du verbe. Il existe de très nombreux suffixes post-verbaux renseignant sur la localisation du procès, sa possibilité, son succès, etc. Il fait usage de ‘classificateurs’ nommés spécificatifs, morphèmes sa plaçant entre un déterminant (démonstratif, adjectif numéral) pour indiquer la classe sémantique à laquelle appartient un terme (classe des objets longs et plats, classe des animaux, des paires, des divisions d’un ouvrage de poésie, etc.).
La thèse entre dans un projet général qui articule annotations discursives automatiques et indexation de textes pour la recherche d’informations multilingues.


Communications Internationales avec actes

1. Zhang Yanduo, Zhang Mimi (2002), "Development of Robot Soccer Simulation Match System Based on Artificial Life", FIRA Robot World Cup, Corée, 23-29 Mai