Colloque international

« Annotation automatique de relations sémantiques et recherche d’informations : vers de nouveaux accès aux savoirs »

27-28 Octobre 2006

 

Présentation

Interventions(résumé/slides/vidéo)
Comité d'Organisation

De plus en plus, différents acteurs confrontés à des catégorisations des savoirs et à leur accès par des Systèmes de Recherche d’Informations (SRI), comme les documentalistes, les journalistes, les chercheurs en sciences humaines et sociales et en sciences « dures », réclament de nouveaux moyens d’indexation des documents fondés sur les contenus.
Par exemple, le président de la BNF a encore récemment insisté sur l’urgence et la nécessité pour l’Europe de disposer de nouveaux moyens d’indexation et de catégorisation des nombreux savoirs archivés dans les bibliothèques.


Les recherches d’informations proposées dans de grandes bases de documents textuels fermées, ou ouvertes comme le Web, se font à travers des moteurs de recherche qui visent à rapprocher, par différents moyens, d’une part les questions posées, d’autre part des documents qui sont censés donner les réponses à ces questions.


Ainsi, le fameux moteur de recherche Google donne, en réponse à une question posée sous la forme de termes linguistiques (éventuellement connectés entre eux par des opérateurs logiques comme ET, OU, SAUF …), une liste de documents, classés selon un ordre calculé en fonction des fréquences des termes composant la requête et d’autres facteurs non révélés. Google a largement fait la preuve de son efficacité du moment où l’on reste dans la perspective de recherche d’informations par mots-clés. Il est désormais concurrencé par de nouveaux outils comme Exalead qui travaillent toujours au niveau des termes en proposant de déterminer la racine des mots utilisés dans la requête afin de permettre de trouver des documents même s’ils ne contiennent par exactement les mots de la requête.


Par ailleurs dans le contexte du Web sémantique, on constitue des méta-données des documents issus du Web par l’utilisation d’annotations manuelles représentées par des langages de représentation des connaissances comme RDF et DAML+OIL dans le but de décrire les contenus des documents. Le but du Web Sémantique est de convaincre la plus grande partie des utilisateurs du Web d’annoter manuellement les documents électroniques afin de les rendre compréhensibles par des programmes informatiques et permettre ainsi de construire des Systèmes d’Informations capables de retrouver des documents par leurs contenus sémantiques.


D’autres approches plus linguistiques proposent l’utilisation de nouvelles méthodes d’identification automatique de relations sémantiques discursives associées à des segments textuels variés. Elles font appel à une analyse linguistique et à une meilleure compréhension de l’organisation discursive des textes. Les nouveaux Systèmes de Recherche d’Informations proposés sont fondés sur des annotations automatiques de textes, qui opèrent avec une sémantique discursive permettant ainsi de mieux accéder à l’information et dans certains cas constituer automatiquement des parties d’ontologies de domaines et de s’inscrire ainsi dans le projet du web sémantique.


Le Web-sémantique vise justement à dégager des principes de catégorisation pour qu’un utilisateur puisse, avec ces catégorisations, retrouver facilement sur le Web ce qu’il cherche ou souhaite découvrir. Il veut dépasser les actuelles navigations par mots clés, fondées sur des critères essentiellement statistiques, ce qui a pour effet, entre autres, de produire beaucoup de bruit ou de rendre le travail de recherche très long et pas toujours très pertinent. Les ontologies, conçues dans une perspective applicative, sont des descriptions de domaines particuliers (par exemple : des référentiels d’objets, des relations entre ces objets, des actions permises ou illicites sur ces objets…) qui peuvent faire appel à des annotations manuelles de corpus, ces annotations étant destinées à être utilisés ultérieurement par des outils informatiques de recherche d’informations.


Le terme « sémantique », utilisé dans le Web-sémantique, désigne-t-il des méthodes comparables à celles qui sont mises en œuvre par les théories linguistiques (théorie des sèmes, des schémas et des schèmes, des stéréotypes, des prototypes …par exemple) et par les descriptions (des termes lexicaux, des marqueurs grammaticaux, des matrices lexique-grammaire, par exemple) qui en sont les conséquences ? Les « ontologies » ont-elles quelque rapport avec le programme de recherche sur l’Ontologie (c’est-à-dire sur « l’être en soi, en tant qu’être ») des métaphysiciens, philosophes et logiciens (d’Aristote à H. Putnam et W.O. Quine, en passant par E. Kant) ; ces derniers font nécessairement appel à des conceptualisations sémantiques explicites (par exemple, les « formes canoniques » de Quine) ou implicites (mises en évidence par, entre autres, le célèbre article de Emile Benveniste sur « Catégories de langue et catégories de pensée » qui analyse les catégories supposées « universelles » d’Aristote) ? Par ailleurs, un certain nombre de recherche se sont orientées vers la construction « d’ontologies générales » qui, lorsqu’on les examinent, traversent visiblement certaines des préoccupations de la sémantique générale (sémantique de la spatialité, de la temporalité, du mouvement et des changements, de la causalité, des « prises en charge énonciatives » plus ou moins modalisées …) et de la sémantique cognitive développée par les différentes approches actuelles (R. Jackendoff, L. Talmy, B. Pottier, J.P. Desclés …, par exemple). De plus, les pratiques linguistiques qui s’appuient sur un empirique observable (analyses de textes et de corpus, de configurations linguistiques organisées en paradigmes d’exemples, par des variations et des déformations destinées à faire émerger les relations et opérations pertinentes et généralisables …) ne peuvent-elles pas contribuer à enrichir, complexifier, construire et valider certaines des ontologies et des catégorisations opérées par l’Ingénierie des connaissances ? N’y a-t-il pas lieu d’un réel débat interdisciplinaire (et non pas simplement multidisciplinaire) ?


L’enjeu actuel pour la linguistique et les sciences du langage est important. Doivent-elles ignorer complètement les recherches en cours sur le Web-sémantique et la construction d’ontologies, jusqu’à présent jugées hors du champ de leur compétence, ou doivent-elles y contribuer activement, quitte à proposer certaines réorientations nécessaires, puisque, en définitive, les systèmes souhaités sont destinés à des utilisateurs humains habitués à produire, manipuler, comprendre des discours, des textes et des catégorisations abstraites verbalisées au travers d’énoncés et de représentations sémiotisées ? Doivent-elles s’isoler superbement en étudiant uniquement les « problèmes internes » qu’elles ont réussis à définir ou se confronter à la résolution de « problèmes externes », en se risquant également dans des programmes finalisés qui, souvent, révèlent, en retour, des problèmes théoriques nouveaux ?


L’objet du colloque est de croiser des approches et des disciplines qui n’ont pas assez l’habitude de se confronter autour d’objectifs aussi bien théoriques qu’orientés vers des applications finalisées.