Présentation |
Interventions(résumé/slides/vidéo) |
De plus en plus, différents
acteurs confrontés à des catégorisations des savoirs et
à leur accès par des Systèmes de Recherche d’Informations
(SRI), comme les documentalistes, les journalistes, les chercheurs en sciences
humaines et sociales et en sciences « dures », réclament
de nouveaux moyens d’indexation des documents fondés sur les contenus.
Par exemple, le président de la BNF a encore récemment insisté
sur l’urgence et la nécessité pour l’Europe de disposer
de nouveaux moyens d’indexation et de catégorisation des nombreux
savoirs archivés dans les bibliothèques.
Les recherches d’informations proposées dans de grandes bases de
documents textuels fermées, ou ouvertes comme le Web, se font à
travers des moteurs de recherche qui visent à rapprocher, par différents
moyens, d’une part les questions posées, d’autre part des
documents qui sont censés donner les réponses à ces questions.
Ainsi, le fameux moteur de recherche Google donne, en réponse à
une question posée sous la forme de termes linguistiques (éventuellement
connectés entre eux par des opérateurs logiques comme ET, OU,
SAUF …), une liste de documents, classés selon un ordre calculé
en fonction des fréquences des termes composant la requête et d’autres
facteurs non révélés. Google a largement fait la preuve
de son efficacité du moment où l’on reste dans la perspective
de recherche d’informations par mots-clés. Il est désormais
concurrencé par de nouveaux outils comme Exalead qui travaillent toujours
au niveau des termes en proposant de déterminer la racine des mots utilisés
dans la requête afin de permettre de trouver des documents même
s’ils ne contiennent par exactement les mots de la requête.
Par ailleurs dans le contexte du Web sémantique, on constitue des méta-données
des documents issus du Web par l’utilisation d’annotations manuelles
représentées par des langages de représentation des connaissances
comme RDF et DAML+OIL dans le but de décrire les contenus des documents.
Le but du Web Sémantique est de convaincre la plus grande partie des
utilisateurs du Web d’annoter manuellement les documents électroniques
afin de les rendre compréhensibles par des programmes informatiques et
permettre ainsi de construire des Systèmes d’Informations capables
de retrouver des documents par leurs contenus sémantiques.
D’autres approches plus linguistiques proposent l’utilisation de
nouvelles méthodes d’identification automatique de relations sémantiques
discursives associées à des segments textuels variés. Elles
font appel à une analyse linguistique et à une meilleure compréhension
de l’organisation discursive des textes. Les nouveaux Systèmes
de Recherche d’Informations proposés sont fondés sur des
annotations automatiques de textes, qui opèrent avec une sémantique
discursive permettant ainsi de mieux accéder à l’information
et dans certains cas constituer automatiquement des parties d’ontologies
de domaines et de s’inscrire ainsi dans le projet du web sémantique.
Le Web-sémantique vise justement à dégager des principes
de catégorisation pour qu’un utilisateur puisse, avec ces catégorisations,
retrouver facilement sur le Web ce qu’il cherche ou souhaite découvrir.
Il veut dépasser les actuelles navigations par mots clés, fondées
sur des critères essentiellement statistiques, ce qui a pour effet, entre
autres, de produire beaucoup de bruit ou de rendre le travail de recherche très
long et pas toujours très pertinent. Les ontologies, conçues dans
une perspective applicative, sont des descriptions de domaines particuliers
(par exemple : des référentiels d’objets, des relations
entre ces objets, des actions permises ou illicites sur ces objets…) qui
peuvent faire appel à des annotations manuelles de corpus, ces annotations
étant destinées à être utilisés ultérieurement
par des outils informatiques de recherche d’informations.
Le terme « sémantique », utilisé dans le Web-sémantique,
désigne-t-il des méthodes comparables à celles qui sont
mises en œuvre par les théories linguistiques (théorie des
sèmes, des schémas et des schèmes, des stéréotypes,
des prototypes …par exemple) et par les descriptions (des termes lexicaux,
des marqueurs grammaticaux, des matrices lexique-grammaire, par exemple) qui
en sont les conséquences ? Les « ontologies » ont-elles quelque
rapport avec le programme de recherche sur l’Ontologie (c’est-à-dire
sur « l’être en soi, en tant qu’être »)
des métaphysiciens, philosophes et logiciens (d’Aristote à
H. Putnam et W.O. Quine, en passant par E. Kant) ; ces derniers font nécessairement
appel à des conceptualisations sémantiques explicites (par exemple,
les « formes canoniques » de Quine) ou implicites (mises en évidence
par, entre autres, le célèbre article de Emile Benveniste sur
« Catégories de langue et catégories de pensée »
qui analyse les catégories supposées « universelles »
d’Aristote) ? Par ailleurs, un certain nombre de recherche se sont orientées
vers la construction « d’ontologies générales »
qui, lorsqu’on les examinent, traversent visiblement certaines des préoccupations
de la sémantique générale (sémantique de la spatialité,
de la temporalité, du mouvement et des changements, de la causalité,
des « prises en charge énonciatives » plus ou moins modalisées
…) et de la sémantique cognitive développée par les
différentes approches actuelles (R. Jackendoff, L. Talmy, B. Pottier,
J.P. Desclés …, par exemple). De plus, les pratiques linguistiques
qui s’appuient sur un empirique observable (analyses de textes et de corpus,
de configurations linguistiques organisées en paradigmes d’exemples,
par des variations et des déformations destinées à faire
émerger les relations et opérations pertinentes et généralisables
…) ne peuvent-elles pas contribuer à enrichir, complexifier, construire
et valider certaines des ontologies et des catégorisations opérées
par l’Ingénierie des connaissances ? N’y a-t-il pas lieu
d’un réel débat interdisciplinaire (et non pas simplement
multidisciplinaire) ?
L’enjeu actuel pour la linguistique et les sciences du langage est important.
Doivent-elles ignorer complètement les recherches en cours sur le Web-sémantique
et la construction d’ontologies, jusqu’à présent jugées
hors du champ de leur compétence, ou doivent-elles y contribuer activement,
quitte à proposer certaines réorientations nécessaires,
puisque, en définitive, les systèmes souhaités sont destinés
à des utilisateurs humains habitués à produire, manipuler,
comprendre des discours, des textes et des catégorisations abstraites
verbalisées au travers d’énoncés et de représentations
sémiotisées ? Doivent-elles s’isoler superbement en étudiant
uniquement les « problèmes internes » qu’elles ont
réussis à définir ou se confronter à la résolution
de « problèmes externes », en se risquant également
dans des programmes finalisés qui, souvent, révèlent, en
retour, des problèmes théoriques nouveaux ?
L’objet du colloque est de croiser des approches et des disciplines qui
n’ont pas assez l’habitude de se confronter autour d’objectifs
aussi bien théoriques qu’orientés vers des applications
finalisées.