|
Numéro :
|
170
|
|
Titre du projet :
|
OTIM (Outils de Traitement de l'Information Multimodale)
|
|
URL :
|
http://lpl-aix.fr/projet/170
|
|
Voir aussi :
|
http://lpl-aix.fr/~otim
|
|
Date de début :
|
1/01/2009
|
|
Date de fin :
|
1/01/2012
|
|
Responsable(s) :
|
|
|
Laboratoire d'accueil :
|
LPL (LPL)
|
|
Laboratoires associés :
|
|
Laboratoire des Sciences de l'Information et des Systèmes - UMR 6168 (LSIS), CNRS, Université de Toulon, Toulon (France)
|
|
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur , UPR3251 (LIMSI), Orsay Cedex (France)
|
|
Centre d'Enseignement et de Recherche en Informatique (LIA), Université dAvignon et des Pays de Vaucluse, Avignon (France)
|
|
Laboratoire de linguistique de Nantes (LLING), CNRS : EA 3727, Université de Nantes, Nantes Cedex 3 (France)
|
|
Recherche sur le Français Contemporain (RFC), CNRS : EA 1483, Université Paris 3, (France)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Section(s) :
|
07 34
|
|
Contrat[s] :
|
ANR BLAN08-2_349062
|
|
Budget (euros) :
|
310000
|
|
Source (envisagée) de financement :
|
ANR programme blanc
|
|
Année de soumission :
|
2008
|
|
Année d'acceptation :
|
2008
|
|
Equipes concernées :
|
|
Structures linguistiques : annotations, modèles et interfaces
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Description :
|
L'analyse de la multimodalité est aujourd'hui une préoccupation centrale en linguistique et en informatique pour des raisons théoriques et appliquées : description de l'interaction verbale, dialogue homme-machine, réalité virtuelle, etc. Du point de vue linguistique, l'analyse du langage et de la parole intègre l'étude domaines variés comme la phonétique, la phonologie, la syntaxe, la sémantique ou la pragmatique et les gestes. Ces domaines sont généralement étudiés séparément ou dans leurs relations avec les domaines jugés proches (p. ex. syntaxe-sémantique, prosodie-syntaxe, etc.). Le point de vue adopté par la linguistique moderne est beaucoup plus général : si chacun des domaines évoqués dispose d'une certain niveau d'autonomie, il ne peut être expliqué que dans son interaction avec l'ensemble des autres domaines.
L'analyse linguistique doit donc tenir compte des différentes modalités d'expression de l'information. Nous sommes cependant confrontés dans ce domaine à un manque de connaissances tant du côté des données empiriques que du côté des outils théoriques. La réduction de ce manque passe par la description de données qui illustrent les interactions particulières entre les différents domaines et modalités (interactions parole-gestes-syntaxe dans la description des déictiques, interactions sémantique-pragmatique-prosodie dans la description des constructions non déclaratives, etc.). De telles descriptions ne peuvent être menées qu'à l'aide de corpus annotés, dans lesquels toutes ces informations sont décrites.
Cependant, si les besoins sont grands, les ressources multimodales de haut niveau et les méthodes pour les constituer et les valider sont très partielles. Il faut souligner le fait qu'il n'existe pas aujourd'hui de corpus multimodal annoté pour le français, ils sont très rares et très incomplets pour l'anglais. Les projets en cours, y compris du point de vue international, sont presque toujours focalisés sur une modalité principale complétée éventuellement d'une modalité secondaire. De plus, les normes et standards d'encodage proposés dans ce domaine restent également très incomplets et ne couvrent pas la totalité des besoins en termes d'annotation des ressources multimodales. Enfin, les outils existants dans le domaine de l'aide à l'annotation, la manipulation et l'interrogation de données en sont à un stade très préliminaire.
Ce projet a donc un objectif à la fois linguistique et technologique et se propose d'aborder ces problèmes en traitant les questions suivantes : Création d'un format d'encodage multimodal générique Spécification d'une chaîne de traitement : définition des étapes, recommandations, outils d'aide Création et exploitation d'un outil de requête sur le format créé Création de nouvelles ressources annotées dans le format spécifié
Le premier problème est celui de la détermination d'une norme d'encodage permettant de répondre aux besoins de chaque domaine, de la phonétique à la pragmatique en passant par la syntaxe. Tout en se situant dans le contexte des standards d'encodage déjà proposés, nous spécifierons un schéma d'encodage répondant aux besoins de l'annotation multimodale. Une fois la norme d'encodage établie, nous nous engagerons dans le développement de la plateforme d'annotation et la production de sorties respectant ces normes. Nous proposons pour cela d'adapter les outils d'analyse existants, en particulier les outils développés par les équipes partenaires (édition de signal, étiquetage automatique, analyseurs syntaxiques, etc.). Les autres outils seront développés totalement dans le cadre du projet. Parallèlement à ces outils d'aide à l'annotation, nous proposons de développer des outils de manipulation et de traitement de données adaptés à nos besoins en même temps qu'un système de requête.
L'ambition de ce projet est donc de rassembler au sein d'une même plateforme d'une part une base de ressources brutes et enrichies pour la description du français et d'autre part un ensemble d'outils d'annotation et de manipulation ou de requête.
Nous proposons de valider cette plateforme en l'expérimentant sur deux types de corpus multimodaux : un ensemble de corpus audio et vidéo partiellement annotés que nous possédons des nouveaux corpus annotés, sur des domaines variés, permettant d'expérimenter des situations différentes
La plateforme nous permettra d'annoter de façon automatique ou semi-automatique ces données pour enrichir (ou compléter) les corpus sources. Toutes les ressources produites seront mises à disposition de la communauté via le CRDO (Centre de ressources pour la description de loral).
>>
|
|
Principaux résultats :
|
|
|
Outils ou méthodes développés :
|
|
|
Participants (affiliés au LPL)
|
Contributions
|
Outils et méthodes
|
|
Roxane BERTRAND >>
|
|
|
|
Brigitte BIGI >>
|
|
|
|
Robert ESPESSER >>
|
|
|
|
Mathilde GUARDIOLA >>
|
|
|
|
Daniel HIRST >>
|
|
|
|
Christine MEUNIER >>
|
|
|
|
Laurent PREVOT >>
|
|
|
|
Béatrice PRIEGO-VALVERDE >>
|
|
|
|
Stéphane RAUZY >>
|
|
|
|
Marion TELLIER >>
|
|
|
|
Publications :
| 3607 |
|
MEUNIER, C.; ESPESSER, R. (2011)
|
Vowel reduction in conversational speech: the role of lexical factors >>
|
2011
|
| 4754 |
|
VOLHA, P.; LAURENT, P.; HARRY, B. (2011)
|
Multi-level Discourse Relations Between Dialogue Units
>>
|
2011
|
| 4764 |
|
BLACHE, P.; BERTRAND, R.; BIGI, B.; ESPESSER, R.; GUARDIOLA, M.; RAUZY, S. (2011)
|
Une expérience d'annotation à large échelle : le projet OTIM >>
|
2011
|
| 4817 |
|
BIGI, B.; PORTÈS, C.; STEUCKARDT, A.; TELLIER, M. (2011)
|
Multimodal Annotations and Categorization for Political Debates
>>
|
2011
|
| 4321 |
|
NESTERENKO, I.; RAUZY, S.; BERTRAND, R. (2010)
|
Prosody in a corpus of French spontaneous speech: perception, annotation and prosody ~ syntax interaction >>
|
2010
|
| 4367 |
|
BIGI, B.; MEUNIER, C.; NESTERENKO, I.; BERTRAND, R. (2010)
|
Automatic detection of syllable boundaries in spontaneous speech >>
|
2010
|
| 4501 |
|
BIGI, B.; MEUNIER, C.; BERTRAND, R.; NESTERENKO, I. (2010)
|
Annotation automatique en syllabes dun dialogue oral spontané >>
|
2010
|
| 4527 |
|
TAN, N.; FERRÉ, G.; TELLIER, M.; CELA, E.; MOREL, M.-A.; MARTIN, J.-C.; BLACHE, P. (2010)
|
Multi-level Annotations of Nonverbal Behaviors in French Spontaneous Conversation >>
|
2010
|
| 3467 |
|
BERTRAND, R.; ADER, M.; BLACHE, P.; FERRÉ, G.; ESPESSER, R.; RAUZY, S. (2009)
|
Représentation, édition et exploitation de données multimodales : le cas des backchannels du corpus CID >>
|
2009
|
| 3583 |
|
BLACHE, P.; BERTRAND, R.; FERRÉ, G. (2009)
|
Creating and exploiting multimodal annotated corpora: the ToMA project >>
|
2009
|
| 3693 |
|
BRUNETTI, L. (2009)
|
On the semantic and contextual factors that determine topic selection in Italian and Spanish >>
|
2009
|
| 3698 |
|
BRUNETTI, L. (2009)
|
On links and tails in Italian >>
|
2009
|
| 3700 |
|
BRUNETTI, L. (2009)
|
Discourse Functions of Fronted Foci in Italian and Spanish >>
|
2009
|
| 3701 |
|
BRUNETTI, L. (2009)
|
Interaction entre topicalisation, structure thématique et discours dans les langues Romanes >>
|
2009
|
| 3728 |
|
BRUNETTI, L. (2009)
|
Focus fronting in Italian as a strategy for narrow focus disambiguation: a proposal for an explanation of its function in discourse >>
|
2009
|
| 3736 |
|
BRUNETTI, L. (2009)
|
A multilingual annotated corpus for the study of Information Structure >>
|
2009
|
| 3739 |
|
BRUNETTI, L. (2009)
|
On the pragmatics of post-focal material in Italian (left peripheral focus looked at from the other side) >>
|
2009
|
| 3369 |
|
BERTRAND, R. (2008)
|
Corpus « CID » >>
|
2008
|
| 3427 |
|
BERTRAND, R.; BLACHE, P.; ESPESSER, R.; FERRÉ, G.; MEUNIER, C.; PRIEGO-VALVERDE, B.; RAUZY, S. (2008)
|
Le CID - Corpus of Interactional Data - Annotation et Exploitation Multimodale de Parole Conversationnelle
>>
|
2008
|
|
Lancer
une requête
Afficher
tous les projets
[Modifier cette fiche]
 
|