Message d'erreur

User warning: The following module is missing from the file system: flexifilter. For information about how to fix this, see the documentation page. in _drupal_trigger_error_with_delayed_logging() (line 1143 of /usr/share/drupal7/includes/bootstrap.inc).

Traduction multilingue

GETALP / Christian Boitet, David Rouquet, Mathieu Mangeot

  • Exploitation, diffusion et collecte de corpus de traductions (multilingues, multiannotés, multimodaux), ainsi que de bases lexicales multilingues.
  • Mise en œuvre de service d'accès multilingue à des sites Web, avec amélioration contributive incrémentale de la qualité.
 

Contexte

L’équipe a pour domaine de recherche le Traitement Automatique des Langues Naturelles.

Elle dispose d’outils de Traduction Assistée, de collecte de corpus multilingues de parole spontanée traduite, de prototypes de dictionnaires multilingues sur site serveur (projet PAPILLON).

Elle propose le développement de ressources de traduction collaborative répartie basées sur des prototypes. Concernant les données “corpus multilingues”, en prolongement de collectes expérimentales sur site (local, Chine, Vietnam, Inde —40 h de dialogues bilingues traduits), le sous-projet “Interaction” de GETALP prévoit l’enregistrement audio et multimodal et l’annotation collaborative de corpus dans une dizaine de langues européennes et asiatiques, pour un accès libre de droits pour la recherche.

 

Phase 1 : Gestion et enrichissement de corpus de données linguistiques / 2009

GETALP propose pour la présente plate-forme le sous-projet “Interaction ubilingue et travail collaboratif sur gros corpus multilingues multimodaux” sur les 3 axes “Ubilinguisme de la parole”, “Ubilinguisme de l’écrit”, “Corpus multilingues mulimodaux annotés pour la recherche libres de droits”.

Dans ce sous-projet, nous développons notamment de grands corpus multilingues multimodaux en accès libre pour la communauté scientifique, ceci parallèlement :

  • d’une part aux dictionnaires électroniques multilingues et bases lexicales disponibles ou en développement sur des sites gérés par GETALP (projet PAPILLON),
  • d’autre part aux dictionnaires “Universal Words (UW) — langues” utilisés pour la traduction automatique avec forme pivot UNL (Universal Networking Language).

Les fichiers corpus, déjà collectés et à collecter, à enrichir en multiannotation collaborative, sont des fichiers monolingues ou multilingues alignés,

  • corpus de parole (parole lue, parole spontanée),
  • corpus multimodaux de parole spontanée, avec vidéo (pour l ‘analyse d’expression faciale) et tableaux blancs partagés annotables, et (d’un volume beaucoup plus réduit)
  • fichiers de métadonnées sur les précédents,
  • corpus de textes bruts ou multiannotés.
 

Phase 2 : ajout d'outils et services utilisant ces corpus / 2010

  • Ajout d'un outil de gestion de dictionnaires : PIVAX

[prérequis : Postgres]

  • Ajout d'un service de désambiguisation

[prérequis : une base de “Vecteurs conceptuels” d'environ 2Go doit être chargée en mémoire]

  Nota : la désambiguïsation  n'est à réaliser qu'une fois par corpus.
  • Ajout d'un service de gestion d'ontologies

[prérequis : chargement en mémoire d'une base de connaissances contenant des centaines de milliers d'axiomes (entre 2 et 4 Go)]

  • [avril 2010] Ajout de Systran Server 7, système commercial de Traduction Automatique qui sert à traduire des corpus, textes et toutes sortes d'applications et d'intégration de la traduction automatique dans les projets concernés.

Premiers usages : traduction des corpus du projet OMNIA, traduction de documents Word et HTML en utilisation interne et intégration via API (WDSL) dans les systèmes du laboratoire.

 

Auteurs et contributeurs

Valérie Bellynck, Jean-Claude Durand, Hong-Thai Nguyen, David Rouquet, Didier Schwab (équipe GETALP du LIG).