spacer gif spacer gif
R et D
SychroTermes: description détaillée du projet
(in French only)

Spacer Gif
A. Les objectifs technologiques du Projet SynchroTermes sont les suivants:

  • Créer un outil (logiciel) pour permettre aux traducteurs et aux terminologues de réutiliser des textes déjà traduits pour en extraire la terminologie spécifique à un sujet donné, ceci afin de créer des dictionnaires ou des lexiques de référence bilingue. Cet outil doit pouvoir traiter aussi bien les mots uniques que les unités sémantiques, c'est-à-dire des groupes de mots qui expriment une seule idée. L'outil pourrait être ultérieurement intégré à un logiciel de traduction automatique existant ou à développer.
  • Obtenir le niveau d'automatisation optimal dans le processus de création de dictionnaires électroniques, limiter l'intervention humaine à son strict minimum.
B. La réalisation, dans le cadre du développement du logiciel mentionné au point A d'un moteur de recherche d'unités sémantiques. Ce moteur de recherche génère une liste d'unités sémantiques pour chaque texte (langue cible et langue source) et fonctionne dans le logiciel sous la forme d'un objet ActiveX OLE (Liaison et Incorporation d'Objets). Afin de tenter d'éliminer les incertitudes quant à la pertinence des unités sémantiques trouvées (voir le point C), une librairie de liens dynamiques (DLL) fut ajoutée au logiciel. Celle-ci fonctionne sous le principe de la logique floue (fuzzy logic) et permet de comparer les unités sémantiques trouvées d'une langue à l'autre afin de déterminer si elles sont acceptées ou rejetées, selon des pourcentages ajustables que l'on attribue à des seuils de rejet (tresholds). À l'heure actuelle, il n'existe pas (selon nos connaissances) d'autres logiciels qui permettent de trouver les unités sémantiques par paires de langue dans un texte et sa traduction (texte source et texte cible). Même dans la plupart des logiciels de traduction automatique, l'interprétation des unités sémantiques constituent un des principaux facteurs d'erreur dans la traduction. Pourquoi? Parce que dans bien des cas, ces logiciels ne voient pas les groupes de mots, ils traduisent chaque mot de façon individuelle. Pour pallier à ce problème, on doit ajouter les unités sémantiques dans les dictionnaires utilisés par ces logiciels manuellement, une à une. Mais notre Outil de Recherche et d'Analyse d'Unités Sémantiques peut remplacer l'être humain dans cette tâche qui nécessite de la compréhension et du discernement, ce qui constitue en soi, selon nous, un véritable avancement technologique dans le domaine informatique de l'intelligence artificielle.

C. Est-ce que toutes les unités sémantiques trouvées par le logiciel seront pertinentes? En fait, seront-elles toutes véritablement des unités sémantiques ? Même en filtrant les groupes de mots trouvés afin qu'ils ne commencent ou ne finissent par des conjonctions, des articles etc. (voir le point D ci-dessous), et en éliminant les groupes de mots qui ne franchissent pas les seuils de rejet (tresholds) du moteur de logique floue, nous n'obtenons toujours pas les résultats qui nous permettraient d'éliminer pratiquement toute intervention humaine dans le processus de création de dictionnaires.

D. Dans la première phase de notre recherche, nous émettions l'hypothèse qu'il était possible d'extraire de façon automatique de la terminologie, ou plus précisément, des unités sémantiques d'un document source et de sa traduction (document cible). Nous avons donc en premier lieu créé un algorithme de recherche qui répertoriait toutes les suites de 2 à X mots qui se retrouvent plus d'une fois dans les textes. Les résultats obtenus nous ont démontré que nous obtenions un trop grand nombre de suites de mots qui n'étaient pas des unités sémantiques.

Spacer GifCeci nous guida vers la seconde phase et une seconde hypothèse: une unité sémantique ne commence ni ne fini jamais par une conjonction, une préposition, un adverbe ou un article. Nous avons donc ajouté un filtre à l'algorithme de recherche, ce dernier fait en sorte que les suites de mots qui se répètent dans les textes mais qui commencent ou finissent par des conjonctions, prépositions etc. soient exclus des listes d'unités sémantiques répertoriées. À ce stade de notre projet, nous avons créé une interface graphique grâce à laquelle nous pouvions plus facilement vérifier le fruit de nos travaux (l'ensemble c'est-à-dire: le moteur de recherche d'unités sémantiques muni d'un filtre, sous la forme d'un logiciel complet a été et est toujours disponible à tous sur notre page Web afin qu'ils puissent partager le fruit de nos expériences et nous nourrir de leurs suggestions, toujours dans le but d'améliorer notre technologie). Les résultats obtenus à l'aide du filtre constituaient une nette amélioration par rapport à la version précédente de notre moteur de recherche, mais étaient loin de nous permettre de conclure qu'il s'agissait de la méthode optimale pour obtenir un répertoire d'unités sémantiques sans entrées indésirables.

Spacer GifDans la troisième phase de notre projet, nous avons voulu aborder la question de l'automatisation dans le processus de création des dictionnaires, ce qui constituait l'un de nos objectifs technologiques. Jusqu'à maintenant, la création de dictionnaire ne se faisait pas de façon proprement dite automatique: l'intervention humaine était encore requise pour associer les unités sémantiques des deux langues impliquées et les ajouter au dictionnaire. Nous avons donc émis l'hypothèse qu'à l'aide d'un moteur de logique floue (fuzzy logic) - que nous avons plus tard baptisé Outil de Recherche et d'Analyse d'Unités Sémantiques - il serait possible de rendre la création de dictionnaires totalement automatique. Nous avons établi des seuils de rejet (la valeur du seuil est un pourcentage) qui déterminent si une unité sémantique est retenue ou non. Les unités sémantiques source et cible sont comparées à trois niveaux: le nombre de mots qu'elles contiennent, la longueur des mots et le pourcentage de similitude entre les mots. Si une unité sémantique franchit les trois seuils de rejet, elle est ajoutée au dictionnaire. Encore une fois, les résultats nous ont démontré que nous étions sur la bonne voie, mais qu'il nous restait encore à améliorer notre moteur de recherche afin d'en améliorer la précision.

Spacer GifNous en sommes donc actuellement à la quatrième phase, et nous croyons que sommes maintenant plus près de nos objectifs que jamais. Dans la poursuite de ces derniers, nous avons émis deux nouvelles hypothèses: la première est qu'il existe une constante dans chaque langue quant à la position au sein des unités sémantiques du mot de flexion (le mot qui subit l'accord grammatical, s'il y a lieu). Dans la langue française par exemple, le mot de flexion est pratiquement toujours le premier (exemple: réseau de neurones), tandis que dans la langue anglaise, il est presque toujours le dernier (exemple: neural network). Cette constante pourrait s'avérer fort utile si l'on ajoutait un dictionnaire de mots uniques à notre moteur de recherche, cela nous permettrait de créer un filtre morphologique, c'est-à-dire que le logiciel pourrait analyser les mots de flexion des unités sémantiques source et cible générées dans les listes (sous leur forme canonique c.-à-d. leur racine) et vérifier s'ils sont correspondantes. Cette hypothèse reste encore à vérifier, nous n'avons pas encore effectué de tests de façon exhaustive sur cet aspect de notre phase de développement. La deuxième hypothèse est la suivante: en générant des statistiques sur le nombre d'occurrences des unités sémantiques au sein de plusieurs documents déjà traduits traitant du même sujet, il serait possible de comparer les résultats et d'associer automatiquement les occurrences dont le nombre est correspondant dans une langue à une autre. Nous avons vérifié cette méthode et après seulement quelques essais, nous avons obtenu des résultats qui nous permettent de croire que son taux d'efficacité pourrait s'avérer au delà de nos attentes.


Back Arrow Back to: BridgeTerm

Mailbox contact@bridgeterm.com or Contact Us

Contents © InfoGraffiti Inc. 1996, 1997, 1998, 1999. All rights reserved. All brands and product names are trademarks or registered trademarks of their respective owners.