Accéder directement au contenu Accéder directement à la navigation
Thèse

Generative Probabilistic Alignment Models for Words and Subwords: a Systematic Exploration of the Limits and Potentials of Neural Parametrizations

Résumé : L'alignement consiste à mettre en correspondance des unités au sein de bitextes, associant un texte en langue source et sa traduction dans une langue cible. L'alignement peut se concevoir à plusieurs niveaux: entre phrases, entre groupes de mots, entre mots, voire à un niveau plus fin lorsque l'une des langues est morphologiquement complexe, ce qui implique d'aligner des fragments de mot (morphèmes). L'alignement peut être envisagé également sur des structures linguistiques plus complexes des arbres ou des graphes. Il s'agit d'une tâche complexe, sous-spécifiée, que les humains réalisent avec difficulté. Son automatisation est un problème exemplaire du traitement des langues, historiquement associé aux premiers modèles de traduction probabilistes. L'arrivée à maturité de nouveaux modèles pour le traitement automatique des langues, reposant sur des représentationts distribuées calculées par des réseaux de neurones permet de reposer la question du calcul de ces alignements. Cette recherche vise donc à concevoir des modèles neuronaux susceptibles d'être appris sans supervision pour dépasser certaines des limitations des modèles d'alignement statistique et améliorer l'état de l'art en matière de précision des alignements automatiques.
Type de document :
Thèse
Liste complète des métadonnées

https://hal.archives-ouvertes.fr/tel-03269967
Contributeur : Anh Khoa Ngo Ho Connectez-vous pour contacter le contributeur
Soumis le : jeudi 24 juin 2021 - 14:33:42
Dernière modification le : vendredi 2 juillet 2021 - 03:45:57
Archivage à long terme le : : samedi 25 septembre 2021 - 18:30:04

Fichier

Generative Probabilistic Align...
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-03269967, version 1

Citation

Anh Khoa Ngo Ho. Generative Probabilistic Alignment Models for Words and Subwords: a Systematic Exploration of the Limits and Potentials of Neural Parametrizations. Computer Science [cs]. Université Paris-Saclay, 2021. English. ⟨tel-03269967⟩

Partager

Métriques

Consultations de la notice

59

Téléchargements de fichiers

89