Identification à la limite de langages dans le cadre d'un bruit systématique
Abstract
Pour étudier l'apprentissage à partir de données bruitées, il est usuel de se baser sur un modèle de bruit statistique. L'influence du bruit est alors envisagé selon des critères pragmatiques ou eux-mêmes statistiques, en se basant donc sur un paradigme prenant en compte une distribution des données. Dans cet article, nous étudions le bruit comme un phénomène non statistique, en définissant la notion de bruit systématique. Nous établissons différrentes manières d'apprendre (à la limite) à partir de données bruitées. La première se base sur une technique de réduction entre problèmes et consiste à apprendre à partir des données qu'on sait bruitées, puis à débruiter la fonction apprise. La seconde consiste à débruiter à la volée les exemples d'apprentissage, à identifier ainsi à la limite les bons exemples, et à apprendre alors à partir d'exemples non corrompus. Nous donnons dans les deux cas des conditions suffisantes pour que l'apprentissage soit possible et montrons à travers différents exemples (provenant en particulier du domaine de l'inférence grammaticale) que nos techniques sont complétentaires.