Machine learning
Les données numériques prennent une place croissante dans les mondes scientifiques et industriels, ainsi que dans nos vies personnelles. Un des buts de l’apprentissage statistique (machine learning) est de donner du sens à ces masses de données.
« Un enjeu majeur de l’apprentissage est de pouvoir « généraliser », c’est-à-dire, prédire au-delà des données observées. Pour ceci, il est classique de formuler le problème d’apprentissage comme un problème d’optimisation à partir de données bruitées. Mes recherches actuelles s’articulent sur deux aspects : (1) les méthodes d’optimisation stochastique pour les grandes masses de données, où il est nécessaire de développer des algorithmes dont la complexité computationnelle est linéaire dans la taille des données, et (2) les méthodes d’optimisation convexes pour les problèmes d’optimisation combinatoire communs en apprentissage (comme pour le partitionnement en plusieurs groupes, dit clustering ).
Pendant mon séjour à l’IHES, grâce à la chaire Schlumberger, j’ai travaillé sur ces deux aspects, en bénéficiant notamment de l’interaction avec les chercheurs de l’institut et ses chercheurs invités, ainsi que du Cours de l’IHES de C. Villani. Tout d’abord, en collaboration avec V. Perchet (professeur à l’ENSAE), nous avons étudié comment utiliser la régularité d’ordre supérieur dans un cadre d’optimisation en ligne où seules des valeurs bruitées de la fonction à optimiser sont disponibles. Ensuite, en utilisant des liens entre la théorie du transport optimal et la sous-modularité pour les problèmes combinatoires, j’ai notamment montré comment une grande partie de l’analyse sous-modulaire sur l’hypercube pouvait s’interpréter comme une propriété de transport optimal entre deux ensembles totalement ordonnés. Ceci a donné lieu à de nouvelles méthodes d’optimisation en temps polynomial pour une nouvelle classe de fonctions continues mais non-convexes.
Enfin, S. Arlot (professeur à l’université Paris-Sud, en délégation à l’IHES), A. Celisse (maître de conférences à l’université de Lille-1) et moi-même, avons organisé un colloque sur les compromis entre temps de calcul et performance statistique, avec des orateurs invités internationaux, qui a permis de présenter les avancées récentes de notre domaine en pleine expansion. »
Francis Bach.
Retrouvez les vidéos du colloque Schlumberger « Computational and statistical trade-offs in learning »