Soutenance de thèse d'Assia Benbihi

Name: Soutenance de thèse d'Assia Benbihi
Start: 2020-05-22T13:30:00+02:00
End: 2020-05-22T16:30:00+02:00
Location: CentraleSupélec, campus de Metz

Assia Benbihi soutiendra sa thèse intitulée "Point d'intérêts invariants pour la surveillance d'environnement exérieurs à long terme" dirigés par Cédric Pradalier et Matthieu Geist.

Viernes 22 mayo 2020, 13:30Passed

Assia Benbihi (Informatique) soutiendra publiquement ses travaux de thèse intitulés "Point d'intérêts invariants pour la surveillance d'environnement exérieurs à long terme" dirigés par Cédric Pradalier et Matthieu Geist vendredi 22 mai 2020 à 13h30 en visioconférence.

Composition du jury proposé :

Cédric Pradalier, GeorgiaTech Lorraine - Examinateur
Matthieu Geist, Google Brain (Université de Lorraine détaché) - Examinateur
Margarita Chli, ETH Zurich - Examinateur
Cédric Demonceaux, Université de Bourgogne - Rapporteur
Torsten Sattler, Chalmers University of Technology - Rapporteur
Laurent Frebereau, Thales SIX GTS - Invité
Suzel Lavagne, Thales SIX GTS - Invitée

Mots-clés :

Apprentissage Automatique, Perception Active, Géométrie Algorithmique, Reconnaissance de scène (Machine Learning, Active Perception, Computational Geometry, Scene recognition)

Résumé :

L’inspection visuelle consiste à observer une scène et mesurer ses changements. Parmi ses nombreuses applications figurent la conduite autonome, l’inspection industrielle ou encore la réalité augmentée. La principale difficulté pour une machine consiste à reconnaitre une scène malgré qu’elle puisse changer d’apparence. C’est sur cette problématique que se concentre cette thèse et plus particulièrement sur la reconnaissance à long terme de scènes bucoliques, comme la rive d’un lac au fil des saisons. Le but est ensuite de quantifier les variations de cette scène. L’approche adoptée se divise en deux étapes : la reconnaissance de la scène puis la mise en correspondance de zones locales de celle-ci. La reconnaissance visuelle se base sur des représentations du contenu de l’image telles que deux images d’une même scène ont des descriptions similaires, et ce même lorsque l’apparence visuelle de la scène a changé. Une des contributions majeures de cette thèse est la définition de deux descripteurs d’image reposant sur la géométrie et la sémantique de la scène. Etant donnée que ces deux informations sont globalement invariantes au temps, les descripteurs le sont également. Comparés à l’état de l’art, ces descripteurs sont parmi les plus performants pour la reconnaissance de scènes bucoliques et généralisent même aux scènes urbaines. Pour mettre en correspondance des zones locales d’une image, ce sont leurs descriptions locales qui doivent être invariantes. L’approche adoptée dans cette thèse est d’identifier les zones locales de l’image qui restent invariantes en exploitant la structure de l’espace image de réseaux de neurones déjà entrainés sur une tâche visuelle quelconque. Les représentations locales qui en résultent sont tout aussi pertinentes pour la mise en correspondance d’image que celles issues d’un apprentissage profond spécifique. Enfin, cette thèse introduit deux méthodes d’apprentissage visant à réduire le volume de données nécessaires à l’entrainement de réseaux de neurones pour la segmentation sémantique. En plus de pouvoir s’intégrer à la description d’image, les information sémantiques permettent de rendre d’autres applications visuelles plus robustes aux changement d’apparence. Ceci est illustré par un exemple appliqué au cas de l’odométrie visuelle directe.

Summary:

Visual monitoring consists of observing a scene and tracking its modifications. This task is integrated into most of the autonomous systems relying on localization such as autonomous driving, industrial inspection or augmented reality. One of the main challenges is to define a robust image representation that allows an autonomous system to recognize a scene even when its appearance changes. Given images of the same scene, the goal is then to characterize the scene’s variations over time. This thesis addresses this challenge in bucolic environments over long periods variations such as parks or lakeshores across seasons. The adopted approach is to first put the images to compare in correspondence and then measure their variations. The image correspondence problem is split into two sub-problems: scene recognition and image local matching. In scene recognition, the challenge is to define an image representation such that corresponding images have similar descriptions even when there are strong variations in visual appearance. One major contribution of this thesis is the definition of two novel image descriptors based on the geometry and semantics of the scene. Since these two properties are mostly invariant over time, the resulting descriptors are also invariant. Experiments on two bucolic environments show that they reach state-of-the-art performance. They also compare with deep learning approaches on urban scenes whereas they do not need training. For image matching, the challenge is similar but at the scale of image regions. The problem consists in choosing image regions relevant to the monitoring task and generate a representation invariant to appearance variations. The second major contribution of this thesis is to query such regions and representations from a neural network. A trained network generates a powerful representation space and experiments show that it reaches the same matching performances as network specifically trained for image matching. The remaining contributions of this thesis study how to reduce the training load to obtain efficient semantics. They are not only useful to define new image representation but they also make existing localization approaches more robust. For example, this thesis shows that it improves the tracking robustness in direct visual odometry.

thèse, soutenance

Soutenance de thèse d'Assia Benbihi

About the location