Structured Learning from Videos and Language

Jean-Baptiste Alayrac 1, 2
1 WILLOW - Models of visual object recognition and scene understanding
DI-ENS - Département d'informatique de l'École normale supérieure, Inria de Paris
2 SIERRA - Statistical Machine Learning and Parsimony
DI-ENS - Département d'informatique de l'École normale supérieure, CNRS - Centre National de la Recherche Scientifique, Inria de Paris
Résumé : Le but de cette thèse est de développer des modèles, des représentations adaptées et des algorithmes de prédiction structurée afin de pouvoir analyser de manière automatique des activités humaines complexes commentées par du langage naturel. Dans un premier temps, nous présentons un modèle qui, étant donné plusieurs vidéos tutorielles, est capable de découvrir quelle est la liste d'actions nécessaires à l'accomplissement de la tâche ainsi que de localiser ces actions dans le flux vidéo et dans la narration textuelle. Afin d'atteindre cet objectif, nous formulons deux hypothèses. La première est que les gens réalisent les actions au moment où ils les décrivent, \ie, il y a une très forte corrélation temporelle entre le texte et la vidéo. La seconde hypothèse est que ces tâches complexes sont réalisées en suivant un ordre précis d'actions. Muni de ces deux hypothèses, notre modèle résout d'abord un problème de partitionnement dans le texte pour ensuite utiliser ces premiers résultats afin de guider la localisation des actions dans la vidéo. Notre modèle est évalué sur un nouveau jeu de données de vidéos tutorielles qui décrit 5 tâches complexes, telles que `changer la roue d'une voiture' ou bien `rempoter une plante'. Nous proposons ensuite de relier les actions avec les objets manipulés. Plus précisement, on se concentre sur un type d'action particulière qui vise à modifier l'état d'un objet. Par exemple, cela arrive lorsqu'on sert une tasse de café ou bien lorsqu'on ouvre une porte. Ce type d'action est particulièrement important dans le contexte des vidéos tutorielles. Notre méthode consiste à minimiser un objectif commun entre les actions et les objets. Nous démontrons via des expériences numériques que localiser les actions aident à mieux reconna\^itre l'état des objets et inversement que modéliser le changement d'état des objets permet de mieux déterminer le moment où les actions se déroulent. Tous nos modèles sont basés sur du partionnement discriminatif, une méthode qui permet d'exploiter la faible supervision contenue dans ce type de vidéos. Cela se résume à formuler un problème d'optimisation sous contrainte qui peut se résoudre aisément en utilisant l'algorithme de Frank-Wolfe qui est particulièrement adapté au type de contraintes envisagé. Motivé par le fait qu'il est très important d'être en mesure d'exploiter les quelques milliers de vidéos qui sont disponibles en ligne, nous portons enfin notre effort à rendre l'algorithme de Frank-Wolfe plus rapide et plus efficace lorsque confronté à beaucoup de données. En particulier, nous proposons trois modifications à l'algorithme Block-Coordinate Frank-Wolfe: un échantillonnage adaptatif des exemples d'entrainement, une version bloc des `away steps' et des `pairwise steps' initialement prévues pour l'algorithme original et enfin une manière de mettre en cache les appels à l'oracle linéaire.
Type de document :
Thèse
Computer Vision and Pattern Recognition [cs.CV]. Ecole normale supérieure - ENS PARIS, 2018. English
Liste complète des métadonnées

Littérature citée [37 références]  Voir  Masquer  Télécharger

https://hal.inria.fr/tel-01885412
Contributeur : Jean-Baptiste Alayrac <>
Soumis le : lundi 1 octobre 2018 - 20:26:26
Dernière modification le : mercredi 30 janvier 2019 - 11:07:49
Document(s) archivé(s) le : mercredi 2 janvier 2019 - 15:37:59

Fichier

main.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01885412, version 1

Collections

Citation

Jean-Baptiste Alayrac. Structured Learning from Videos and Language. Computer Vision and Pattern Recognition [cs.CV]. Ecole normale supérieure - ENS PARIS, 2018. English. 〈tel-01885412〉

Partager

Métriques

Consultations de la notice

202

Téléchargements de fichiers

132