<  Back to the Polytechnique Montréal portal

Mécanismes d’attention pour les modèles convolutifs dans le cadre de la prédiction de trajectoires

Laurent Boucaud

Masters thesis (2019)

[img] Restricted to: Repository staff only until 11 October 2020.
Cite this document: Boucaud, L. (2019). Mécanismes d’attention pour les modèles convolutifs dans le cadre de la prédiction de trajectoires (Masters thesis, Polytechnique Montréal). Retrieved from https://publications.polymtl.ca/3951/
Show abstract Hide abstract

Abstract

Cette maîtrise porte sur le problème de prédiction des mouvements des usagers de la route de différents types (piétons, cyclistes, automobilistes...) interagissant ensemble au sein d’intersections. Prédire les déplacements futurs d’agents présente un intérêt dans divers domaines comme les voitures autonomes et les analyses de sécurité routière. Si diverses approches ont été proposées pour traiter ce problème, l’explosion récente des performances des méthodes d’apprentissage profond dans des domaines comme la vision par ordinateur ou le traitement du langage naturel a conduit à son utilisation pour la tâche de prédiction de trajectoires. Un intérêt majeur de l’apprentissage profond étant de ne pas devoir définir manuellement les caractéristiques pertinentes à utiliser pour réaliser une prédiction, mais laisser les modèles l’apprendre automatiquement. Des modèles simples ont été proposés, prédisant la future trajectoire d’un agent en se basant uniquement sur son déplacement passé. Ces modèles peuvent être considérés comme naïfs puisque n’ayant pas conscience de l’environnement dans lequel l’agent évolue. Cet environnement est constitué tant d’une dimension sociale, c’est-à-dire l’influence mutuelle des agents sur leurs déplacements respectifs, que d’une dimension spatiale, c’est-à-dire l’influence que la structure de l’intersection (routes, bancs, lampadaires, obstacles en tous genre...) a sur le chemin des agents. Des modèles plus complexes ont été proposés pour prendre en compte ces interactions lors de la prédiction de la future trajectoire d’un agent. Parmi ces modèles, on retrouve les mécanismes d’attention. Directement importés du domaine du traitement du langage naturel, ils permettent d’entraîner un réseau de neurones à associer automatiquement à chaque élément d’un ensemble une pertinence relative aux autres éléments en se basant sur le contexte de prédiction. Dans le cadre de la traduction de langage, les éléments sont les mots de la phrase à traduire et le contexte de prédiction les mots déjà traduits. Pour la tâche de prédiction, ces modèles ont été transposés de deux manières différentes. Pour prendre en compte les interactions entre un agent et l’intersection qu’il parcourt, on utilise un mécanisme d’attention visuelle qui permet étant donnée l’image d’une scène en vue de dessus, de juger de la pertinence de chaque partie de l’image pour prédire la future position de l’agent. Pour prendre en compte les interactions d’un agent avec les autres agents, on utilise un mécanisme de soft-attention permettant de juger de la pertinence de chacun des agents présents dans la scène pour prédire la future position de l’agent. Ces mécanismes d’attention reposent sur l’architecture encodeur/décodeur utilisant des réseaux de neurones récurrents comme modèle de base. Les réseaux de neurones récurrents sont d’ailleurs en général utilisés dans la majorité des études de prédiction de futures trajectoires en apprentissage profond. Cependant, un petit nombre d’études ont montré que les réseaux de neurones convolutifs étaient capables d’obtenir de meilleures performances que les réseaux de neurones récurrents pour des approches naïves. En transposant directement les mécanismes d’attention du domaine du traitement du langage naturel au domaine de prédiction de trajectoire, aucune interrogation n’est portée sur la sémantique de ces modèles. Ils imposent notamment l’utilisation de l’architecture récurrente encodeur/décodeur, obligeant à prédire séquentiellement les futures positions et à recalculer le module d’attention pour prédire chacune des futures positions. Dans ce travail, nous faisons l’hypothèse que les mécanismes d’attention ainsi proposés apportent une information redondante augmentant inutilement leur temps de prédiction. On propose d’adapter les mécanismes d’attention visuelle et de soft-attention afin de pouvoir les utiliser avec des réseaux de neurones convolutifs. On fait l’hypothèse que ces nouvelles architectures permettront de réduire drastiquement le temps de prédiction tout en conservant une qualité de prédiction équivalente.----------ABSTRACT: This work addresses the problem of trajectory prediction of agents of various types such as pedestrian and cyclists interacting with each other within scenes. Predicting agents future paths can be useful in the field of autonomous driving for example. The recent and fast development of Deep Learning algorithms showing groundbreaking performance in fields such as Computer Vision and Natural Language Processing led it to be used for predicting agent future paths. Naïve models, e.g. models that use only past motion in order to predict the future one, have been developed. These models don’t make use of the agent environment. The environment is mainly composed of a social part regrouping the interactions between agents, and a spatial part, regrouping the interactions between an agent and the scene in which it moves. More advanced models were built to make use of the environment, based on the idea that the future motion of an agent isn’t independent of its surrounding environment. Amongst those models, attention mechanisms stand out. Taken from Natural Language Processing, they allow a neural network to automatically select relevant information from a set of element based on some prediction context. For instance, for language translation, the elements might be the words of the sentence to be translated and the prediction context the already translated words. In the field of future path prediction, attention mechanisms were used in two different ways. A spatial attention mechanism, making use of the Visual Attention model which allows the model to select the relevant parts of an image of the scene, accounting for spatial context, in the next position prediction. And a soft-attention mechanism to select which agents are relevant in predicting one agent next position, accounting for social context. Those attention mechanisms are based on the sequence-to-sequence or (encoder/decoder architecture) using Recurrent Neural Networks as base component. Recurrent-based approaches are mainly used for trajectory prediction. Some studies showed that Convolutional Neural Networks could be used as well, showing better performances than their recurrent counterpart for naïve approaches. By directly transposing the attention mechanisms from Natural Language Processing to trajectory prediction, no interrogation is carried on the semantics of these models. In particular, they require the use of the sequence-to-sequence architectur making it necessary to predict the future positions sequentially and to recalculate the attention module in order to predict each of the agent next positions. In this work, we make the hypothesis that the attention mechanisms, thus proposed bring redundant information unnecessarily increasing their prediction time. We want to adapt those mechanisms in order to be able to use them with convolutional neural networks. We think that these new architectures will drastically reduce the prediction time while maintaining the prediction quality.

Open Access document in PolyPublie
Department: Département de génie informatique et génie logiciel
Dissertation/thesis director: Daniel Aloise and Nicolas Saunier
Date Deposited: 11 Oct 2019 10:21
Last Modified: 11 Oct 2019 10:21
PolyPublie URL: https://publications.polymtl.ca/3951/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only