<  Back to the Polytechnique Montréal portal

Predicting Bus End-Trip Delays Using Different Machine Learning Algorithms to Model Planning Effectiveness

Victor Hannothiaux

Masters thesis (2019)

[img] Restricted to: Repository staff only until 11 October 2020.
Cite this document: Hannothiaux, V. (2019). Predicting Bus End-Trip Delays Using Different Machine Learning Algorithms to Model Planning Effectiveness (Masters thesis, Polytechnique Montréal). Retrieved from https://publications.polymtl.ca/3923/
Show abstract Hide abstract

Abstract

RÉSUMÉ : Le transport public existe presque partout dans le monde. Cela permet à toutes les personnes le désirant de se déplacer d’un endroit à un autre d’une ville de façon économique et écologique. De plus, de plus en plus de données sont disponibles de nos jours grâce aux systèmes embarqués à l’intérieur des véhicules. Ces données pourraient être utilisées dans une optique de prévision des retards, qui permettraient par la suite de les anticiper. Ainsi la fiabilité des horaires serait améliorée et plus de gens seraient susceptibles d’employer ce mode de transport. Des travaux ont été réalisés afin de prédire les retards en utilisant différentes données, cependant aucune d’elle ne l’a fait dans l’idée d’intégrer ces prévisions dans les procédures de création de planification de trajet. Au cours de ce mémoire, divers modèles de prédiction de retard pour les fins de trajet sont essayés. Il ne s’agit pas de prédire le retard exact, mais de classifier les retards des fins de trajet. Afin d’être utile aux planificateurs d’horaires, ces modèles n’utilisent que des données qui peuvent se trouver en amont de la planification. Les données exploitées pour les modèles sont des observations historiques de la ville de Montréal. Deux problèmes de classification sont abordés au cours de ce mémoire. Le premier est un modèle de classification binaire qui prédit si un bus va finir son trajet en retard ou à l’heure. Le second est un modèle qui prévoit dans quel créneau de retard le bus va finir son trajet. Pour chacun des problèmes, trois algorithmes de machine learning pour l’estimation des retards sont testés : réseau de neurones, forêt aléatoire et arbre stimulé par gradient. De plus, une régression logistique est également testée afin de comparer les résultats par rapport à une méthode plus standard. Les modèles sont optimisés selon différentes méthodes et sont comparés en terme de précision et de temps d’entraînement. Les modèles sont par la suite entraînés sur une période et testés sur d’autres afin d’étudier la possibilité d’intégrer ces modèles dans le processus de création de lignes. Par la suite, les prédictions sont utilisées afin de créer des distributions de probabilité pour les différents crénaux de retard pour les fins de trajet des bus. Les différents algorithmes sont testés afin de distinguer ceux qui reproduisent au mieux la réalité. Le projet conclut sur la possibilité d’utiliser les données de planning pour prédire le retard des fins de trajet des bus. Une classification sur plusieurs classes peut être améliorée en intégrant de l’apprentissage non supervisée afin de déterminer les classes de retard. Il est également possible d’entraîner un modèle sur des périodes passées afin de prédire sur de futures périodes, mais cette méthode doit être encore améliorée.----------ABSTRACT : Public transportation services are provided in almost all the cities of the world. They allow people to move through the cities in an economical and eco-friendly way. The buses are one of the possible solutions for public transportation. Moreover buses are interesting to study because more data are available from onboard systems and can be used to optimize service quality. Indeed, preventing delays could improve service reliability and thus make people more likely to use public transport instead of their cars, which are currently more comfortable and more reliable. The first step in this process would be to forecast the delays. A lot of factors are linked to delays: peak-hour traÿc, weather or accidents, etc. Some studies were conducted to predict end trips delay using real-time input which does not allow improvement to schedule reliability because these data are not available during planning. This research focuses on modeling end-trip arrival time for each bus trip based only on o˜ine input available to public transport planner. The models do not intend to predict the exact delays, but rather to classify them. The delays used to train and test the models are historical observations from the city of Montreal in autumn 2017. Two di˙erent classification problems were treated. The first one estimates the probability for a trip to end on-time or late. The second one estimates the slot of delay. For each problem, three di˙erent machine learning models were built and optimized: random forest, gradient boosted tree and artificial neural network. Also, logistic regression was tested in order to compare the results. Several optimization methods were tried. The models are compared in term of accuracy, recall, f1 score and training time. The data from another period (autumn 2016) were then added to the database, and the model tested on the aggregated database. The model accuracy remained constant after the addition of the new period. The models were then fit on a single period (autumn 2016) and tested on the other one (autumn 2017) in order to check the possibility to use the model to forecast future schedules. The prediction is then used to generate a probability distribution for the di˙erent trips to end late to assess service reliability. The probability distributions are then compared with reality by comparing the distance between them and the frequencies of delays for the di˙erent trips. Normal distribution was also tested and obtained better results than the machine learning models. The project concluded that it is possible to model end trip delays using o˜ine data. Multi-label classification can be improved by using unsupervised learning to determine classes.

Open Access document in PolyPublie
Department: Département de mathématiques et de génie industriel
Dissertation/thesis director: Andrea Lodi and Louis-Martin Rousseau
Date Deposited: 11 Oct 2019 10:09
Last Modified: 11 Oct 2019 10:09
PolyPublie URL: https://publications.polymtl.ca/3923/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only