<  Back to the Polytechnique Montréal portal

Méthodes spatio-temporelles de fouilles des données de cartes à puce en transport urbain

Li He

PhD thesis (2019)

[img] Restricted to: Repository staff only until 18 November 2020.
Cite this document: He, L. (2019). Méthodes spatio-temporelles de fouilles des données de cartes à puce en transport urbain (PhD thesis, Polytechnique Montréal). Retrieved from https://publications.polymtl.ca/4026/
Show abstract Hide abstract

Abstract

RÉSUMÉ: Les données des cartes à puce du système de transport en commun sont utiles pour comprendre le comportement des usagers du réseau du transport en commun. De nombreuses recherches pertinentes ont déjà été menées concernant : (1) l'utilisation de données de cartes à puce, (2) les techniques de fouille de données et (3) l'utilisation de la fouille de données avec des données de cartes à puce. Dans ces recherches, la classification des comportements des usagers est basée sur des déplacements pour lesquels les classifications temporelles et spatiales sont considérées comme des processus séparés. Nos partenaires de recherche ont exprimé le souhait de pouvoir examiner les comportements des usagers en considérant simultanément les dimensions spatiales et temporelles. Dans cette thèse, nous développons des méthodes, basées sur les comportements quotidiens des usagers, prenant en compte à la fois les comportements spatiaux et temporels. La méthodologie développée pour classifier les comportements des utilisateurs de cartes à puce s’appuie sur la méthode de distance corrélation croisée (cross correlation distance, ou CCD), sur la déformation temporelle dynamique (dynamic time warping ou DTW), sur la classification hiérarchique et sur l'échantillonnage. De plus, une méthode basée sur la densité est aussi abordée. Cette thèse est contribuée de quatre articles plus d’autre résultats présentés dans un chapitre distinct: (1) Afin de commencer la classification temporelle, une comparaison entre CCD et DTW est faite en vue de choisir la meilleure métrique et développer une méthode de classification des séries temporelles en utilisant la classification hiérarchique, et CCD a été prouvé meilleur dans ce cas-ci. Avec cette méthode proposée, un morceau des comportements temporels peut être classifié. (2) Afin de réaliser la classification temporelle pour les données massives, une méthode d’échantillonnage permettant de traiter les grands volumes de données provenant des systèmes de cartes à puce de transport en commun ainsi qu’un indicateur de calibration de cette méthode sont proposés. Cette méthode d’échantillonnage nous permet de classifier tous les comportements temporels d’usagers dans un réseau de transports en commun, et cet indicateur nous permet de choisir les meilleurs paramètres dans l’algorithme. (3) Afin de regrouper les comportements spatiaux et spatio-temporels d’usagers en transport en commun, des méthodes de classification spatiale et spatio-temporelle de comportements des usagers en ajustant l’algorithme de DTW sont développées, et des méthodes de visualisation des résultats en appliquant un graphique spatio-temporel en 3 dimensions sont aussi développées, en vue de montrer l'efficacité de l'algorithme. La visualisation des résultats nous montre l’effectivité de ces deux méthodes. (4) Afin de tester si la méthode de classification développée dans une ville s’applique dans une autre ville, nous développons une méthode de reconnaissance et de comparaison des comportements de deux villes entre le Canada et le Chile. Les résultats montent qu’environ 66% de comportements temporelles peuvent être reconnu donné un profile de transaction d’un jour, et l’exactitude de reconnaissance est environ 70%. (5) Afin d’analyser les résultats de les classifications spatiale et spatio-temporelle plus profonde, des analyses sont faits incluant la proportion de métro, le moyen et la déviation de trajectoire espace-temps etc, et ces analyse nous permet d’identifier les différences de demande entre les groupes obtenus. (6) En outre, des méthodes de classification de zones géographiques basées sur la densité pour la mesure du changement de comportements des usagers sont développés. Afin de tester ces méthodes, des données massives provenant des systèmes de perception automatique de la Société de Transport l’Outaouais (STO) de Gatineau et de TranSantiago de Santiago (Chili) sont utilisées. Concernant l’implémentation, les méthodes proposées sont programmées en Python. Les résultats des méthodes, non seulement permettent de regrouper les profils des usagers du transport en commun en quelques groupes et de mieux connaître les caractéristiques de chacun, mais aussi de développer une série de méthodes de visualisation, avec lesquelles les données peuvent être traitées automatiquement pour que des graphiques soient générés. Grâce à ces graphiques, les autorités de transport en commun peuvent traduire les données recueillies automatiquement pour illustrer la demande de transport. Par conséquent, des chercheurs espèrent ces contributions aideront les autorités pour planifier les transports en commun afin de mieux répondre aux demandes des citoyens.----------ABSTRACT: Transit smart card data is useful for understanding the behavior of transit users. Numerous relevant research has been conducted on: (1) the use of smart card data, (2) data mining techniques and (3) the use of data mining with smart card data. In this research, the classification of user behavior is based on travel in which temporal and spatial classifications are considered as separate processes. We develop methods, based on the daily behaviors of users, taking into account both spatial and temporal behaviors. The methodology developed to classify the behavior of smart card users is based on the cross correlation distance (CCD) method, dynamic time warping (DTW), hierarchical classification and sampling method. In addition, the density-based method is also affected. This thesis is presented with four articles plus other results in a separate chapter: (1) In order to start the temporal classification, a comparison between CCD and DTW is made in order to choose the best metric and develop a method of classification of time series using hierarchical classification. CCD has been proved better in this case. A piece of temporal behaviors can be classified with this proposed method. (2) In order to achieve temporal classification for Big Data, a sampling method for processing large volumes of data from transit smart card systems and a calibration indicator for this method are proposed. This sampling method allows us to classify all the users’ temporal behaviors in a public transport network, and this indicator allows us to choose the best parameters in the algorithm. (3) In order to classify the spatial and spatio-temporal behavior of users in public transport, methods of spatial and spatio-temporal classification of user behaviors by adjusting the DTW algorithm is developed, and a method of visualization of the results by applying a 3-dimensional spatio-temporal graph is also developed, to show the efficiency of the algorithm. The visualization of the results shows us the effectiveness of these two methods. (4) In order to test whether the classification method developed in one city applies in another city, we develop a method to recognize and compare the behavior of two cities between Canada and Chile. The results show that about 66% of temporal behaviors can be recognized given one-day transaction profiles of two cities, and the recognition accuracy is about 70%. (5) For a deeper view of the spatio-temporal classifications results, analyzes are made including the proportion of metro utilisation, the mean and the deviation of space-time trajectory etc, and these analyses allow us to identify the differences of demands between the clusters obtained. (6) In addition, density-based geographic classification methods for measuring the change of user behavior are developed. To test these methods, massive data from the Automated Collection System of the la Société de Transport l’Outaouais (STO) and the TranSantiago of Santiago de Chile are used. Regarding the implementation, the proposed methods are programmed in python. The result of these methods not only allows the profiles of transit users to be grouped in a few groups and better understand the characteristics of each, but also creates a series of visualization approaches with which data can be directly transferred to the graphs. With these graphs, transit authorities can translate automatically collected data into traveler demand. As a result, researchers hope that these contributions help the authorities to plan public transit by better meeting the demands of citizens.

Open Access document in PolyPublie
Department: Département de mathématiques et de génie industriel
Dissertation/thesis director: Martin Trépanier and Bruno Agard
Date Deposited: 18 Nov 2019 13:50
Last Modified: 12 Dec 2019 10:15
PolyPublie URL: https://publications.polymtl.ca/4026/

Statistics

Total downloads

Downloads per month in the last year

Origin of downloads

Repository Staff Only