<  Retour au portail Polytechnique Montréal

Indicateurs de performance du transport collectif basés sur l'estimation des destinations : intégration des données de paiement par cartes à puce et des données de comptage

Melvin Huang

Mémoire de maîtrise (2025)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (5MB)
Afficher le résumé
Cacher le résumé

Résumé

Au cours de ces dernières années, les systèmes de collecte automatisée des tarifs par carte à puce (SCAFC) se sont imposés comme un outil incontournable dans les transports publics non seulement pour la gestion des recettes et le contrôle d’accès mais aussi pour l’analyse des comportements de déplacement des usagers et de l’efficacité du réseau. En collectant en continu des dizaines de milliers de transactions journalières ces systèmes génèrent une mine d’informations sur la demande en transport et l’usage des infrastructures. Toutefois, ces données brutes issues des transactions sont souvent incomplètes. En effet, de nombreux systèmes n’enregistrent que les lieux et heures d’embarquement (« tap-in ») sans capturer directement les lieux de débarquement (« tap-out »). De plus, en raison de dysfonctionnement du système ou d’oublis du conducteur lors des changements de direction certaines transactions se retrouvent non seulement associées à des informations erronées mais peuvent aussi perdre des données essentielles comme le trip_id. Ce manque d’information sur le lieu de destination limite l’analyse complète des itinéraires origine-destination et rend nécessaire l’élaboration de méthodes d’estimation de destination avancées. Pour pallier ces limites plusieurs algorithmes d'estimation des destinations ont été développés au fil des années. Ceux-ci reposent sur l’utilisation de critères basés sur les séquences d'arrêts, l’historique des transactions individuelles et des modèles probabilistes tels que l’estimation de la densité du noyau des probabilités spatio-temporelles visant à reconstituer les itinéraires. Ces améliorations ont permis d’accroître le nombre de destinations estimées. Toutefois, certains déplacements notamment les déplacements unitaires plus difficiles à analyser ne peuvent être entièrement résolus avec ces méthodes. Pour surmonter ce problème, une amélioration de l'algorithme d'estimation des destinations est proposée dans ce mémoire. Ce modèle intègre les critères traditionnels issus des travaux antérieurs combinés à de nouveaux critères. Il repose sur trois nouveaux critères basés sur les séquences d'arrêts avec une version révisée du critère historique ainsi que sur deux critères exploitant les données de comptage : le "Tirage Aléatoire Pondéré" (TAP) qui utilise les données historiques de toutes les transactions des passagers et l'"Événement Final" (F_Event) appliqué uniquement lorsque les autres critères ne permettent pas d'estimer une destination. L'amélioration continue du modèle permet de reconstituer les itinéraires individuels avec une plus grande précision. Ces reconstitutions offrent aux planificateurs une vision détaillée des trajets effectués et facilitent l'analyse des profils de charge des véhicules. L'exploitation de ces données permet d’élaborer des indicateurs de performance pour la gestion et à l'optimisation du réseau de transports en commun. Ces indicateurs incluent notamment l'offre de service (la ponctualité, la fréquence de passage, vitesse commerciale, etc.) et la demande (passagers-kilomètres, la charge maximale à bord, taux de charge, etc.). Ces indicateurs aident aussi à analyser les caractéristiques des usagers selon les titres de transport utilisés. Pour le développement de l'algorithme et l'analyse des résultats le projet s'appuie sur les données de transactions et de comptage de 79 054 cartes à puce enregistrées dans la ville de Besançon, en France. Ces données fournies par Keolis, un opérateur majeur de transport public franco-québécois, couvrent une période de deux semaines du 3 au 16 juin 2024 avec un total de 766 165 transactions recensées. L'algorithme amélioré se décompose en quatre étapes : 1. Prétraitement des données : Lecture des données GTFS (General Transit Feed Specification) pour créer de nouveaux fichiers consolidant les services proposés par Keolis et suppression des doublons. Une table des séquences d'arrêts desservies associée aux trips_id correspondants et indiquant la fréquence relative de chaque séquence pour une même ligne et direction est également construite. 2. Attribution des caractéristiques aux transactions : Identification du type de journée (jour ouvrable/fin de semaine), période de la journée (nuit, matin, après-midi et soir), ligne et direction et correction des incohérences dans les transactions (par exemple trip_id inexistant ou inadapté). Un regroupement des transactions par véhicule, date, ligne et trip_id est effectué afin d'affiner l'attribution des séquences d'arrêts. Enfin, chaque transaction est classifiée comme première, intermédiaire ou dernière de la journée. 3. Application des critères d'estimation des destinations : Les critères sont appliqués successivement dans un ordre précis jusqu'à ce qu'une destination puisse être estimée. Critère 1.1 : Séquence de déplacement (54,87%) : lorsqu'une transaction est suivie d'une autre. • Critère 1.2 : Retour à domicile (22,20%) : ce critère ne peut s’appliquer qu’à la dernière transaction de la journée et utilise comme référence pour l’estimation de la destination le premier arrêt d’embarquement de la journée. • Critère 1.3 : Déplacement du prochain jour (3,07%) : ce critère prend comme station de référence la station d’embarquement de la première transaction du lendemain. • Critère 1.4 : Déplacement du jour précédent (1,61%) : ce critère prend comme station de référence la station d’embarquement de la première transaction du jour précédent. •Critère 1.5 : Déplacement des jours ultérieurs (0,51%) : Si aucune destination ne peut être estimée avec les critères précédents un assouplissement de la référence temporelle est appliqué. Au lieu de se limiter à la première transaction du jour suivant l'analyse s'étend à la première transaction enregistrée entre le surlendemain et une semaine plus tard (J+2 à J+7). Cette approche suppose que l’usager suit un trajet habituel avec des interruptions possibles comme les week-ends, jours fériés ou déplacement de courte durée. Pour garantir la cohérence de l'estimation la station de référence retenue doit se situer sur la même ligne que celle du jour étudié mais dans la direction opposée. • Critère 1.6 : Déplacement des jours antérieurs (0,43%) : Comme pour le critère 1.5 mais avec une analyse de la dernière transaction des jours allant de J-2 à J-7. • Critère historique (H) (3,32%) : Exploitation de l’historique des transactions de la carte étudiée. Cette approche se base sur la recherche de transactions antérieures similaires en tenant compte de plusieurs critères comme le type de journée, la période de la journée ainsi que la ligne et la direction empruntées. Cette étape de l’algorithme permet ainsi d’estimer 86,01% des destinations.Utilisation des données de comptage et des critères supplémentaires : Pour les transactions restantes (13,99%), le critère TAP (Tirage Aléatoire Pondéré) est appliqué qui exploite les données de comptage et l’historique des transactions de toutes les cartes à puce pour attribuer une destination potentielle. La sélection s’effectue parmi les destinations historiques des transactions similaires en prenant en compte le type de journée, la période de la journée et la ligne-direction de la transaction en cours. Avant l’application du TAP, un prétraitement des données est nécessaire. Celui-ci inclut le regroupement des transactions associées à une même course et la mise en correspondance des descentes estimées avec les critères précédents et les données de comptage. Cette étape permet d’estimer le nombre de descentes restantes par station, par trip_id et par jour améliorant ainsi la précision de l’algorithme. L’application du TAP permet d’estimer la destination de 13,61 % des transactions totales laissant ainsi 0,38% de transactions non traitées. Enfin, ces transactions résiduelles sont soumises à un dernier critère : le critère (F_Event) "Événement Final". Celui-ci attribue une destination parmi les stations restantes à desservir indépendamment des caractéristiques de la transaction. Afin de limiter l’aspect probabiliste de cette approche les données de comptage sont également exploitées en ajoutant les descentes estimées par le critère TAP. En combinant ce dernier critère avec les autres critères l’ensemble des transactions a pu être traité avec une approche progressive et optimisée. Bien que l'absence de données "tap-out" empêche une vérification directe des résultats obtenus ceux-ci s'appuient sur une optimisation rigoureuse de l'algorithme garantissant leur cohérence et leur fiabilité. De plus, la loi des grands nombres assure que les écarts enregistrés localement sont compensés à plus grande échelle renforçant ainsi la pertinence des indicateurs de performance du transport collectif déduits. En conclusion, ce mémoire propose un algorithme amélioré d'estimation des destinations intégrant les données de comptage pour traiter les déplacements les plus complexes. Cet algorithme intègre également des méthodes de traitement des données GTFS et des données de transactions dans le but de les rendre plus facilement manipulable pour optimiser l’estimation des destinations pour chaque transaction. Le mémoire fournit également une présentation des résultats sous forme d’indicateurs de performances du transport collectif dans une perspective de pouvoir analyser plus finement les déplacements des usagers et l’évaluation de l’efficacité du réseau. Toutefois, des limites liées à l'absence de données "tap-out" empêche la validation avec exactitude des destinations estimées. De plus, même si les données de comptage sont intéressantes elles ne sont pas disponibles pour tous les transports collectifs et peuvent contenir des erreurs. Si à l'avenir des données "tap-out" fiables deviennent accessibles il serait alors possible d'affiner davantage la précision du modèle en validant directement les résultats obtenus.

Abstract

In recent years, Automated Fare Collection (AFC) Systems using smart cards has become an essential tool in public transportation not only for revenue management and access control but also for analyzing passenger travel behavior and evaluating network efficiency. By continuously collecting tens of thousands of daily transactions these systems generate a wealth of information on transport demand and infrastructure usage. However, the raw data from these transactions are often incomplete. Many systems only record boarding locations and times ("tap-in") without directly capturing alighting locations ("tap-out"). Furthermore, due to system malfunctions or driver omissions when changing routes some transactions are associated with incorrect information or may lose essential data such as the trip_id. This lack of destination information limits the comprehensive analysis of origin-destination routes and necessitates the development of advanced destination estimation methods. To address these limitations, several destination estimation algorithms have been developed over the years. These rely on criteria based on stop sequences, individual transaction history and probabilistic models such as kernel density estimation of spatiotemporal probabilities to reconstruct itineraries. These improvements have increased the number of estimated destinations. However, certain trips especially single trips that are more difficult to analyze cannot be fully resolved using these methods. To overcome this issue, an improved destination estimation algorithm is proposed in this thesis. This model integrates traditional criteria from previous research combined with new criteria. It is based on three new criteria derived from stop sequences with a revised version of the historical criterion as well as two criteria leveraging counting data: the "Weighted Random Selection" (TAP) that uses historical transaction data from all passengers and the "Final Event" (F_Event) applied only when other criteria fail to estimate a destination. Continuous improvements to the model allow for more accurate reconstruction of individual itineraries. These reconstructions provide planners with a detailed view of completed journeys and facilitate the analysis of vehicle load profiles. The use of this data enables the development of performance indicators for management and optimization of public transport. These indicators include service supply metrics (punctuality, service frequency, commercial speed, etc.) and demand metrics (passenger-kilometers, maximum onboard load, load factor, etc.). They also help analyze user characteristics based on the types of fare media used.For the algorithm development and result analysis this project relies on transaction and counting data from 79,054 smart cards recorded in the city of Besançon, France. These data provided by Keolis, a major Franco-Quebecois public transport operator, cover a two-week period from June 3 to June 16 2024 with a total of 759,670 recorded transactions. The improved algorithm consists of four steps: 1. Data preprocessing: Reading General Transit Feed Specification (GTFS) data to create new files consolidating services offered by Keolis and removing duplicates. A table of served stop sequences associated with corresponding trip_ids and indicating the relative frequency of each sequence for the same line and direction is also constructed. 2. Assigning characteristics to transactions: Identifying the type of day (weekday/weekend), time of day (night, morning, afternoon, evening), line and direction while correcting inconsistencies in transactions (for example nonexistent or inappropriate trip_id). Transactions are grouped by vehicle, date, line and trip_id to refine stop sequence attribution. Finally, each transaction is classified as the first, intermediate or last of the day. 3. Applying destination estimation criteria: Criteria are applied sequentially in a specific order until a destination can be estimated. • Criterion 1.1: Travel sequence (54.87%) - when a transaction is followed by another. • Criterion 1.2: Return home (22.20%) - applied only to the last transaction of the day using the first boarding stop of the day as a reference for destination estimation. • Criterion 1.3: Next day's trip (3.07%) - uses the boarding station of the first transaction on the following day as a reference. • Criterion 1.4: Previous day's trip (1.61%) - uses the boarding station of the first transaction from the previous day. • Criterion 1.5: Subsequent days' trips (0.51%) - if no destination can be estimated with previous criteria the time reference is extended to include the first transaction recorded between two and seven days later (J+2 to J+7). The reference station must be on the same line but in the opposite direction. • Criterion 1.6: Prior days' trips (0.43%) - like Criterion 1.5 but analyzing the last transaction from two to seven days earlier (J-2 to J-7). • Historical criterion (H) (3.32%) - uses past transactions of the studied card, considering factors such as day type, time of the day and line-direction taken. This step of the algorithm estimates 86.01% of destinations. 4. Using counting data and additional criteria: For the remaining 13,99% of he TAP (Weighted Random Selection) criterion is applied. It utilizes counting data and historical transactions of all smart cards to assign a potential destination. Selection is made from historical destinations of similar transactions considering day type, time of the day and line-direction of the current transaction. Before applying the TAP, a preprocessing step is required. This includes grouping transactions associated with the same trip and matching the estimated alightings with the previously applied criteria and the counting data. This step estimates the number of remaining alightings per station, trip_id and day improving algorithm accuracy. Applying TAP estimates the destination for 13.61% of total transactions leaving 0,38% unprocessed. These residual transactions undergo a final criterion: F_Event (Final Event) which assigns a destination among remaining stops regardless of transaction characteristics. To limit the probabilistic aspect of this approach counting data are also used incorporating alightings estimated by TAP. By combining this final criterion with other criteria all transactions are progressively and optimally processed. Although the absence of "tap-out" data prevents direct verification of the obtained results these are based on a rigorous optimization of the algorithm ensuring their consistency and reliability. Moreover, the law of large numbers guarantees that local discrepancies are compensated on a larger scale reinforcing the relevance of the inferred public transport performance indicators. In conclusion, this thesis proposes an improved destination estimation algorithm that incorporates passenger count data to better handle complex travel patterns. The algorithm also includes methods for processing GTFS and transaction data to make them more easily manageable with the goal of optimizing destination estimation for each transaction. The thesis also presents the results through public transit performance indicators enabling a more detailed analysis of user travel patterns and an evaluation of network efficiency. However, limitations arise from the lack of "tap-out" data which prevents the exact validation of estimated destinations. Furthermore, while passenger count data are valuable they are not available for all public transit systems and may contain errors. If reliable "tap-out" data become available in the future it would then be possible to further improve the model’s accuracy by directly validating the estimated results.

Département: Département de mathématiques et de génie industriel
Programme: Génie industriel
Directeurs ou directrices: Martin Trépanier
URL de PolyPublie: https://publications.polymtl.ca/66151/
Université/École: Polytechnique Montréal
Date du dépôt: 14 nov. 2025 15:28
Dernière modification: 14 nov. 2025 17:50
Citer en APA 7: Huang, M. (2025). Indicateurs de performance du transport collectif basés sur l'estimation des destinations : intégration des données de paiement par cartes à puce et des données de comptage [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/66151/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document