Integrated Real-Time Decision-Making in Smart Urban Freight Logistics: Modular and Adaptive Reinforcement Learning Approach

Ali Shiri

Thèse de doctorat (2025)

Document en libre accès dans PolyPublie

Affichage préliminaire

Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (5MB)

Afficher le résumé

Cacher le résumé

Résumé

Cette thèse examine la conception et la mise en œuvre d’architectures d’apprentissage par renforcement (RL) visant à optimiser la prise de décision en temps réel dans les systèmes de logistique urbaine intelligente pour le transport de marchandises. La recherche est motivée par la complexité opérationnelle croissante des réseaux de fret urbain, due à la forte croissance du commerce électronique, à la variabilité dynamique de la demande et à la congestion urbaine persistante, qui mettent en évidence les limites des approches d’optimisation statiques et heuristiques traditionnelles. L’objectif central de cette thèse est de développer des cadres évolutifs et fondés sur les données, permettant une prise de décision adaptative et coordonnée dans des environnements logistiques multi-agents, à l’échelle d’une ville et sous incertitude. À cette fin, quatre nouvelles architectures de RL sont proposées et évaluées au moyen de simulations multi-agents calibrées à partir de données réelles de logistique urbaine. L’étude reconceptualise les opérations de fret comme un processus de décision markovien et propose quatre cadres RL de complexité croissante. Premièrement, un réseau neuronal profond à valeurs (DQN) centralisé traite des problèmes de jumelage discret de cargaisons. Deuxièmement, un modèle hiérarchique acteur-critique coordonne les décisions conjointes de jumelage et d’affectation. Troisièmement, un cadre hiérarchique imbriqué d’apprentissage par renforcement (NHRL) intègre la tarification dynamique avec les opérations de jumelage et d’affectation. Enfin, un système décentralisé d’apprentissage par renforcement multi-agents (MARL) permet une prise de décision autonome au niveau de chaque véhicule, avec des capacités dynamiques de changement de tâches. Toutes les architectures intègrent un raisonnement spatial avancé grâce au système de maillage hexagonal H3 d’Uber, permettant un raisonnement spatial multi-résolution pour une granularité décisionnelle adaptative. Elles utilisent également des algorithmes modulaires de préfiltrage (PAMA, PADA, DEZE, ShipScan) qui transforment des problèmes de recherche combinatoire NP-difficiles en processus traitables en éliminant rapidement les options non réalisables ou à faible valeur. Les cadres sont évalués à l’aide de jeux de données synthétiques représentant les opérations de fret urbain à Montréal et Toronto, couvrant plus de 37 000 interactions véhicule-cargaison. L’évaluation des performances porte sur les récompenses cumulées, l’optimisation des revenus, les taux de réussite de jumelage, le temps d’inactivité des véhicules, le temps d’attente des cargaisons et l’efficacité des distances de prise en charge. L’approche proposée montre des améliorations significatives par rapport aux modèles de référence, notamment jusqu’à 26% d’augmentation des taux de réussite de jumelage, 9% d’amélioration de l’utilisation de la flotte, 70% de réduction du temps d’inactivité des véhicules, 50% de diminution du temps d’attente des expéditeurs et 13% de réduction du kilométrage à vide. Le modèle DQN établit l’efficacité fondamentale du RL à base de valeurs pour les tâches de jumelage discret, tout en démontrant que le maillage H3 et le préfiltrage réduisent considérablement la charge computationnelle. Le cadre HRL développe cette base en coordonnant des agents spécialisés de jumelage et d’affectation via un hub centralisé, ce qui permet d’améliorer les taux de réussite, les récompenses et de réduire le temps d’inactivité, le kilo-métrage à vide et le coût computationnel. L’architecture NHRL va plus loin en intégrant des mécanismes de tarification dynamique avec un raisonnement spatial multi-résolution, augmentant les revenus et les taux de jumelage. Le système MARL représente l’approche la plus avancée, permettant une prise de décision totalement décentralisée et contextuelle au niveau de chaque véhicule, atteignant des taux de jumelage et de consolidation plus élevés. L’analyse comparative des algorithmes de RL (PPO, TRPO, DDPG) valide la supériorité en performance et en robustesse de l’optimisation par politiques proximales (PPO) dans des environnements de fret dynamiques. La thèse se conclut par l’examen des considérations pratiques liées à la mise en œuvre dans des plateformes logistiques commerciales, en soulignant le potentiel transformateur des architectures RL pour moderniser les opérations de fret urbain grâce à des capacités d’optimisation intelligentes, évolutives et en temps réel. La recherche apporte à la fois des cadres théoriques et des méthodologies pratiques pour les systèmes logistiques urbains de nouvelle génération.

Abstract

This dissertation investigates the design and implementation of reinforcement learning (RL) architectures to optimize real-time decision-making in smart urban freight logistics systems. The research is motivated by the increasing operational complexity of urban freight networks, driven by rapid e-commerce growth, dynamic demand patterns, and persistent urban congestion, which collectively expose the limitations of traditional static and heuristic optimization approaches. The central objective of the dissertation is to develop scalable, data-driven frameworks that enable adaptive and coordinated decision-making under uncertainty in multi-agent, city-scale logistics environments. To this end, four novel RL-based architectures are proposed and evaluated through agent-based simulations calibrated with real-world urban freight data. The study reconceptualizes freight operations as a Markov Decision Process and develops four progressively sophisticated RL frameworks. First, a centralized Deep Q-Network (DQN) ad-dresses discrete shipment matching problems. Second, a hierarchical actor-critic model coordinates joint matching and dispatching decisions. Third, a nested hierarchical reinforcement learning (NHRL) framework integrates dynamic pricing with matching and dispatching operations. Finally, a decentralized multi-agent reinforcement learning (MARL) system enables autonomous vehicle-level decision-making with dynamic task switching capabilities. All architectures incorporate advanced spatial reasoning through Uber’s H3 hexagonal indexing system, which enables multi-resolution spatial reasoning for adaptive decision granularity, and employ modular prefiltering algorithms (PAMA, PADA, DEZE, ShipScan) that trans-form NP-hard combinatorial search problems into tractable processes by rapidly eliminating infeasible or low-value options. The frameworks are evaluated using synthetic datasets repre-senting urban freight operations in Montréal and Toronto, encompassing over 37,000 vehicle-shipment interactions. Performance evaluation focuses on cumulative rewards, revenue opti-mization, match success rates, vehicle idle time, shipment waiting time, and pickup distance efficiency. The proposed approach demonstrates significant improvements over baseline models, including up to a 26% increase in match success rates, a 9% boost in fleet utilization, a 70% reduction in vehicle idle time, a 50% decrease in shipper waiting time, and a 13% reduction in empty mileage. The DQN model establishes the foundational effectiveness of value-based RL for discrete matching tasks while demonstrating how H3 spatial indexing and prefiltering substantially reduce computational overhead. The HRL framework advances this foundation by coordinating specialized matching and dispatching agents through a centralized coordination hub, achieving improved match rates, reward, and reduced vehicle idle time, Empty Mileage, and time Computation Cost. The NHRL architecture extends capabilities further by integrat-ing dynamic pricing mechanisms with multi-resolution spatial reasoning, increasing revenue and match rate. The MARL system represents the most sophisticated approach, enabling fully decentralized, context-aware decision-making at individual vehicle levels, attaining a higher match rate and consolidation. Comparative analysis of reinforcement learning algo-rithms (PPO, TRPO, DDPG) validates the superior performance and robustness of Proximal Policy Optimization in dynamic freight environments. The dissertation concludes by examining practical implementation considerations for com-mercial logistics platforms, highlighting the transformative potential of RL-based architectures in modernizing urban freight operations through intelligent, scalable, and real-time optimization capabilities. The research contributes both theoretical frameworks and practical methodologies for next-generation urban logistics systems.

Département:	Département de mathématiques et de génie industriel
Programme:	Doctorat en génie industriel
Directeurs ou directrices:	Samira Keivanpour
URL de PolyPublie:	https://publications.polymtl.ca/71111/
Université/École:	Polytechnique Montréal
Date du dépôt:	25 mars 2026 14:11
Dernière modification:	25 mars 2026 15:41

Citer en APA 7:	Shiri, A. (2025). Integrated Real-Time Decision-Making in Smart Urban Freight Logistics: Modular and Adaptive Reinforcement Learning Approach [Thèse de doctorat, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/71111/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document