<  Retour au portail Polytechnique Montréal

Multi-Camera Calibration and Real-Time Pose-Guided View Selection for Supervision of Human-Robot Interaction

Alaleh Asaran Darban

Mémoire de maîtrise (2025)

Document en libre accès dans PolyPublie
[img]
Affichage préliminaire
Libre accès au plein texte de ce document
Conditions d'utilisation: Tous droits réservés
Télécharger (22MB)
Afficher le résumé
Cacher le résumé

Résumé

Ce mémoire présente une approche fondée sur la vision pour améliorer l’interaction hommerobot dans des environnements industriels collaboratifs, en s’appuyant sur un système multicaméras RGB-D. Réalisée dans une cellule cobotique de parachêvement, équipée de six caméras Intel RealSense D455 synchronisées, l’étude aborde trois défis principaux : la calibration des caméras, l’estimation robuste de la pose de l’opérateur humain, et la sélection adaptative des vues de caméras. Premièrement, un cadre de calibration a été mis en place en utilisant une mire pour effectuer la calibration intrinsèque et extrinsèque stéréo. La précision du calibrage a été évaluée à l’aide de l’erreur quadratique moyenne de reprojection (MSE), après une optimisation non linéaire. Les résultats obtenus ont permis de dégager des pistes d’amélioration avant une utilisation de ces matrices pour la reconstruction 3D. Deuxièmement, l’estimation de la pose humaine a été étudiée à travers une comparaison entre les frameworks OpenPose et MediaPipe sur un petit jeu de données en haute résolution. Bien que MediaPipe fournisse une structure de points clés plus détaillée, sa complexité computationnelle plus élevée limite son utilisation en traitement temps réel multi-caméras. La version allégée d’OpenPose propose un meilleur compromis entre efficacité et précision des points clés, ce qui en fait le modèle le plus adapté pour cette application. Troisièmement, une stratégie de sélection de caméras a été mise en oeuvre à l’aide d’un classifieur Random Forest. En extrayant des caractéristiques de confiance à partir des points clés détectés, le modèle a permis de sélectionner efficacement l’ensemble de caméras le plus informatif sur la pose de l’opérateur, pour chaque image. L’évaluation en validation croisée leave-one-out a montré d’excellentes performances, avec une précision moyenne de 94,99 %, une précision de 92,3 %, et un rappel parfait de 100 %. Dans l’ensemble, le système proposé offre une chaîne de perception évolutive et réactive pour les systèmes robotiques collaboratifs. Ce travail propose une méthodologie robuste pour la calibration multi-caméras et la sélection de vues basée sur la pose de l’opérateur, avec des applications potentielles dans des environnements industriels réels.

Abstract

This thesis presents a vision-based approach for enhancing human-robot interaction in collaborative industrial environments using a multi-camera RGB-D system. Conducted within a cobotic part-finishing cell equipped with six synchronized Intel RealSense D455 cameras, the research addresses three main challenges: precise camera calibration, robust human pose estimation, and adaptive camera view selection. First, a calibration framework was developed using checkerboard-based intrinsic and stereo extrinsic calibration procedures. The accuracy of the calibration was evaluated through mean squared reprojection error (MSE), after non-linear optimization. This setup ensured a consistent coordinate system for 3D reconstruction. Second, for pose estimation, a comparative study between OpenPose and MediaPipe was carried out on a small high-resolution dataset. While MediaPipe provided a richer keypoint structure, its higher computational overhead made it less viable for real-time multi-camera processing. OpenPose’s lightweight configuration offered an optimal trade-off between efficiency and keypoint accuracy, making it the preferred model for this application. Third, a camera selection strategy was implemented using Random Forest classification. By extracting confidence-based features from detected keypoints, the model effectively selected the most informative subset of cameras for each frame. Evaluation through leave-one-out cross-validation showed excellent performance, with an average accuracy of 94.99 Overall, the proposed system delivers a scalable and real-time perception pipeline for collaborative robotic systems. The work contributes a robust methodology for multi-camera calibration, pose-based camera selection, and vision-guided interaction, with applications extending to real-world industrial deployments.

Département: Département de génie informatique et génie logiciel
Programme: GÉNIE INFORMATIQUE
Directeurs ou directrices: Lama Séoud
URL de PolyPublie: https://publications.polymtl.ca/67793/
Université/École: Polytechnique Montréal
Date du dépôt: 14 nov. 2025 15:29
Dernière modification: 14 nov. 2025 20:57
Citer en APA 7: Asaran Darban, A. (2025). Multi-Camera Calibration and Real-Time Pose-Guided View Selection for Supervision of Human-Robot Interaction [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/67793/

Statistiques

Total des téléchargements à partir de PolyPublie

Téléchargements par année

Provenance des téléchargements

Actions réservées au personnel

Afficher document Afficher document