Mémoire de maîtrise (2024)
|
Libre accès au plein texte de ce document Conditions d'utilisation: Tous droits réservés Télécharger (3MB) |
Résumé
De nos jours, les visualisations de données sont de plus en plus utilisées dans les articles de presse en ligne, notamment au sein de data-driven storie. Néanmoins, du fait de leur nature visuelle, ce type de contenu n’est que très peu accessible aux utilisateurs atteints de déficience visuelle. Ces utilisateurs doivent ainsi utiliser différents intermédiaires pour rendre audibles ces visualisations de données et accéder à l’information. C’est ainsi qu’un agent conversationnel ou un lecteur d’écran peut être utilisé. La rédaction de texte alternatif est actuellement le standard d’accessibilité le plus communément utilisé pour fournir une description textuelle d’une image. Ces descriptions générales restent néanmoins peu utilisées par les salles des nouvelles de manière générale, et plus spécifiquement, pour les visualisations de données. De plus, lorsqu’elles sont existantes, elles sont généralement jugées trop simplistes par les utilisateurs atteints de déficience visuelle car lacunaires. Plusieurs facteurs, humains comme économiques, peuvent être à l’origine de cette situation. Le nombre limité de journalistes disponibles pour rédiger ces descriptions détaillées, le manque de règles de rédaction précises et standardisées ainsi que la potentielle courbe d’apprentissage de la salle des nouvelles sont autant de limites liées à ce contexte journalistique. Pour accroître cette accessibilité, nous proposons une nouvelle approche afin d’assister les journalistes dans leur production de description de visualisation de données, basée sur un ensemble de paires de Question/Réponse (Q/A) générés par IA. Du fait des limites journalistiques précédemment listées, notre méthodologie génère ces Q/As en utilisant un modèle de Traitement Automatique en Langage Naturel (TALN) basé sur une IA générative. Cette approche atténue la charge de travail de la rédaction des Q/As en l’homogénéisant, permettant ainsi une exploration plus systématique et exhaustive des paires possibles pour une visualisation de données spécifique. Néanmoins, l’utilisation d’outils à base d’IA générative dans un contexte journalistique représente un risque quant à la publication d’informations peu fiables voire biaisées. Cet écueil est contrebalancé par le grand degré de contrôle accordé au journaliste sur l’ensemble Q/As généré. Pour permettre et optimiser cette tâche de validation obligatoire, nous avons conçu une interface où les paires de Q/As sont regroupées autant sémantiquement que lexicalement mais aussi en terme d’intérêt lié à l’accessibilité. Des aides à la décision visuelles sont également utilisées afin d’améliorer la prise de décision du journaliste. Pour évaluer cette méthodologie, baptisée GenQA, une étude comparative réunissant des journalistes de différents médias québécois a été menée. Cette étude a mis en avant la capacité de l’interface à assister les journalistes dans la production de description détaillée de visualisation de données. Ce constat repose notamment sur la sérendipité de GenQA, permettant de couvrir des thématiques non anticipées par les journalistes. De ces observations ont également émergé deux profils de journalistes distincts, fonction du nombre des couples de Q/A sélectionnés. Le premier, validant un nombre restreint de couples, consiste à choisir quelques couples sans en considérer l’intégralité. À l’opposé, le second profil propose une vérification systématique des Q/As, conduisant ainsi un temps de validation plus conséquent.
Abstract
Data visualizations are now commonly used in online press articles and so-called data-driven stories. However, due to its visual nature, this type of content inherently lacks accessibility (e.g. when one wants to consume those visualizations using conversational agents, hearing them in audible formats, or using screen readers). Writing alternative texts is the recommended standard in order to provide text descriptions associated to an image. However, newsrooms rarely produce them for data visualizations, or when they do, these are overly simplistic. Several intertwined limitations explain that situation: the limited amount of time journalists have to produce these expected detailed descriptions, a lack of precise and standardized writing guidelines for describing visualizations, and a potential learning curve in the newsroom. To improve this situation, we propose a new approach to help journalists produce a visualization description, based on a set of generated question and answer pairs (hereafter called Q/A). Due to the previously enumerated limitations, our method first generates those Q/As using a generative NLP AI model. This approach alleviates and homogenizes the writing task workload and allows for a systematic and more exhaustive exploration of the possible Q/As for a given visualization. However, among the critical challenges of using AI-based generative tools in a journalism context is the risk of publishing unreliable or biased information. Therefore, the methodology proposed in this paper gives the journalist user a high level of control over the AI-generated Q/As. To enable and optimize this mandatory validation task, we design an interface where Q/As are grouped in terms of semantic and textual content, and accessibility interest. Visual cues are also displayed to improve the journalist’s decision-making. To evaluate this proposed methodology, that we call GenQA, we conducted a comparative design study that gathered journalists from two different Canadian newsrooms. We observed that GenQA was efficiently used by those users and helped them to produce detailed visualization descriptions that met their expectations in terms of quality and workload. This study also showed that GenQA triggered significant serendipity potential, allowing users to explore and produce Q/As that cover aspects they might not have considered. Additionally, from these observations, two distinct profiles of journalists have also emerged, depending on the number of Q/A pairs selected. The first profile, validating a limited number of pairs, involves choosing a few pairs without considering the entirety. In contrast, the second profile suggests a systematic verification of Q/As, resulting in a more substantial validation time.
| Département: | Département de génie informatique et génie logiciel |
|---|---|
| Programme: | Génie informatique |
| Directeurs ou directrices: |
Thomas Hurtut |
| URL de PolyPublie: | https://publications.polymtl.ca/59470/ |
| Université/École: | Polytechnique Montréal |
| Date du dépôt: | 20 août 2025 15:39 |
| Dernière modification: | 20 août 2025 16:48 |
| Citer en APA 7: | Lecardonnel, T. J. M. (2024). GenQA : Génération et validation d'un ensemble de couples de Questions/Réponses générés à partir de données journalistiques [Mémoire de maîtrise, Polytechnique Montréal]. PolyPublie. https://publications.polymtl.ca/59470/ |
|---|---|
Statistiques
Total des téléchargements à partir de PolyPublie
Téléchargements par année
Provenance des téléchargements
