<  Retour au portail Polytechnique Montréal

Stack overflow duplicate post dataset

MOOSE lab

Ensemble de données (2023)

Document en libre accès chez l'éditeur officiel
Un lien externe est disponible pour ce document
Afficher le résumé
Cacher le résumé

Abstract

As a part of the supplimentary material for the paper "Refining GPT-3 Embeddings with a Siamese Structure for Technical Post Duplicate Detection".

dup_post_csv.tar.gz: The dataset contains all duplicate post pairs from Stack Overflow up to December 2022, with an 80%/20% split between the training and test sets.

CQADupStack.tar: The CQADupStack Benchmark dataset. The package contains training and test sets from nine sub-domains. GPT-3 embeddings for all posts are appended.

Matériel d'accompagnement:
Département: Département de génie informatique et génie logiciel
URL de PolyPublie: https://publications.polymtl.ca/58394/
Source: Zenodo
DOI: 10.5281/zenodo.10067240
Autres DOI associés à ce document: 10.5281/zenodo.10067702; 10.5281/zenodo.10067241
URL officielle: https://doi.org/10.5281/zenodo.10067240
Date du dépôt: 03 juin 2024 14:43
Dernière modification: 06 janv. 2026 11:35
Citer en APA 7: MOOSE lab. (2023). Stack overflow duplicate post dataset [Ensemble de données]. Zenodo. https://doi.org/10.5281/zenodo.10067240

Statistiques

Dimensions

Actions réservées au personnel

Afficher document Afficher document