Ensemble de données (2023)
Afficher le résumé
Cacher le résumé
Abstract
As a part of the supplimentary material for the paper "Refining GPT-3 Embeddings with a Siamese Structure for Technical Post Duplicate Detection".
dup_post_csv.tar.gz: The dataset contains all duplicate post pairs from Stack Overflow up to December 2022, with an 80%/20% split between the training and test sets.
CQADupStack.tar: The CQADupStack Benchmark dataset. The package contains training and test sets from nine sub-domains. GPT-3 embeddings for all posts are appended.
| Matériel d'accompagnement: | |
|---|---|
| Département: | Département de génie informatique et génie logiciel |
| URL de PolyPublie: | https://publications.polymtl.ca/58394/ |
| Source: | Zenodo |
| DOI: | 10.5281/zenodo.10067240 |
| Autres DOI associés à ce document: | 10.5281/zenodo.10067702; 10.5281/zenodo.10067241 |
| URL officielle: | https://doi.org/10.5281/zenodo.10067240 |
| Date du dépôt: | 03 juin 2024 14:43 |
| Dernière modification: | 06 janv. 2026 11:35 |
| Citer en APA 7: | MOOSE lab. (2023). Stack overflow duplicate post dataset [Ensemble de données]. Zenodo. https://doi.org/10.5281/zenodo.10067240 |
|---|---|
Statistiques
Dimensions
