Plataformas de repositorio de datos: una introducción

Plataformas de repositorio de datos: una introducción
Autora Nicole Betancourt
Mientras que los eruditos generalmente creen en el valor de compartir y preservar conjuntos de datos de investigación, muchos no creen que valga la pena su tiempo para hacerlo. Y, cuando invierten su tiempo en el intercambio y la preservación de datos, tienden a tener una preferencia por hacerlo de una manera independiente y autosuficiente. Estos son temas que no sólo hemos documentado a través de nuestra encuesta nacional de profesores de larga data, sino que hemos tratado en nuestro propio trabajo como investigadores de ciencias sociales que llevan a cabo estudios de encuestas a gran escala.

El intercambio de datos puede ser valioso por una variedad de razones. Permite a otros replicar análisis y resultados, estimula investigaciones adicionales con conjuntos de datos preexistentes, mejora los métodos de recopilación de datos a través del escrutinio de otros y fomenta ampliamente perspectivas alternativas que pueden promover una diversidad de análisis y conclusiones. Además, compartir datos de investigación contribuye al conocimiento social y puede evitar que otros investigadores hundan recursos en la duplicación de los esfuerzos de recopilación de datos al permitirles trabajar con datos preexistentes. Particularmente durante la pandemia COVID-19 cuando el profesorado se encuentra con desafíos en la realización de investigaciones con datos recién generados, aprovechar los datos que ya han sido recogidos y analizados puede ser particularmente útil. Muchos académicos sopesan estos beneficios contra los desafíos antes mencionados, junto con los mandatos de los financiadores, a la hora de determinar si depositar sus datos y cómo.
Dado que existe un sólido panorama de espacios de intercambio de datos de investigación, decidimos llevar a cabo investigaciones exploratorias de alto nivel sobre una serie de repositorios de datos, principalmente para informar nuestros propios protocolos de depósito de datos.
Depositamos regularmente datos de la Encuesta de Profesores de EE.UU.,  Encuesta de Directores de Bibliotecas,así como varios otros proyectos de investigación con ICPSR. reconociendo que nuestra investigación sobre una variedad de características de repositorios de datos puede producir utilidad para otros investigadores, hoy estamos publicando un resumen de nuestros hallazgos.

Puede encontrar siete repositorios comparados uno al lado del otro en formato tabular. Hemos destacado factores particulares que son clave para informar la toma de decisiones: alcance disciplinario, plazos típicos para el procesamiento de conjuntos de datos, costos asociados y servicios ofrecidos (como la curación de datos)
Enlace a la tabla

Alcance e impacto: Varios de estos repositorios son generales en términos de alcance disciplinario, mientras que algunos atienden principalmente a las ciencias sociales o ciencias. Esto podría ayudar a dar forma a qué repositorio podrían seleccionar los investigadores en función de la audiencia prevista para volver a utilizar sus datos. Del mismo modo, se debe tener en cuenta quién tiene la capacidad de acceder a conjuntos de datos en cada uno de los repositorios y a qué costo. Si el acceso abierto es una prioridad, podría tener sentido seleccionar Mendeley Data, Zenodo o Dryad, ya que los conjuntos de datos de estos repositorios son de libre acceso al público. Harvard Dataverse e Figshare permiten a los académicos elegir si los conjuntos de datos son de libre acceso o restringidos. En el otro extremo del espectro, ICPSR y The Roper Center requieren el pago o la pertenencia para acceder a los datasets.

Costo de depósito: Varios de los repositorios requieren membresía institucional o individual o tienen cargos asociados con el depósito de datos de investigación. Si el costo del depósito de conjuntos de datos es una preocupación, Figshare, Harvard Dataverse, The Roper Center y Zenodo no cobran por depositar datos de investigación, y Mendeley Data también tiene una opción de membresía gratuita.

Curación de datos: los servicios de curación de datos implican procesos que validan datos, como asegurarse de que hay alineación con el cuestionario, el libro de códigos y el conjunto de datos de los proyectos de investigación. Los datos también pueden estar disponibles en varios formatos de archivo, como archivos CSV, SAS y SPSS. Los servicios de curación de datos también pueden servir como una comprobación adicional antes de que los datos se pongan a disposición de otros, y es una característica que valoramos en Ithaka S+R. Dryad, Harvard Dataverse, ICPSR y
The Roper Center, todos ofrecen servicios de curación de datos, mientras que Figshare ofrece curación de datos a través de un servicio de suscripción adicional, y Mendeley Data no ofrece curación de datos. Es importante tener en cuenta que la curación de datos puede agregarse al período de tiempo antes de que un conjunto de datos esté disponible en cualquier repositorio determinado. Para Dryad, el tiempo para seleccionar y depositar datos suele ser de un día, mientras que para The Roper Center esto puede tardar aproximadamente una semana, y para Harvard Dataverse, esto normalmente varía dependiendo de la complejidad de los datos. Si el período de tiempo antes de que un conjunto de datos esté disponible no es de gran preocupación, ICPSR tarda aproximadamente de cuatro a ocho semanas en seleccionar la mayoría de los conjuntos de datos. Sin embargo, dependiendo de la complejidad de los datos, este proceso puede tardar varios meses, por lo que icpsr también se ha desarrollado y ofrece otro servicio -openICPSR- que no ofrece curación de datos en la que los datos se pueden depositar rápidamente. Si la curación de datos no es importante y la velocidad es ideal, Figshare y Mendeley Data pueden ser buenas opciones.
Esperamos que la instantánea de 2020 resumida aquí pueda ayudar a servir a otros investigadores, especialmente a los de las ciencias sociales, ya que pesan los pros y los contras de cada repositorio. Por supuesto, estos proveedores de repositorios a menudo cambian y adaptan sus servicios y ofertas.

Agradezco a Janan Shouhayib, estudiante de doctorado en The Graduate Center, y pasante con el equipo de encuestas e investigación de Ithaka S+R durante la primavera y el verano de 2019, por sus contribuciones a esta investigación exploratoria.

 

 

 

También podría gustarte

Los comentarios están cerrados.