Requisitos del acceso abierto para los datos de investigación
- Biblioteca
- Comunicación científica
- Datos de investigación
- Requisitos del acceso abierto para los datos de investigación
¿Qué son los datos de investigación?
- Son datos que adquieren significado en el contexto del ciclo de vida de una investigación.
- Pueden ser de diferente naturaleza: numéricos o datos cuantitativos, textuales o datos cualitativos, muestras biológicas, colecciones de objetos físicos, programas de software o código, algoritmos, modelos, datos geográficos, fotos, imágenes, cortes de películas, vídeos, registros sonoros, etc.
- Para su comprensión deben estar bien documentados e incluir metadatos. Los tipos de documentos asociados que puedan aportar significado a los datos son: libros de código, cuestionarios, descripciones metodológicas, informes, papers, etc.
- Dataset es un conjunto de datos.
Características de los datos de investigación:
- Agrupación: son datos tratados como una unidad, un conjunto o una colección.
- Contenido: constituyen un conjunto de valores que representan actividades como mediciones u observaciones.
- Parentesco: los datos tienen una misma estructura y están relacionados entre sí por factores de tiempo, lugar, instrumento, objeto u observación, tema, etc.
- Propósito: la finalidad de estos datos será la de contribuir a cierta actividad científica para proveer evidencia, sugerir una hipótesis, refutar o confirmar una hipótesis, etc.
Obligaciones en el contexto nacional y europeo
- Datos de investigación (datasets) y los metadatos necesarios para validar los resultados presentados en publicaciones científicas.
- Otros datos y sus metadatos incluidos en el Plan de Gestión de datos (PGD) / Data Management Plan (DMP).
Beneficios de la gestión de los datos de investigación
- La gestión de datos de investigación (Research Data Management - RDM) es un concepto que abarca las tareas de organización, estructuración, almacenamiento y custodia de los datos utilizados durante un proyecto de investigación.
- Hay que tener presente cuál es el ciclo de vida de los datos y cuál el del proyecto de investigación asociado. Cada etapa requiere consideraciones, actividades y prácticas distintas con objeto de preservar y permitir el acceso y uso a los datos una vez completado el proyecto.
Una gestión de datos adecuada proporciona:
- Un aumento del impacto de la investigación optimizando la visibilidad de los datos producidos.
- Una mejora de la accesibilidad a los datos, asegurando la calidad e integridad de los mismos durante su ciclo de vida.
- Una mayor transparencia para la validación de los resultados de la investigación reflejados en las publicaciones.
- Una reutilización de los datos sin necesidad de reproducir la investigación.
- Un retorno de la inversión pública cumpliendo con los requerimientos de los organismos financiadores de la investigación.
Localizar datos de investigación en acceso abierto y repositorios de datos
A la hora de iniciar la búsqueda de datos ya depositados por otros investigadores es conveniente reflexionar sobre:
- El tipo y formato de datos que se necesitan.
- Si están afectados por algún tipo de consideración ética, confidencialidad o privacidad.
- Identificar el repositorio donde pueden estar alojados.
¿Dónde buscar conjuntos de datos o datasets?
- B2Find de EUDAT: servicio de descubrimiento de colecciones de datos de investigación de los centros de datos EUDAT (European Research Data Infrastructure).
- DataCite: permite realizar búsquedas de datasets que tengan asignados DOI.
- DataSearch de Elsevier: buscador de datos de investigación de diferentes dominios y tipos.
- Dryad: repositorio que contiene datasets asociados a publicaciones de ciencias y medicina.
- e-cienciaDatos: repositorio de datos de investigación del Consorcio Madroño.
- Figshare: repositorio internacional en el que se pueden recuperar datos por categorías temáticas.
- Google Dataset Search: permite la búsqueda en varios repositorios de datos.
- OpenAire: buscador de la Unión Europea de publicaciones y datos científicos.
- re3data: registra repositorios de datos de investigación, posibilitando realizar la búsqueda por países, disciplinas o tipología de los datos.
- Zenodo: repositorio de datos de investigación de la Unión Europea.
Recomendaciones al trabajar con datos
- Planificar y habilitar espacio de almacenamiento.
- Diseñar un plan de protección y seguridad de los datos almacenados: antivirus, control de acceso y seguridad en red, copias de seguridad en distintos soportes, etc.
- Establecer un sistema de trabajo en colaboración: flujo de trabajo, procedimientos, herramientas de trabajo colaborativo.
- Configurar la estructura de ficheros: nomenclatura de carpetas y ficheros (asignar nombres significativos y breves, sin espacios, tildes ni caracteres especiales). Identificar la versión del fichero en el propio nombre facilitará la gestión de versiones.
- Determinar el formato de los ficheros: se deberán utilizar siempre que sea posible formatos abiertos para garantizar la accesibilidad y preservación.
- Documentar los datos para hacerlos comprensibles y fáciles de usar.
- Decidir qué datos estarán públicamente accesibles. Hay que tener en cuenta el marco legal que afecta a los datos de investigación, fundamentalmente los aspectos relativos a la propiedad intelectual, la confidencialidad, privacidad y protección de datos de carácter personal.
- En caso de tratar información sensible protegida por la Ley de Protección de datos de carácter personal, debe anonimizar los datasets. Para ello existen herramientas, como Amnesia.
Una buena documentación contendrá:
- El contexto de la colección de datos: historia del proyecto, propósito y objetivos.
- La descripción de la metodología: proceso de acopio de datos, instrumentos usados, ámbito temporal y geográfico, hardware y software.
- La estructura de los ficheros que componen la colección y la relación entre ellos.
- Los procedimientos de validación, comprobación, limpieza, etc. llevados a cabo.
- Los cambios realizados en las sucesivas versiones de los ficheros.
- En relación con los propios datos, especificar si hay variables y sus valores, explicación de códigos, esquemas, acrónimos, terminología y otras anotaciones necesarias.
- La información sobre acceso, uso y confidencialidad.
Al depositar los datos finales en un repositorio de datos de investigación, se recomienda adjuntar un documento readme.txt para que los datos puedan ser interpretados y reutilizables. Se puede utilizar la plantilla para documento readme.txt del repositorio e-cienciaDatos del Consorcio Madroño.