Ir al contenido principal

Gestión de datos de investigación

Contenidos

En esta sección de la guía va a encontrar información respecto de:

1. Documentación

2. Niveles a considerar en la documentación de los datos

3. Metadatos

4. Formatos y estándares de metadatos 

Documentación y Metadatos

La documentación y metadatos de los datos de investigación es una práctica importante,  que permite entregar contexto e información necesaria para encontrar, leer e interpretar los datos, facilitando su adecuada reutilización.

Y abordar aspectos tales como el contenido y estructura de los datos, su proceso de recopilación o creación, y las manipulaciones que han sido realizadas, entre otros.

 

Las formas de documentación pueden variar según el tipo de investigación que se realice, y puede realizarse a través de diversas medios, desde cuadernos de laboratorio a reportes técnicos o publicaciones.

A toda la información que será necesaria para que estos puedan ser interpretados y reutilizados, ya sea por los mismos equipos de investigación que los han creado como por otras personas interesadas en el futuro.

 

Para estimar las formas en que deberán documentarse los datos generados dentro de un proyecto, debe tenerse en consideración que se debe operar en tres niveles diferentes:

  • A nivel de estudio o proyecto.
  • A nivel de base de datos o set de datos.
  • A nivel de ítem o variable.

 

Documentación

Puede tomar distintas formas, algunos ejemplos:

Un libro de códigos es un documento esencial que informa al usuario de los datos sobre el estudio, archivo(s) de datos, variables, categorías, etc., que componen un conjunto de datos completo. El libro de códigos puede incluir el diseño de registros de un conjunto de datos, una lista de nombres y etiquetas de variables, conceptos, categorías, casos, códigos de valores faltantes, conteos de frecuencia, notas, declaraciones de universos, etc. Cuando se captura utilizando el estándar de metadatos DDI, la información en un libro de códigos está estructurada, procesable por máquina y utilizable por software y bases de datos.

Fuente: https://ddialliance.org/training/getting-started-new-content/create-a-codebook

Un diccionario de datos es una colección de nombres, definiciones y atributos sobre elementos de datos que se utilizan o capturan en una base de datos, sistema de información o parte de un proyecto de investigación. Describe los significados y propósitos de los elementos de datos dentro del contexto de un proyecto y brinda orientación sobre la interpretación, los significados aceptados y la representación. Un diccionario de datos también proporciona metadatos sobre elementos de datos. Los metadatos incluidos en un Diccionario de datos pueden ayudar a definir el alcance y las características de los elementos de datos, así como las reglas para su uso y aplicación. 

fuente: https://library.ucmerced.edu/data-dictionaries

La documentación de los datos varía, y depende del tipo de investigación. Una forma recomendable de documentar sus datos y que es útil para cualquier tipo de investigación, es la generación de archivos readme.

“Un archivo Readme (léame) proporciona información sobre un archivo de datos,  y está destinado a ayudar a garantizar que los datos puedan ser interpretados correctamente,  por usted mismo en una fecha posterior, o por otros al compartir o publicar datos. Los metadatos basados en estándares son generalmente preferibles, pero cuando no existe un estándar apropiado, para uso interno, escribir metadatos de estilo "léame" es una estrategia adecuada. (*)

Recomendamos utilizar esta plantilla de la Universidad de Cornell, para generar sus archivos Readme, podrá adaptarla a sus propios datos.
Fuente: https://data.research.cornell.edu/content/readme

ejemplo: DDI (Data Documentation Initiative) o  Dublin Core.

​​​​​

Descripción que permite encontrar los datos de investigación,  y conocer detalles de estos, entregando información que debería incluir: quién los generó, título, fecha, condiciones de uso de los datos, entre otros.

Existen distintos estándares de metadatos disponibles. Al momento de seleccionar un repositorio para depositar sus datos, cerciórese de que cuente con algún estándar de metadatos para asegurar una adecuada descripción y recuperación de los datos.

El Repositorio UC utiliza el esquema Dublin Core,  con metadatos seleccionados especialmente para potenciar una completa descripción de los datos. Al registro de metadatos en el  Repositorio UC además se asigna un Digital Object Identifier (DOI) para su conjunto de datos.

Más información:

Niveles a considerar en la documentación de los datos

En este nivel, deben documentarse aspectos tales como:

  • Contexto de la investigación: historia del proyecto, propósito, objetivos e hipótesis, contribución al campo de estudio

  • Metodología empleada

  • Diseño de la muestra

  • Instrumentos, hardware, software utilizados

  • Protocolos, cuestionarios, instrucciones, guías de entrevistas

  • Resolución y escala de datos

  • Cobertura temporal y geográfica

  • Métodos de digitalización y transcripción

  • Estructura y relaciones de los ficheros de datos, número de casos y variables

  • Procedencia de los datos (cuando son derivados)

  • Procedimientos de aseguramiento y control de calidad, tales como procedimientos validación, prueba o limpieza de datos, detección de errores, calibración de instrumentos, edición, etc.

  • Modificaciones hechas a los datos a lo largo del tiempo e identificación de versiones cuando corresponda

  • Cambios en la metodología, variables, medidas, muestreo u otro, cuando se trata de estudios longitudinales

  • Información sobre confidencialidad, acceso y uso de los datos, cuando aplique

  • Información bibliográfica que indique cómo citar los datos de la investigación

En este nivel, deben documentarse aspectos tales como:

  • Relaciones entre tablas de la base de datos o ficheros del set de datos

  • Formatos

  • Relación con versiones previas o posteriores

Esta información puede registrarse mediante el uso de un fichero readme.txt

En este nivel, deben documentarse aspectos tales como:

  • Nombres, etiquetas y descripción de variables y valores

  • Cómo fueron operacionalizadas las variables

  • Explicación de códigos y esquemas de clasificación utilizados

  • Códigos y explicación de valores perdidos

  • Código, algoritmos o comandos usados para crear datos derivados

  • Explicación de ponderación y extrapolación de variables

  • Lista de ítems, individuos o casos estudiados

Formatos y estándares de metadatos