Episodio
codebookr: Codebooks en *R*
con Peter Baker
useR!2017: codebookr: Codebooks en *R*
Palabras clave: libro de código, diccionario de datos, limpieza de datos, validación, automatización
Páginas web: https://github.com/petebaker/codebookr, https://github.com/ropensci/auunconf/issues/46
codebookr es un paquete de R en desarrollo para automatizar la limpieza, comprobación y formato de datos mediante metadatos de codebooks o diccionarios de datos. Está dirigido principalmente a investigaciones epidemiológicas y estudios médicos, pero se puede utilizar fácilmente en otras áreas de investigación.
Los investigadores que recopilan datos primarios, secundarios o terciarios de los sistemas administrativos del gobierno o del gobierno y del hospital suelen tener una documentación de datos diferente y la limpieza de datos necesita a aquellos que extraen datos fuera de la web o recopilan datos internos para el análisis empresarial. Sin embargo, todos los estudios se beneficiarán del uso de codebooks que documenten exhaustivamente todas las variables de estudio, incluidas las variables derivadas. Los codebooks documenten formatos de datos, nombres de variables, etiquetas de variables, niveles de factor, intervalos válidos para variables continuas, detalles de los instrumentos de medición, etc.
Para consultores estadísticos, cada nuevo conjunto de datos tiene un nuevo libro de códigos. Aunque los estadísticos pueden obtener un libro de códigos o pdf copiado con foto, mi preferencia es una hoja de cálculo para que los metadatos se puedan usar directamente. Muchos analistas de datos están encantados de usar estos metadatos para codificar la sintaxis para leer, limpiar y comprobar los datos. Prefiero automatizar este proceso leyendo el código en R y, a continuación, usando los metadatos directamente para la comprobación de datos, limpieza y definiciones de nivel de factor.
Aunque hay un interés considerable en la limpieza y limpieza de datos (Jonge y Loo 2013; Wickham 2014; Fischetti 2017), parece haber pocas herramientas disponibles para leer los codebooks (consulte http://jason.bryer.org/posts/2013-01-10/Function%5Ffor%5FReading%5FCodebooks%5Fin%5FR.html) e incluso menos para aplicar automáticamente los metadatos a los conjuntos de datos.
Se describen los aspectos básicos del codebookr y se muestra su uso en ejemplos de proyectos de investigación realizados en la Escuela de Salud Pública de la Universidad de Queensland.
Hace referencia a Fischetti, Tony. 2017. Assertr: Programación asertiva para canalizaciones de análisis de R. https://CRAN.R-project.org/package=assertr.
Jonge, Jonge de, y Mark van der Loo. 2013. "Introducción a la limpieza de datos con R". Informe técnico 201313. Estadísticas de Países Bajos. http://cran.vinastat.com/doc/contrib/de%5FJonge+van%5Fder%5FLoo-Introduction%5Fto%5Fdata%5Fcleaning%5Fwith%5FR.pdf.
Wickham, Hadley. 2014. "Datos ordenados". Diario del Software Estadístico 59 (10). http://www.jstatsoft.org/v59/i10/.
useR!2017: codebookr: Codebooks en *R*
Palabras clave: libro de código, diccionario de datos, limpieza de datos, validación, automatización
Páginas web: https://github.com/petebaker/codebookr, https://github.com/ropensci/auunconf/issues/46
codebookr es un paquete de R en desarrollo para automatizar la limpieza, comprobación y formato de datos mediante metadatos de codebooks o diccionarios de datos. Está dirigido principalmente a investigaciones epidemiológicas y estudios médicos, pero se puede utilizar fácilmente en otras áreas de investigación.
Los investigadores que recopilan datos primarios, secundarios o terciarios de los sistemas administrativos del gobierno o del gobierno y del hospital suelen tener una documentación de datos diferente y la limpieza de datos necesita a aquellos que extraen datos fuera de la web o recopilan datos internos para el análisis empresarial. Sin embargo, todos los estudios se beneficiarán del uso de codebooks que documenten exhaustivamente todas las variables de estudio, incluidas las variables derivadas. Los codebooks documenten formatos de datos, nombres de variables, etiquetas de variables, niveles de factor, intervalos válidos para variables continuas, detalles de los instrumentos de medición, etc.
Para consultores estadísticos, cada nuevo conjunto de datos tiene un nuevo libro de códigos. Aunque los estadísticos pueden obtener un libro de códigos o pdf copiado con foto, mi preferencia es una hoja de cálculo para que los metadatos se puedan usar directamente. Muchos analistas de datos están encantados de usar estos metadatos para codificar la sintaxis para leer, limpiar y comprobar los datos. Prefiero automatizar este proceso leyendo el código en R y, a continuación, usando los metadatos directamente para la comprobación de datos, limpieza y definiciones de nivel de factor.
Aunque hay un interés considerable en la limpieza y limpieza de datos (Jonge y Loo 2013; Wickham 2014; Fischetti 2017), parece haber pocas herramientas disponibles para leer los codebooks (consulte http://jason.bryer.org/posts/2013-01-10/Function%5Ffor%5FReading%5FCodebooks%5Fin%5FR.html) e incluso menos para aplicar automáticamente los metadatos a los conjuntos de datos.
Se describen los aspectos básicos del codebookr y se muestra su uso en ejemplos de proyectos de investigación realizados en la Escuela de Salud Pública de la Universidad de Queensland.
Hace referencia a Fischetti, Tony. 2017. Assertr: Programación asertiva para canalizaciones de análisis de R. https://CRAN.R-project.org/package=assertr.
Jonge, Jonge de, y Mark van der Loo. 2013. "Introducción a la limpieza de datos con R". Informe técnico 201313. Estadísticas de Países Bajos. http://cran.vinastat.com/doc/contrib/de%5FJonge+van%5Fder%5FLoo-Introduction%5Fto%5Fdata%5Fcleaning%5Fwith%5FR.pdf.
Wickham, Hadley. 2014. "Datos ordenados". Diario del Software Estadístico 59 (10). http://www.jstatsoft.org/v59/i10/.
¿Quiere hacer algún comentario? Comunique un problema aquí.