Cuatro pasos clave para hacer un sanity check de los datos

Estrategia   |   Alteryx   |   17 de noviembre de 2021 TIEMPO DE LECTURA: 7 MIN
TIEMPO DE LECTURA: 7 MIN

Como customer success manager de Alteryx, dedico la mayor parte del tiempo a ayudar a nuestros clientes a convertir su big data sin procesar en insights de negocios. En estos proyectos de data wrangling, es tentador pasar directamente a los problemas más interesantes, pero para producir los resultados más precisos, debemos empezar por llevar a cabo un conjunto de validaciones básicas de calidad de datos.

Podemos llamar a estas validaciones iniciales de calidad de datos “sanity checks”.

Hacer sanity checks es una parte importante (y muchas veces olvidada) del proceso de analítica. Al igual que sucede con todo lo que tiene que ver con la analítica y la IA, tu análisis final será tan preciso como tus datos, lo que significa que es más que aconsejable dedicar unos minutos a validar que tus datos sean precisos y estén completos. Un sanity test rápido ayuda mucho para tener un análisis preciso.

En Alteryx, creemos tanto en los sanity checks que incorporamos una característica de perfilado robusta en nuestros productos y funcionalidades. Continúa leyendo para ver cómo uso Designer Cloud para llevar a cabo los cuatro sanity checks clave mientras organizo datos para proyectos de clientes.

1. Toma una muestra aleatoria de los datos.

Por qué este sanity test es útil para la validación de datos

Muchas veces, los conjuntos de datos con los que trabajo son demasiado grandes como para evaluarlos fácilmente como una fuente completa. Mirar solamente una muestra consecutiva de esos datos, por ejemplo, las primeras 1000 filas, puede darme una idea incompleta del contenido de un conjunto de datos. Al generar una muestra aleatoria sobre la totalidad del conjunto de datos, obtengo una imagen más precisa de todo el conjunto de datos.

Alteryx Designer Cloud me permite cambiar entre una muestra de las primeras filas de un conjunto de datos y una muestra aleatoria de todo el conjunto de datos.

Sanity checks y data wrangling en la vida real

La semana pasada, le mostraba a un cliente cómo organizar los datos para un conjunto de registros generados por máquinas que contenían información de uso del producto. Como cada producto enviaba datos de registros en forma periódica, el volumen de datos era enorme, había miles de archivos de registros individuales, cada uno con un tamaño aproximado de 2 GB. Esto significaba que no podíamos examinar fácilmente el conjunto de datos completo de una sola vez.

Después de cargar los datos en Designer Cloud, decidimos comparar la muestra de la primera fila con la muestra aleatoria para validar que la estructura de los registros permaneciera constante en todo el conjunto de datos. Descubrimos que la cantidad de categorías, o cadenas únicas, aumentaba cuando cambiábamos a una muestra aleatoria. Analizamos un poco más nuestra validación de datos y vimos lo siguiente:

¡Una de nuestras columnas a veces contenía una variedad de valores adicionales! Para asegurarnos de que los datos se estructuraran correctamente, necesitábamos extraer esta variedad en una nueva columna. Examinar una muestra aleatoria de nuestros datos durante un sanity test nos permitió revelar este problema de calidad de los datos y tomar medidas para abordarlo.

2. Verifica si hay discrepancias en los tipos de datos, variaciones en cómo se introdujeron los valores y valores faltantes.

Por qué este sanity test es útil para la validación de datos

Un análisis de datos descendente eficaz requiere consistencia. No puedes entender fácilmente las relaciones entre eventos si algunos de ellos tienen fechas con formato yyyy/MM/dd y otros tienen fechas con formato dd/MM/yyyy. De manera similar, algunos sistemas pueden guardar los precios en cadenas ($1000), mientras que otros los guardan en decimales (1000.00).

Cómo funciona la validación de datos en Designer Cloud 

Designer Cloud perfila tus datos automáticamente y proporciona información sobre la cantidad de valores válidos, faltantes y no coincidentes en cada columna. Los resultados de este perfilado se muestran en la barra de calidad de datos que está arriba de cada columna en el conjunto de datos.

3. Busca registros duplicados y valores atípicos.

Por qué este sanity test es útil para la validación de datos

Tanto los registros duplicados como los valores atípicos pueden distorsionar mi análisis, por lo que necesito evaluar la calidad general del conjunto de datos y determinar si contiene registros duplicados o valores atípicos.

Cómo funciona la validación de datos en Designer Cloud

Cuando trabajas con tus datos en Designer Cloud, puedes cambiar a la vista de detalles de columna, que muestra estadísticas de resumen de alto nivel sobre los contenidos de cada columna de tu conjunto de datos.

Uno de nuestros conjuntos de datos de muestra contiene una columna con las puntuaciones de satisfacción promedio para los agentes de atención al cliente. En la vista de detalles de columna, podemos ver rápidamente estadísticas de resumen sobre los datos, incluida la cantidad de valores únicos en la columna y otros valores atípicos. Nuestro conjunto de datos de muestra contiene algunos valores atípicos. Después de identificarlos, puedo tomar la decisión de si quiero o no excluirlos de mi análisis.

Sanity checks y data wrangling en la vida real

Uno de nuestros clientes había estado creando un panel de control de previsión de inventario que organizaba los datos de varios comercios minoristas. Asegurarse de que los datos usados en el panel de control sean precisos es fundamental, en especial porque los datos imprecisos o duplicados en el panel de control final podrían tener un impacto directo en los beneficios netos de nuestro cliente.

Llevamos a cabo sanity tests al comienzo de cada proceso de data wrangling y descubrimos que una cantidad de registros duplicados había invadido los datos fuente. Pudimos resolver este problema y crear una previsión de inventario muy exacta para que usaran los altos mandos cuando colaboraran en las campañas promocionales con sus clientes de venta minorista.

4. Evalúa la distribución de los datos para cada columna.

Por qué este sanity test es útil para la validación de datos

A veces, los datos de una columna pueden verse bien en la superficie —no hay discrepancias obvias en los tipos de datos, registros duplicados, valores atípicos ni valores nulos— pero si examinas la distribución de los datos en la columna, verás intervalos o una distribución de valores que no tienen lógica. Una distribución de datos extraña puede indicar que hay un problema más grande de calidad de datos que debes investigar: tal vez algunos puntos de datos no se registraron o los datos no se codificaron correctamente.

Cómo funciona la validación de datos en Designer Cloud

La vista de detalles de la columna (de la que hablamos antes) te muestra un histograma detallado de las distribuciones de valores y estadísticas de resumen como la desviación estándar, media y el promedio de los valores en cada columna. Si quieres validar rápidamente la distribución de datos sin abrir la vista de detalles de columna, también puedes mirar los histogramas pequeños que se muestran arriba de tus datos.

Sanity checks y data wrangling en la vida real

Recientemente, estuve trabajando en un proyecto que usaba datos de interacción sin procesar para mejorar la experiencia en uno de los sitios web de un cliente. Estábamos organizando un conjunto de registros de visitas al sitio web. A primera vista, las marcas de fecha/hora para cada visita al sitio web parecían válidas. Sin embargo, cuando ejecutamos un sanity check básico en esos datos y evaluamos la distribución de los valores, observamos que la mayoría de las visitas al sitio web habían sido entre la medianoche y las 3 a. m. Como parecía poco probable que la mayoría de los visitantes del sitio web llevara a cabo sus tareas en línea en medio de la noche, quedaba claro que había un problema con los datos.

Investigamos el proceso que nos proporcionaba los registros web y descubrimos que el sistema ascendente truncaba los ceros finales que aparecían en las marcas de hora. Por lo tanto, una marca de hora que, en realidad, era “175400” (17:54.00) aparecía como “1754" (00:17.54). Una vez que ajustamos los datos para tener en cuenta los ceros finales faltantes, la distribución de datos se vio mucho más razonable.

Conclusión:

En nuestro portal de soporte encontrarás artículos, videos y un foro para ayudarte a superar desafíos de data wrangling, por ejemplo, cómo ver datos no coincidentes. Para comenzar con los sanity tests para la validación de datos,  regístrate para una prueba gratis de Alteryx Designer  hoy mismo.