Como gerente de sucesso do cliente na Alteryx, passo a maior parte do tempo ajudando nossos clientes a transformar big data bruto em insights de negócio. Nesses projetos de manipulação de dados, é tentador ir direto aos problemas mais interessantes. Porém, a fim de gerar os resultados mais precisos, devemos primeiro executar um conjunto de validações básicas da qualidade dos dados.
Chamamos essas validações iniciais da qualidade dos dados de "verificações de integridade".
As verificações de integridade são uma parte importante (embora muitas vezes negligenciada) do processo de analytics. Assim como tudo relacionado a analytics e IA, a precisão da sua análise final depende dos dados. Por isso, vale a pena dedicar alguns minutos para validar a precisão e a integridade deles. Um breve teste de integridade conta muito para uma análise precisa.
Na Alteryx, acreditamos tanto na verificação de integridade que incorporamos uma robusta ferramenta de criação de perfis nos nossos produtos e funcionalidades. Continue lendo para saber como eu uso o Designer Cloud para realizar quatro importantes checagens de integridade ao manusear dados para os projetos dos clientes.
1. Pegue uma amostra aleatória dos dados.
Por que esse teste de sanidade é útil na validação dos dados
Muitas vezes, os conjuntos de dados com os quais trabalho são grandes demais para serem avaliados como uma fonte completa. Analisar apenas uma amostra consecutiva desses dados — as primeiras 1.000 linhas, por exemplo — pode me dar uma compreensão incompleta do conteúdo deles. Ao gerar uma amostra aleatória de todo o conjunto de dados, tenho uma visão mais precisa de todo o conjunto.
O Alteryx Designer Cloud alterna entre uma amostra das primeiras linhas de um conjunto de dados e uma amostra aleatória do conjunto completo.
Verificação de sanidade e manuseio de dados na vida real
Na semana passada, mostrei a um cliente como organizar os dados para um conjunto de logs gerados por máquina que continha informações sobre o uso do produto. Como cada produto enviava regularmente os dados de log, o volume de dados era enorme — milhares de arquivos de log individuais, cada um com cerca de 2 GB. Por causa disso, seria difícil examinar o conjunto de dados completo de uma só vez.
Após carregar os dados no Designer Cloud, decidimos comparar a amostra da primeira linha com a amostra aleatória para validar que a estrutura dos logs se mantinha consistente em todo o conjunto. Vimos que o número de categorias, ou cadeias exclusivas, aumentou quando mudamos para a amostra aleatória. Aprofundamos um pouco mais a validação dos dados e notamos o seguinte:
Às vezes, uma das colunas continha uma matriz a mais de valores! Para garantir que os dados fossem corretamente estruturados, precisávamos extrair essa matriz para uma nova coluna. Foi a análise da amostra aleatória dos dados durante o teste de integridade revelou esse problema. E isso nos permitiu tomar medidas para resolvê-lo.
2. Procure incompatibilidades nos tipos de dado, variações na forma como os valores são inseridos e valores ausentes.
Por que esse teste de sanidade é útil na validação dos dados
A análise efetiva dos dados nas etapas seguintes exige consistência. Não é fácil entender as relações entre eventos se alguns deles tiverem datas formatadas como aaaa/MM/dd e outros tiverem datas formatadas como dd/MM/aaaa. Da mesma forma, alguns sistemas guardam os preços em cadeias de caracteres (US$ 1.000) e outros em decimais (1000,00).
Como funciona a validação dos dados no Designer Cloud
O Designer Cloud faz automaticamente o perfil dos seus dados e gera informações sobre o número de valores válidos, ausentes e incompatíveis em cada coluna. Os resultados desse perfil aparecem na barra de qualidade dos dados, acima de cada coluna do conjunto de dados.
3. Procure registros duplicados e outliers.
Por que esse teste de sanidade é útil na validação dos dados
Tanto os registros duplicados quanto os outliers podem distorcer minha análise. Portanto, preciso avaliar a qualidade geral do conjunto de dados e determinar se ele contém algum registro duplicado ou outlier.
Como funciona a validação dos dados no Designer Cloud
Ao trabalhar com seus dados no Designer Cloud, é possível mudar para a tela de detalhes da coluna, que mostra um resumo das estatísticas de alto nível sobre o conteúdo de cada coluna no conjunto de dados.
Um dos nossos conjuntos de dados de demonstração contém uma coluna com a pontuação média da satisfação dos agentes de atendimento ao cliente. A tela de detalhes da coluna mostra um resumo das estatísticas dos dados, incluindo o número de valores exclusivos na coluna e possíveis outliers. Nosso conjunto de dados de demonstração apresenta alguns valores outliers. Identificados esses outliers, posso decidir se devo ou não os excluir da minha análise.
Verificação de sanidade e manuseio de dados na vida real
Um dos nossos clientes estava desenvolvendo um painel de previsão do inventário que coletava dados de vários varejistas. Nesse processo é crucial garantir que os dados usados no painel sejam precisos, principalmente porque quaisquer dados finais imprecisos ou duplicados podem ter impacto direto nos resultados financeiros dos nossos clientes.
Testamos a integridade no início do processo de coleta de dados e descobrimos que vários registros duplicados haviam se infiltrado nos dados de origem. Conseguimos resolver o problema e criamos uma previsão altamente precisa do inventário para a alta gerência usar ao colaborar nas campanhas promocionais com os clientes de varejo.
4. Avalie a distribuição dos dados em cada coluna.
Por que esse teste de sanidade é útil na validação dos dados
Às vezes, os dados de uma coluna parecem bons à primeira vista — sem incompatibilidades óbvias nos tipos de dado, registros duplicados, outliers nem valores nulos. Mas, ao observar a distribuição dos dados na coluna, você nota lacunas ou uma distribuição de valores que não faz sentido. A distribuição estranha dos dados pode indicar um problema maior de qualidade que precisa ser investigado: talvez alguns pontos de dado não tenham sido registrados, ou os dados não foram codificados corretamente.
Como funciona a validação dos dados no Designer Cloud
A tela de detalhes da coluna (mencionada anteriormente) mostra um histograma detalhado das distribuições dos valores, bem como um resumo das estatísticas, como o desvio-padrão, a mediana e a média dos valores em cada coluna. Para validar rapidamente a distribuição dos dados sem abrir a tela de detalhes da coluna, você também pode ver os pequenos histogramas que aparecem acima dos dados.
Verificação de sanidade e manuseio de dados na vida real
Recentemente, trabalhei em um projeto que usava dados brutos de interações para melhorar a experiência em um dos sites do nosso cliente. Estávamos manuseando um conjunto de logs de visitas ao site. À primeira vista, os carimbos de data/hora de cada visita ao site pareciam válidos. No entanto, fazendo uma verificação básica da integridade desses dados e avaliando a distribuição dos valores, notamos que a maioria das visitas ao site ocorria entre a meia-noite e as 3 horas da manhã. Como era improvável que a maioria dos visitantes do site realizasse suas tarefas online de madrugada, havia claramente um problema com os dados!
Investigamos o processo que nos fornecia os weblogs e descobrimos que o sistema nas etapas prévias estava truncando todos os zeros finais que apareciam nos carimbos de data/hora. Ou seja: um carimbo que deveria ser "175400" (17:54.00) aparecia como "1754" (00:17.54). Após ajustarmos os dados para resolver o truncamento dos zeros à direita, a distribuição dos dados ficou muito mais razoável.
Resumindo:
Nosso portal de suporte conta com artigos, vídeos e um fórum para você enfrentar os desafios de manuseio dos dados, por exemplo, como ver dados incompatíveis etc. Para aplicar os testes de sanidade na validação dos dados, inicie hoje mesmo uma avaliação gratuita do Alteryx Designer!