A preparação de dados pode ser uma das tarefas mais demoradas e repetitivas da sua semana de trabalho. Se você não fizer a limpeza, validação e consolidação de seus arquivos brutos da melhor forma possível, os dados corrompidos ficarão desordenados e seus insights não serão confiáveis.
De que forma você garante que este processo mantém os dados sujos à distância enquanto protege aqueles dos quais sua empresa depende?
É necessário vigilância e a força de um super-herói.
Pegue sua capa, escudo ou batarangue e certifique-se de que suas informações estejam à prova de balas. Estamos falando de erros de formatação, imprecisões e outliers. Estes seis passos contribuirão para dar a você uma estratégia incontestável para o preparo de dados.
1. A perspectiva de uma águia
do Gavião Arqueiro
Antes de começar a trabalhar intensamente com um novo conjunto de dados, uma boa ideia é tomar coragem e explorar o material bruto um pouco. Uma visão geneticamente modificada (como a do Gavião Arqueiro) pode ajudar, mas não é necessária. Comece com uma imagem mental do que é dispensável, mas mantenha a mente aberta e permita que os dados assumam o controle.
Dicas: exploração de dados
- Verifique os nomes das colunas e as descrições dos campos para ver se alguma anomalia salta aos olhos ou se alguma informação está ausente ou incompleta.
- Faça uma verificação de temperatura para ver se suas variáveis estão saudáveis: quantos valores exclusivos elas apresentam? Quais são os intervalos e os modos?
- Identifique quaisquer pontos atípicos que possam influenciar seus resultados. Você pode usar métodos visuais, como diagramas de caixa, histogramas ou diagramas de dispersão, ou abordagens numéricas, como pontuações z.
- Examine esses outliers. Você deve investigá-los, ajustá-los, omiti-los ou ignorá-los?
- Examine padrões e relações quanto à importância estatística.
2. Dados mais atualizados do que o reator do Homem de Ferro
Informações imprecisas e inconsistentes têm um preço alto: estudos revelam que dados danificados geram perdas milionárias na receita de uma empresa. Como esses erros podem ter um custo tão alto quanto um reator de paládio, para evitar grandes perdas, você precisará limpar seus dados até que eles fiquem incrivelmente brilhantes.
Dicas: limpeza de dados
- Livre-se de todos os registros duplicados que obstruem o espaço do servidor e distorcem a sua análise.
- Remova as linhas ou colunas irrelevantes que não afetarão o problema que você está tentando solucionar.
- Investigue e eventualmente remova informações incompletas.
- Elimine quaisquer anomalia indesejada encontrada durante a exploração dos dados.
- Repare os desvios estruturais, digitação, capitalização, abreviação, formatação e caracteres extras.
- Confirme se seu trabalho está preciso, completo e consistente, documentando todas as ferramentas e técnicas usadas.
3. Uma combinação mais forte do que os Vingadores
Quanto mais fontes de alta qualidade você incorporar na sua análise, mais profundos e ricos serão seus insights. Em geral, qualquer projeto exigirá seis ou mais fontes de dados, exigindo mais ferramentas que combinem informações para unificá-las perfeitamente. Basicamente, você precisa montar a melhor combinação de dados confiáveis e valiosos.
Dicas: combinação de dados
- Obter e preparar. Se você usa ferramentas avançadas em vez de tentar adaptar seus dados a uma planilha, poderá incluir praticamente qualquer tipo de arquivo ou estrutura relacionados ao problema que estiver tentando solucionar e converter imediatamente os conjuntos de informações em uma única estrutura comum. Pense em arquivos e documentos, plataformas em nuvem, PDFs, arquivos de texto, bots de RPA e ativos de aplicativos como ERP, CRM, ITSM e muito mais.
- Combinar. É nas planilhas que você exercita suas habilidades com o VLOOKUP. Mas cansa, não é mesmo? Se, em vez disso, você usar self-service analytics, o processo será apenas de arrastar e soltar.
- Validar. É importante analisar seus resultados para obter consistência e explorar quaisquer registros sem correspondência para conferir se mais tarefas de limpeza ou preparo de dados são necessárias.
4. O perfil de dados é o novo sentido aranha
O perfil de dados, primo da exploração de informações, requer uma análise mais minuciosa. Isso significa examinar um conjunto de dados especificamente pela sua relevância em um projeto ou aplicação em particular. Você deverá usar seus instintos e conhecimentos para descobrir se um conjunto deve ser usado — uma decisão importante que pode ter sérias consequências financeiras para sua empresa.
Dicas: perfil de dados
- Criar perfil da estrutura. Qual é o tamanho do conjunto de dados e que tipos de informações ele contém? A formatação é consistente, correta e compatível com o destino final?
- Criar perfil de conteúdo. Quais as informações fornecidas pelos dados? Existem lacunas ou desvios? É nesse estágio que você executará estatísticas de resumo em campos numéricos, buscará por valores nulos, vazios e isolados e procurará erros do sistema em termos de ortografia, abreviações ou IDs.
- Criar perfil de relação. Será que existem pontos de sobreposição ou estão desalinhados? Quais são as associações entre as diferentes fontes disponíveis? Exemplos podem ser fórmulas que conectam células ou tabelas que coletam informações regularmente de fontes externas. Identifique e descreva todas as relações e garanta que os dados serão preservados se você os transferir para um novo destino.
5. Construa sua base secreta
Com o enorme volume e a complexidade das fontes de dados disponíveis, é inevitável que você precise extraí-los, integrá-los e armazená-los em um local único e seguro que permita o acesso para consulta dos seus arquivos vitais sempre que necessário — uma espécie de base secreta (batcaverna?)
Dicas: extrair, transformar, carregar (ETL, na sigla em inglês)
- Extrair. Extraia todos os dados, estruturados ou não, de uma ou muitas fontes, e valide a qualidade deles. (Seja ainda mais detalhista se estiver extraindo de sistemas legados ou fontes externas.)
- Transformar. Faça uma limpeza profunda nesse ponto e verifique se a formatação atende aos requisitos técnicos do destino.
- Carregar. Grave os valores convertidos nos seus locais de armazenamento, geralmente, um data warehouse. Depois, faça uma amostragem e verifique eventuais desvios de qualidade nos dados.
6. Seja tão eficiente quanto o Laço da Verdade da Mulher Maravilha
O termo "data wrangling" é frequentemente usado de forma vaga em referência à "preparação de dados", mas na realidade diz respeito à elaboração que ocorre durante o processo de análise e criação de modelos preditivos. Embora você prepare adequadamente seus dados desde o início, assim que chegar à análise, provavelmente será necessário reuni-los (ou "envolvê-los") para garantir que seu modelo os consuma, em vez de expeli-los de volta.
Dicas: wrangling de dados
- Explorar. Se seu modelo não funcionar como você imaginou, é hora de se aprofundar novamente nos resultados para descobrir o motivo.
- Transformar. Desde o início, estruture os dados tendo seu modelo em mente. Se a orientação do seu conjunto de dados precisa ser dinâmica para fornecer a saída que você está buscando, será preciso gastar algum tempo na manipulação. Observação: o software de analytics automatizado pode fazer isso em uma única etapa.
- Limpe. Elimine os possíveis desvios detectados ou duplicados.
- Enriqueça. Adicione outras fontes, como dados externos confiáveis.
- Armazenar. A manipulação é um trabalho duro. Preserve seus processos para que possam ser reproduzidos no futuro.
Então é isso. Siga essas seis etapas para seus dados se tornarem mais rápidos que um avião e tenham segurança à prova de balas.
Ah! E se estiver cansado de VLOOKUPs e processos manuais, você vai gostar de testar a automação. Estamos nos referindo a superpoderes analíticos, a capacidade de acessar dados em qualquer formato e automatizar seus atuais processos de preparo por meio de uma plataforma de analytics automatizada e self-service.
Em nossa experiência, a automação da preparação funciona mais ou menos assim:
- Salve o dia o mais rápido possível: a mudança para uma plataforma automatizada quase sempre produz um retorno mensurável em questão de dias ou semanas.
- Combate ao crime eficiente e em tempo integral: a automação altera completamente o foco do seu dia de trabalho — das tarefas manuais e repetitivas para as criativas. E você nunca mais precisará solucionar o mesmo problema duas vezes.
- Obtenha um assistente...ou quatro: ao eliminar a necessidade de guardiões de dados, você poderá engajar toda a organização. Colaboradores de todos os níveis poderão descobrir técnicas inovadoras para ampliar suas próprias capacidades.
Guia de estratégia de preparo de dados
É uma transformação tão profunda - um outro universo, na verdade - e temos nome para ela: Analytic Process Automation (APA).
Saiba mais sobre a plataforma APA e sobre como ela oferece a você superpoderes analíticos.
Quer mais?
LEIA
Descubra como é fácil adotar uma abordagem de analytics moderna em Um guia radical para o domínio da análise de dados.
EXPERIMENTE
Acelere seu conhecimento analítico com o Kit de início de combinação de dados da Alteryx.