Para muchas organizaciones, los datos representan una abrumadora cantidad de información. Es un desorden tan caótico que es imposible lograr obtener algún beneficio de ellos. Con la ingeniería de características, las organizaciones pueden comprender sus datos y convertirlos en algo beneficioso.
El término “ingeniería de características” se refiere al proceso de aplicación de conocimientos de dominio a los datos mediante la generación de características que transforman los datos para facilitar su comprensión e interpretación. Por lo general, ocurre después del proceso de recopilación y limpieza de datos y antes de entrenar modelos de aprendizaje automático.
La ingeniería de características a menudo forma parte del flujo de trabajo de solución de problemas de ML:
- Recopilar datos
- Realizarles una limpieza
- Aplicar la ingeniería de características
- Definir el modelo
- Entrenar el modelo
- Realizar pruebas
- Predecir el resultado
La mayor parte de la información utilizada por la inteligencia artificial (IA) se encuentra en las tablas. Cada fila es una observación y cada columna es una característica. Lamentablemente, los datos a menudo son complicados, irrelevantes, faltantes o duplicados.
La ingeniería de características proporciona un proceso para transformar los datos en un formato que represente mejor el problema subyacente. Para ello, hace que los datos sean más digeribles colocándolos en categorías para reflejar mejor un conjunto limitado de resultados o reemplazando sistemáticamente los valores faltantes con estimaciones adecuadas.
Este proceso de transformación de datos con ingeniería de características suele ser tanto arte como ciencia. Por ejemplo, una empresa puede querer predecir casos de fraude. Las transacciones con marca temporal sin procesar se pueden ingresar en el software de IA, pero es posible que el resultado no sea significativo ni accionable. Sin embargo, un poco de experiencia en el dominio ayuda al científico de datos. El científico, con su conocimiento sobre comercio minorista, crea una nueva característica que diferencia entre la semana de trabajo y los fines de semana, ya que siempre hay aumentos en las actividades minoristas durante el fin de semana. Una vez que el contexto se establece manualmente, los modelos son más capaces de detectar anomalías, con menos falsos positivos. Ese es el “arte” de la ingeniería de características.
Si se aplica correctamente, la ingeniería de características amplifica la potencia predictiva de los algoritmos de aprendizaje automático (ML). Logra esto mediante la personalización de características de datos sin procesar que alimentan y facilitan el proceso de ML. Puede ser el diferenciador entre un buen modelo de datos y uno deficiente.
Si se desglosa aún más, la parte de ingeniería de características incluye los siguientes pasos:
- Realizar una lluvia de ideas sobre las características nuevas y posibles del modelo
- Crear características
- Probar cómo estas características funcionan eficazmente con el modelo
- Modificar las características, repetirlas o volver al diseño según sea necesario
- Obtener las características para que funcionen sin problemas con el modelo
La ingeniería de características no se debe considerar como un paso único. Se puede utilizar durante todo el proceso de ciencia de datos para limpiar datos o mejorar los resultados existentes. La ingeniería de características es un proceso iterativo entrelazado entre la selección de datos, la evaluación del modelo y la reevaluación. El proceso continúa hasta que los datos se encuentran en un formato que es procesable por los modelos de ML y permite que esos modelos puedan generar resultados accionables.
Ejemplos de ingeniería de características para el aprendizaje automático
Los algoritmos de ML aprenden soluciones a problemas específicos utilizando los datos de muestra que se le presentan. La ingeniería de características ayuda a una organización a disponer la mejor representación de sus datos de muestra para darle al modelo la oportunidad de aprender la solución a cualquier problema específico.
En la ingeniería de características, la representación y las relaciones importan, y hay cuatro estrategias de ingeniería comunes:
– Remuestrear los datos desequilibrados
– Crear nuevas características
– Administrar valores faltantes
– Detectar valores atípicos
Remuestrear los datos desequilibrados
En su forma sin procesar, los datos suelen estar desequilibrados. La mayoría de las veces esto se puede resolver fácilmente con técnicas de validación. Sin embargo, a veces el desequilibrio puede ser grande, lo que afecta los resultados. La ingeniería de características puede resolver esto mediante la generación artificial de muestras en los grupos minoritarios. Estas muestras se pueden utilizar para ayudar a abordar la variabilidad o incertidumbre en los datos.
Crear nuevas características
Crear nuevas características puede ser solo reafirmar datos en un formato diferente para que coincidan con el contexto de la pregunta. Por ejemplo, una empresa puede tener los horarios de salida y llegada de los trenes, y convertirlos en tiempo total de viaje. La combinación de las marcas temporales en una nueva característica permite que el algoritmo se ajuste a las necesidades de la empresa y produzca más resultados accionables.
Los usuarios también pueden combinar dos características moderadamente útiles o dos características que no son útiles por sí mismas para crear una característica que fomente un mejor aprendizaje automático. Un ejemplo de esto se da en el sistema de salud, donde hay una variedad de factores de riesgo, pero, por sí mismos, no indican una probabilidad de un evento médico. Por ejemplo, la edad, la hipertensión y ser fumador individualmente no predicen tener un accidente cerebrovascular, pero los tres factores juntos sí lo hacen.
La selección de características se trata simplemente de elegir las características independientes adecuadas que más se correlacionan con la característica dependiente. Todas estas cosas se combinan para hacer el mejor modelo predictivo posible. Los mapas de calor, la selección univariante y el método de clasificador de árboles adicionales son todos métodos probados y comprobados para identificar las características que están relacionadas adecuadamente.
La ingeniería de características también ayuda a elegir qué buckets crear para que la máquina pueda asignar con precisión los datos relevantes al bucket correcto. Esto incluye quitar características y ruido no deseados para que el modelo funcione con mayor fluidez.
Administrar valores faltantes
Los valores faltantes son un problema frecuente en los datos, pero hay muchos métodos para resolverlos adecuadamente durante el proceso de limpieza de datos.
También existen varias técnicas avanzadas de ingeniería que pueden utilizar los datos existentes para recrear con precisión los valores faltantes y completar el conjunto de datos, lo que garantiza que los datos se encuentren en una forma que los modelos puedan utilizar mejor.
Un método es la eliminación de datos. Con este método, los ingenieros de características pueden quitar las muestras que tienen valores faltantes. Esto funciona mejor cuando solo algunas muestras están incompletas. Cuantos más valores faltantes contenga un conjunto de datos, más problemático se vuelve este método.
Otra técnica consiste en reemplazar los datos faltantes por una variable de la media o mediana. Si bien este método resuelve el problema de los datos faltantes, puede sesgar los resultados. Si los datos tienen una distribución gaussiana, entonces se podrían imputar los resultados faltantes (un modelo dentro de un modelo) para que coincidan con la distribución normal.
Estos son los dos métodos principales. Si bien existen otros métodos que se pueden utilizar para administrar los valores faltantes, el enfoque general es quitar datos o ingresar valores estimados.
Detectar valores atípicos
Detectar valores atípicos es otro proceso que cruza la barrera de limpieza/ingeniería. En el paso de limpieza de datos, la IA simplemente puede quitar los valores atípicos, lo que sugiere que son errores o una muestra que no es relevante para los datos. Sin embargo, es una herramienta categórica y podría perder información esencial.
En la ciencia de datos, los factores clave que influyen en el rendimiento de un modelo son el manejo de datos y el procesamiento de datos. Un modelo sin el manejo adecuado de los datos da como resultado una precisión de aproximadamente el 70 %. Cuando se aplica la ingeniería de características al mismo modelo, el rendimiento puede mejorar considerablemente.
Sin embargo, aún se necesita una buena comprensión de los datos para la ingeniería de características, ya que permite que un científico de datos especifique los umbrales en los que los datos aún son lógicos. Por ejemplo, un negocio puede tener un cliente de 100 años, pero definitivamente no de 1000 años. Una máquina puede ignorar ambos puntos de datos, mientras que un científico de datos sabe que el cero adicional es probablemente un error de entrada.
Esta parte del proceso de ingeniería de características puede ser larga, frustrante y basarse en la habilidad y el conocimiento de dominio de un científico de datos. Es por esto que cierta ingeniería de características de visualización en ML es esencialmente una forma de arte.
Ventajas de la ingeniería de características
Como se sabe, los modelos de IA y ML son solo el reflejo de los datos que reciben. La inclusión de ingeniería de características en el proceso de modelado puede garantizar que los modelos de calidad y relevancia reciban ayuda para resolver problemas del mundo real. Pero hay dos cosas importantes que debes tener en cuenta a medida que avanzas:
- Encuadrar correctamente el problema: usa las medidas objetivas correctas para estimar la exactitud del resultado
- Interdependencias dentro del modelo: las estructuras inherentes y subyacentes en los datos de la organización. Una buena estructura siempre proporciona resultados mucho mejores.
Una vez que se consideran estas cosas al seleccionar o diseñar características, las ventajas de la ingeniería de características incluyen lo siguiente:
- Más flexibilidad y menos complejidad en los modelos
- Procesamiento más rápido
- Modelos claros y fáciles de entender
- Modelos más simples que son más fáciles de mantener
- Una mejor comprensión del problema subyacente
- Mejor representación de todos los datos disponibles que es útil para caracterizar el problema subyacente
Desafíos de la ingeniería de características
A menudo, los datos están desordenados y no están estructurados, contienen valores atípicos, redundancias y valores faltantes. Como los datos provienen de varias fuentes, es un hecho que haya redundancia y datos duplicados. Dado que los datos son el punto de partida para el ML, esto genera los siguientes desafíos para la ingeniería de características:
- Grandes cantidades de datos de varias fuentes que se deben limpiar, agregar y analizar
- Los datos se deben organizar en una estructura reconocible con la que los modelos y las herramientas puedan trabajar
- El contexto y los procesos empresariales deben entenderse para discernir patrones y facilitar el análisis
- Los insights determinados deben ser relevantes y realizables para la organización
- Los datos se deben presentar de una manera que sea fácil de entender para las personas, como paneles de control o gráficos
- La puntualidad puede ser un problema, con resultados que toman tanto tiempo que los resultados ya no son aplicables
- Los procesos requieren mucho trabajo y, a menudo, los debe completar un científico de datos
El futuro de la ingeniería de características
Las tecnologías modernas están mejorando el rendimiento de la ingeniería de características. El aprendizaje profundo como un subconjunto del ML está comenzando a remodelar el proceso. Los codificadores automáticos y las máquinas Boltzmann restringidas están demostrando ser prometedores al aprender automáticamente representaciones de características abstractas.
Cuanto más “piensen” las computadoras como los seres humanos, más útil será su ingeniería de características. Tomar tareas manuales muy demandantes de los científicos de datos y asignarlas a las máquinas elimina las limitaciones de costo y tiempo. Esto significa que las máquinas pronto podrían interpretar con precisión los formularios de datos, como imágenes, videos, objetos y voz, que la IA tradicional que se basa en tablas no entiende fácilmente.
Los nuevos modelos de ML ofrecen cada vez más procesos de pensamiento de tipo humano, un mejor análisis de características y una mayor precisión del modelo.
Pero por ahora, el campo sigue dependiendo de los científicos de datos. Las mejores interpretaciones de los datos no solo requieren el conocimiento de la ciencia de datos, sino también del conocimiento de la industria o del dominio, lo que convierte a este subconjunto de IA en un campo especializado. La interpretación de los datos es vital para las organizaciones que desean predicciones precisas, y esta es la mejor forma de obtener resultados válidos.
¿Tu organización necesita predicciones más exactas?
El paquete de aprendizaje automático de Alteryx ofrece una síntesis de característica profunda. Esto ayuda a crear modelos más precisos mediante la comprensión de las relaciones dentro de tus datos y la detección de características de alta calidad.
Estos algoritmos brindan una mejora para las organizaciones que necesitan modelos y predicciones precisos, lo que permite explicaciones, toma de decisiones y planes futuros mejores.
Siguiente término
AutoMLRecursos relacionados
Historia de cliente
Protected: Saving Over 75 Hours Day with Automated Forecasting
- Preparación de datos y analítica
- Ciencia de datos y aprendizaje automático
- Automatización de procesos
Historia de cliente
Protected: AAA National Helps Clubs Provide Better Service with Alteryx
- Preparación de datos y analítica
- Ciencia de datos y aprendizaje automático
- Líder de analítica