¿Qué es un catálogo de datos?
Un catálogo de datos ayuda a una organización a crear un inventario integral de todos sus activos de datos distribuidos en varios sistemas y proyectos. A menudo, las organizaciones tienen sus datos distribuidos en varias bases de datos relacionales, almacenes de datos, bases de datos operativas y sistemas heredados. Un catálogo de datos proporciona una solución eficiente para los requisitos de descubrimiento, analítica y cumplimiento de datos de una organización.
En 2020, Seagate realizó un estudio de la industria que reveló que el 43 % de los datos que las organizaciones recopilan no se utilizan de manera eficaz. ¿Por qué ocurre esto? Los activos de datos de una organización a menudo residen en silos. Solo unos pocos equipos tienen el conocimiento para descubrir y analizar estos activos de datos. El verdadero problema no es la escasez de datos, sino la falta de un sistema inteligente para organizar y presentar los datos. Un catálogo de datos proporciona una solución eficaz, ya que recopila los metadatos asociados con los activos de datos.
Aplicación de metadatos a la base de un catálogo de datos
La herramienta Generación de catálogos de datos rastrea todos los repositorios de datos de una organización y recopila metadatos. Los metadatos son la información que acompaña a los datos reales. Describe y anota los conjuntos de datos. La herramienta Generación de catálogos de datos automáticamente reúne metadatos, entiende la semántica de los datos y deduce las conexiones de datos. Un conjunto de datos tiene diferentes tipos de metadatos asociados. Definen varios aspectos de los datos, tales como:
- La fuente o el proveedor del conjunto de datos
- El contenido del conjunto de datos
- El significado de las tablas y columnas
- Dónde se almacenan los datos y quién puede acceder a ellos
- El historial y el linaje del conjunto de datos
- La confiabilidad del conjunto de datos
En función del aspecto que describen, los metadatos se pueden dividir en tres amplios grupos: metadatos técnicos, metadatos del proceso y metadatos empresariales. Un catálogo de datos utiliza todos estos tipos de metadatos para crear una vista unificada de los activos de datos.
- Los metadatos técnicos describen la estructura de un conjunto de datos, por lo que también se denominan metadatos estructurales. Los nombres y las descripciones de las tablas de datos se encuentran en metadatos técnicos. También describen las columnas de una tabla de datos y la lógica empresarial que se utiliza para computarlas. Los metadatos técnicos son útiles para el descubrimiento de datos.
- Los metadatos del proceso comprenden el linaje de un conjunto de datos. Proporcionan insights acerca de la fuente o el creador de los activos de datos y la hora de creación. Registran la información de uso: quién ha utilizado un conjunto de datos en el pasado y en qué momento. Los metadatos del proceso permiten que los analistas de datos determinen si los datos son recientes y confiables. Los metadatos del proceso también se conocen como metadatos administrativos.
- Los metadatos empresariales son particularmente útiles cuando una organización necesita tomar una decisión basada en datos. Describen la calidad y confiabilidad de un conjunto de datos. También muestran si los datos están certificados.
Los activos de datos de una organización pueden tener metadatos valiosos asociados a ellos, pero es necesario recopilar, analizar y deducir estos metadatos para obtener valor de ellos. Esta es la función principal de un catálogo de datos. Junto con la recopilación automatizada de metadatos, la herramienta Generación de catálogos de datos también permite la colaboración masiva de metadatos: un proceso mediante el cual los stakeholders agregan metadatos manualmente. También facilita la organización de los datos a través de la cual el propietario de los datos puede enriquecer el conjunto de datos agregando consejos de uso.
Funciones principales de un catálogo de datos
Descubrimiento de datos
En muchas organizaciones, los datos residen en silos y solo unos pocos equipos saben sobre su existencia. Los silos limitan la capacidad de los usuarios de encontrar datos que puedan facilitar una mejor toma de decisiones. Los analistas de datos podrían terminar creando nuevos conjuntos de datos o depender de datos parciales o poco confiables.
Un catálogo de datos resuelve este problema, ya que proporciona una vista unificada de todos los activos de datos de una organización. La mayoría de los catálogos de datos ofrece una interfaz de usuario similar a un motor de búsqueda en la que los usuarios solo necesitan escribir las palabras clave de los datos que desean buscar. Luego, el catálogo de datos recuperará una lista de activos de datos que coincidan con la palabra clave y los filtros de búsqueda. Los catálogos de datos también pueden proporcionar interfaces programables de aplicaciones (API) para automatizar el descubrimiento de datos.
Asimilación de datos
Además del descubrimiento de datos, los catálogos de datos ayudan a los usuarios a comprender mejor los datos. A través de los metadatos técnicos, un catálogo de datos proporciona una descripción completa del conjunto de datos. Esto significa que un usuario obtiene insights detallados sobre el significado de un conjunto de datos y su lógica empresarial.
Evaluación de la calidad de datos
Los catálogos de datos cotejan los metadatos del proceso y empresariales para facilitar la evaluación de la calidad de los datos. Con base en el historial y el linaje del conjunto de datos, los usuarios pueden decidir si los datos son nuevos y confiables. Los catálogos de datos permiten la colaboración masiva de metadatos y la organización manual de datos, lo que mejora aún más la calidad de un conjunto de datos. Un catálogo de datos evoluciona continuamente incorporando reseñas y consejos de los usuarios. Por lo tanto, un catálogo de datos ayuda a una organización a generar confianza en sus activos de datos.
Adquisición de datos
Una vez que los usuarios descubren un conjunto de datos confiable, es posible que deseen obtenerlo para la analítica. Los catálogos de datos a menudo hacen que sea fácil acceder a los datos e integrarlos para su uso en el análisis. En los catálogos de datos avanzados, esto es tan fácil como presionar un botón, lo que permite el acceso a los datos en la herramienta deseada o para su descarga. El acceso más rápido a los datos puede, en última instancia, acortar el tiempo para obtener insights para la toma de decisiones. Un catálogo de datos estandariza el procedimiento de adquisición de datos.
¿Por qué las organizaciones necesitan un catálogo de datos?
Aumento explosivo en el volumen de datos
Es probable que una organización genere o recopile enormes cantidades de datos. El enorme volumen y la distribución compleja de los activos de datos hacen que sea muy difícil incluso saber si existen los datos adecuados necesarios para el análisis. La falta de visibilidad de los recursos de datos en toda la empresa dificulta el uso de esos datos para tomar decisiones fundamentadas. Además, el aumento explosivo de datos hace que sea más difícil encontrar datos confiables. Como resultado, los empleados podrían no tener datos o depender de datos parciales o poco confiables, ya que es difícil llegar a los datos correctos. Esto provoca la subutilización de los activos de datos. Un catálogo de datos ayuda a la organización a descubrir datos de alta calidad, sin importar dónde residan.
Regulaciones de datos y necesidades de gobernanza
Cuando una organización posee enormes volúmenes de datos, resulta difícil controlarlos y protegerlos. Se pueden provocar fugas involuntarias de datos. Con estrictas regulaciones de protección de datos, como el Reglamento General de Protección de datos (RGPD), las organizaciones deben garantizar que solo las personas correctas tengan acceso a la cantidad adecuada de datos. Un catálogo de datos ayuda a controlar el acceso a los datos y facilita la gobernanza de estos. Con un catálogo de datos, las empresas pueden implementar controles sólidos para garantizar la visibilidad y los permisos adecuados en torno a los recursos de datos. También ayuda a los encargados del cumplimiento a descubrir posibles problemas de seguridad de un conjunto de datos.
Decisiones mejores y más rápidas
Un catálogo de datos recopila información sobre el linaje de los datos. La información del linaje incluye el origen y el historial de uso de los datos. Los catálogos de datos también permiten la organización manual de los activos de datos a través de calificaciones y reseñas. Los administradores de datos también pueden agregar consejos y trucos para utilizar el conjunto de datos de manera eficaz. Un catálogo de datos ayuda a los encargados de la toma de decisiones en una organización a tomar decisiones bien fundamentadas respaldadas por datos confiables y de alta calidad.
Descentralización de la administración de datos
Los catálogos de datos aportan información sobre un cambio cultural en la administración de datos. A menudo, algunos equipos, incluidos los de analistas de datos, científicos y TI, administran y organizan datos. El catálogo de datos convierte este paradigma centralizado de administración de datos en un proceso de organización de datos basado en la comunidad.
¿Cómo pueden los catálogos de datos ayudar a las personas en diversos roles de datos?
El catálogo de datos es un servicio versátil que puede proporcionar una amplia diversidad de características a los diferentes roles de datos en una organización.
Analistas de datos
Un catálogo de datos ayuda al analista a encontrar rápidamente los conjuntos de datos relevantes. A medida que los datos se anotan adecuadamente con su linaje marcado de forma clara, un analista puede elegir el conjunto de datos correcto de una variedad de opciones. Los consejos, las reseñas y los comentarios asociados con los activos de datos promueven un análisis de datos eficaz.
Encargados del cumplimiento de datos
Un catálogo de datos ayuda a una organización a garantizar el acceso legítimo a los datos. Los encargados de cumplimiento pueden implementar procedimientos de autenticación mediante un catálogo de datos. Un catálogo de datos también permite un acceso a datos transparente. Ayuda a guiar la gobernanza de datos de una organización. Los catálogos de datos permiten que las organizaciones cumplan con regulaciones como el RGPD.
Arquitectos y estrategas de datos
Un catálogo de datos permite a los arquitectos de datos respaldar la creación de un enfoque de autoservicio regulado para que los empleados autorizados puedan descubrir, reutilizar y compartir datos empresariales fundamentales. Un catálogo de datos permite a los usuarios aprovechar una herramienta central para descubrir los datos internos que necesitan, así como los metadatos que los ayudan a evaluar la calidad y las características de los datos.
Características esenciales que un catálogo de datos debe admitir
Categorización de activos de datos
Un catálogo de datos debe rastrear los datos empresariales en lagos de datos, almacenes, bases de datos relacionales y sistemas de archivos para recopilar automáticamente todos los metadatos y deducir la conexión entre conjuntos de datos. Luego, debe utilizar los metadatos para etiquetar los conjuntos de datos. Además de recopilar conjuntos de datos, un catálogo de datos también debe recopilar informes, wikis y otros formatos de activos de datos no estructurados.
Capacidades de búsqueda de datos
Un catálogo de datos debe proporcionar una instalación de búsqueda simple y natural basada en el idioma. Debe tomar palabras clave o términos empresariales y mostrar los activos de datos relacionados ordenados por preferencias de búsqueda. El catálogo de datos también debe mostrar los resultados de búsqueda según el nivel de acceso del usuario y tener características de ofuscación de datos para ocultar datos a usuarios no autorizados.
Capacidad de evaluación de los datos
Una vez que un usuario descubre conjuntos de datos asociados con una palabra clave o un término de búsqueda, un catálogo de datos debe ayudarlo a evaluar los datos. Si el usuario tiene derecho a acceder a los datos, el catálogo debe permitir al usuario previsualizar el conjunto de datos y ver su linaje y propiedad, además de sus certificaciones. Un catálogo de datos también debe recopilar las calificaciones y reseñas de los usuarios, y mostrarlas al usuario.
Seguridad de los datos
Un catálogo de datos debe admitir los procedimientos de gobernanza de datos de una organización. Debe respetar las prácticas de seguridad de los datos y los procedimientos de autenticación de una organización. También debe tener la capacidad de hacer cumplir la seguridad de los datos en diferentes niveles de detalle, ya sea como conjunto de datos, tabla o columna.
Adquisición de datos
Una vez que un usuario descubre y evalúa un conjunto de datos, debe adquirirlo. Un catálogo de datos debe facilitar la adquisición de datos sin complicaciones. Debería ser tan fácil buscar activos de datos internos como cuando se realiza una búsqueda en la Web. Y cuando los datos no existen, el catálogo de datos debe establecer un proceso mediante el cual los usuarios puedan generar una solicitud para el activo de datos.
Mejora de la calidad de los datos
Junto con la detección, evaluación y adquisición de datos, un catálogo de datos también debe ayudar a una organización a mejorar la calidad de los datos. El catálogo de datos debe mostrar los conflictos de datos y resaltar los conjuntos de datos incompletos y poco confiables. Además del control de calidad automatizado, un catálogo de datos también debe incorporar el control de calidad basado en la comunidad en que los usuarios pueden calificar un activo de datos y comentar sobre su calidad.
Organización manual de los datos
Junto con la recopilación automatizada de metadatos y el etiquetado de datos, un catálogo de datos también debe permitir que los administradores manuales enriquezcan los datos. Un administrador debe poder quitar un conjunto de datos del catálogo si parece poco confiable. El administrador también debe poder agregar palabras clave y etiquetas a los conjuntos de datos, marcar datos altamente confidenciales, agregar metadatos adicionales y compartir consejos de uso para el activo de datos.
Capacidad de colaboración masiva
Un catálogo de datos debe tener características que mejoren la organización basada en la comunidad del activo de datos. Los usuarios deben poder agregar metadatos, calificar la calidad de los datos y agregar reseñas y consejos. Un catálogo debe facilitar la contribución de varios usuarios a la organización de los activos de datos.
¿Buscas un catálogo de datos? Te ayudamos a comenzar
Alteryx Connect es una potente herramienta que cumple con todos los requisitos de generación de catálogos de datos. Te ayuda a descubrir tus datos y activos empresariales, lo que maximiza su utilización. También ayuda a tu organización a administrar y enriquecer colectivamente los datos. Con Alteryx Connect, podrás crear rápidamente un catálogo de datos confiable. Revisa hoy la hoja de datos de Alteryx Connect para dar un paso crucial en tus políticas y planes de administración de datos.
Siguiente término
Función definida por el usuario (UDF)Recursos relacionados
Historia de cliente
Protected: Saving Over 75 Hours Day with Automated Forecasting
- Preparación de datos y analítica
- Ciencia de datos y aprendizaje automático
- Automatización de procesos
Historia de cliente
Protected: Nippon Caterpillar Japan Streamlines Analysis Operations
- Preparación de datos y analítica
- Marketing
- APAC