Arquitectura y estrategia de datos para productos de próxima generación
Las empresas que desean que sus productos de datos de próxima generación tengan éxito, probablemente deberían revisar su arquitectura, estrategia y gobierno de datos.
Asistentes virtuales, motores de recomendación, modelos de mantenimiento predictivo y recomendaciones personalizadas: estos y otros productos de datos de última generación dependen de datos de alta calidad y de una arquitectura y estrategia de datos para lograr un rendimiento óptimo.
¿Por qué debería preocuparme de esto? Porque las organizaciones de datos de alto rendimiento pueden afirmar que sus iniciativas de datos y análisis contribuyen al menos en un 20% al EBIT.
Los productos de datos de última generación aprovechan la analítica y las nuevas tecnologías, como la IA y la IA generativa (gen AI), la computación en la nube, el aprendizaje automático (ML) y el procesamiento de datos en tiempo real, para proporcionar información valiosa sobre grandes y complejos conjuntos de datos. Con el fin de lograr el éxito en los productos de datos de última generación impulsados por gen AI, las empresas han tenido que revisar su arquitectura, estrategia y modelo de gobierno de datos. Dentro de los cambios que han impulsado se encuentran factores críticos como un "real" acceso a los datos y una gobernanza de datos generales. Adicionalmente, desde el punto de vista de arquitectura, se han enfocado en agregar y desarrollar bases de datos vectoriales dentro de su panorama general para garantizar la usabilidad de gen AI en su conjunto general de datos.
Existen tres arquetipos diferentes de arquitectura de datos (centralizada, híbrida y descentralizada) que pueden adaptarse a diversas combinaciones de necesidades y estrategias tecnológicas dentro de una empresa. Estos arquetipos están respaldados por arquitecturas de referencia, estrategias y planes de datos, modelos de gobierno y estructura organizacional, y consideraciones para la implementación de tecnologías. Los CIO que seleccionen de manera proactiva el arquetipo de arquitectura de datos más adecuado e implementen prácticas sólidas en los puntos mencionados anteriormente podrían aprovechar todo el potencial de la IA en sus productos de datos de próxima generación.
¿Qué es la arquitectura de datos?
La arquitectura de datos abarca el diseño y el modelo mediante el cual se organizan, integran, trasladan, almacenan, procesan y consumen los datos. La estrategia y gobernanza de datos, por otro lado, son el marco y conjunto de prácticas que incluyen políticas, procedimientos y estándares para la gestión de datos que ayudan a garantizar la calidad y la privacidad de los datos, junto con una gestión de datos consistente y eficaz. Ambos se basan en una arquitectura de datos bien definida, para proporcionar la infraestructura y las herramientas de gestión de datos necesarias para aplicar políticas y estándares.
Tipos de Arquitectura de Datos
Una organización debe determinar el nivel de centralización de su arquitectura de datos. Para ello se deben considerar y evaluar diferentes factores y elegir el grado en que la gestión, la integración, el almacenamiento y el acceso a los datos son controlados, ya sea de forma centralizada en toda la organización o a través de las unidades de negocio individuales. Los CIO pueden considerar tres niveles de centralización:
- Arquitectura de datos centralizada: este tipo de arquitectura de datos es particularmente útil y suele ser la más adecuada para las organizaciones bancarias o de atención médica que operan en entornos altamente regulados. La arquitectura centralizada proporciona un único punto de control para la gobernanza de datos, la auditoría y la generación de informes, utilizando fuentes autorizadas, una única área de aterrizaje inteligente y una capa de agregación de datos en todas las unidades de negocio. También se utilizan plataformas de consumo empresarial simplificadas para la generación de informes y el análisis.
- Arquitectura de datos híbrida: en este tipo de arquitectura, los datos y las plataformas se organizan y racionalizan por dominio de datos, con fuentes únicas y sin duplicaciones entre entre dominios. Este tipo de arquitectura suele ser útil en operaciones con flujos de datos que se actualizan rápidamente y cuando existe una alineación clara de los procesos dentro de cada unidad de negocios. Las empresas de telecomunicaciones, por ejemplo, suelen utilizar una arquitectura híbrida para la gestión centralizada de datos maestros (MDM) y un tipo de almacenamiento de datos federado para los dominios de datos individuales.
- Arquitectura de datos descentralizada: en este enfoque, los datos se organizan y optimizan de principio a fin dentro de una estructura de silos dentro de cada unidad de negocio, cada una de los cuales incluye fuentes, agregación e informes a nivel de unidad de negocio. Las plataformas de todas las unidades de negocio se agregan para generar los informes a nivel empresarial. Las compañías de seguros, por ejemplo, suelen utilizar este enfoque, en el que los datos de dominio empresarial y de MDM se descentralizan para satisfacer las necesidades de diferentes bases de clientes, sistemas centrales y productos de datos.
Las organizaciones pueden determinar el mejor arquetipo para su arquitectura de datos implementando una estrategia que cumpla con los objetivos generales del negocio y que apoye los criterios identificados por los CIO. Este tipo de estrategia logra un equilibrio entre la simplificación y estandarización de la arquitectura de datos y la implementación cuidadosa de cualquier descentralización o variabilidad dentro de la arquitectura. En última instancia, el arquetipo de arquitectura de datos se optimiza para cumplir con su propósito previsto: respaldar las operaciones y, al mismo tiempo, expandir las capacidades de la empresa.
La elección del arquetipo de arquitectura suele estar motivada inicialmente por consideraciones técnicas, que luego pueden dar lugar a ajustes que pueden implicar aumentos significativos de los costos, por lo que hay que evaluar esta decisión con mucho cuidado.
Roadmap hacia la mejor arquitectura de datos e IA para tus productos de datos
Lo ideal es que cualquier debate sobre la mejor arquitectura comience por identificar las capacidades necesarias que se requieren e identificar como poder utilizarlas para orientar la toma de decisiones para desarrollar la arquitectura técnica y el plan de implementación.
Una vez que las organizaciones identifican las capacidades requeridas, pueden determinar la arquitectura tecnológica subyacente. Esto podría incluir, por ejemplo, la implementación de una base de datos vectorial para respaldar la inteligencia artificial generativa o un datawarehouse para ayudar a respaldar una única fuente de información. Las opciones tecnológicas están determinadas por los requisitos del arquetipo de arquitectura de datos. Sin embargo también hay que tener en cuenta que hay muchas tecnologías que no están limitadas por el arquetipo y que pueden permitir un manejo automatizado de los datos que sea más seguro.
Cuando se trata de seguridad y gestión de datos, las organizaciones podrían tomar medidas especiales como parte de su estrategia y plan de datos, y como parte de su modelo de gobierno para desarrollar activos de datos de próxima generación. Entre las medidas que deben considerar se encuentran las siguientes:
- Calidad de los datos (gestión de datos y modelos): implementación de controles de calidad automatizados mediante el uso de algoritmos de aprendizaje automático (ML) para el monitoreo predictivo de la calidad de los datos. Además, podrían implementar herramientas de linaje de datos para rastrear los datos desde el origen hasta el destino y garantizar la integridad y la transparencia. El establecimiento de sistemas de creación de perfiles de datos en tiempo real para la validación inmediata de los datos garantizará una calidad constante.
- Seguridad como código (procesamiento): integración de herramientas de análisis de cumplimiento automatizado que verifiquen y hagan cumplir continuamente las políticas de seguridad en el flujo de datos. La incorporación del modelado de amenazas como código en el ciclo de desarrollo puede ayudar a predecir y mitigar posibles violaciones de seguridad.
- DataOps (gestión de datos y modelos): automatizar la entrega de los activos de datos adecuados para los modelos de IA y ML subyacentes. La automatización de las revisiones de código, las pruebas y otras tareas que forman parte del ciclo de vida del desarrollo de software aumentará la eficiencia y reducirá los errores. Por último, las organizaciones podrían fortalecer las posibilidades de implementar código directamente en producción con pruebas adecuadas.
Cómo elegir el tipo de estrategia de datos y modelo de gobierno adecuado para tus productos de datos
Para garantizar la eficacia de una estrategia de datos, lo ideal sería que las organizaciones pudieran alinear su entorno e infraestructura tecnológica con su estructura operativa. Las organizaciones suelen optar entre uno de los tres modelos de gobierno: orientación a la empresa, al dominio o a la unidad de negocio. Cada modelo implica funciones específicas para el centro y las conexiones (modelo ‘hub and spokes’). Según el modelo operativo y el arquetipo de arquitectura de datos, las funciones y los procesos analíticos se dividen entre el centro y las conexiones.
- Modelo orientado a la empresa. En este modelo, el hub central posee los datos, es responsable de la calidad y disponibilidad de los mismos y define la lógica de los mismos. Los datos suelen almacenarse de forma centralizada en un almacén de datos. Las conexiones pueden proporcionar sugerencias y solicitudes de cambio, pero sobre todo consumen datos.
- Modelo orientado a dominios. El hub central define los estándares y políticas de calidad de toda la empresa y supervisa su ejecución en este modelo. El almacenamiento de datos puede ser centralizado o descentralizado. Las conexiones son dueñas de los datos, definen los requisitos de los mismos y son responsables de cumplir con los estándares. Las conexiones pueden cumplir con estándares más estrictos que los definidos por el hub central. El proceso incluye que los radios consulten al hub y planteen sugerencias para su discusión en un consejo de datos.
- Modelo orientado a la unidad de negocios. Si se incluye un eje / hub central en este modelo, este es el encargado de la mantención de los componentes tecnológicos que pueden utilizar varias de las conexiones. El eje también puede respaldar el consumo de datos en toda la organización. Las conexiones poseen datos y establecen sus propios estándares, y pueden coordinarse entre sí mismas directamente en relación con las necesidades de todas ellas.
Lo ideal es que las organizaciones determinen un arquetipo de arquitectura de datos y los roles detallados dentro de él antes de implementar el modelo de gobernanza de datos. De entre las muchas opciones disponibles, las organizaciones pueden entonces ejecutar la vía óptima y el grado de dirección central para su arquetipo.
La elección entre arquetipos de arquitectura de datos centralizados, híbridos y descentralizados depende de las necesidades y estrategias únicas de cada empresa. Las arquitecturas de referencia, las estrategias de datos, los modelos de gobierno y la implementación inteligente de la tecnología proporcionan una hoja de ruta para que los CIO con visión de futuro elijan el arquetipo más adecuado y establezcan prácticas sólidas de gobernanza de datos para los productos de datos de próxima generación.