¿Hay recursos profundos de alta calidad para aprender sobre arquitectura / patrones de ETL?

La tecnología ETL (que se muestra a continuación con flechas) es un componente importante de la arquitectura de almacenamiento de datos. Se utiliza para copiar datos de aplicaciones operativas al área de almacenamiento intermedio del almacén de datos, desde el área de almacenamiento provisional de DW al almacén de datos y, finalmente, desde el almacén de datos a un conjunto de mercados de datos conformes accesibles por los tomadores de decisiones.

El software ETL extrae datos, transforma valores de datos inconsistentes, limpia datos “malos”, filtra datos y carga datos en una base de datos de destino. La programación de trabajos ETL es crítica. Si se produce un error en un trabajo de ETL, los trabajos de ETL restantes deben responder adecuadamente.

En un sistema OLTP típico , el rendimiento de la base de datos es crucial , ya que la capacidad de respuesta de la interfaz del usuario final es uno de los factores más importantes que determinan la utilidad de la aplicación. Ese tipo de base de datos debe manejar la inserción de miles de registros nuevos cada hora. Para lograr esto, por lo general, la base de datos está optimizada para la velocidad de inserciones, actualizaciones y eliminaciones y para mantener la menor cantidad de registros posible. Por lo tanto, desde un punto de vista técnico, la mayoría de las consultas SQL emitidas serán INSERTAR, ACTUALIZAR y BORRAR.

Al contrario de los sistemas OLTP, un DataWarehouse es un sistema que debe responder a casi cualquier pregunta relacionada con la medida de desempeño de la compañía . Por lo general, la información suministrada desde un almacén de datos es utilizada por personas que están a cargo de tomar decisiones. Por lo tanto, la información debe ser accesible de forma rápida y sencilla, pero no necesita ser la más reciente posible y en el nivel de detalle más bajo.

Por lo general, los almacenes de datos se actualizan diariamente (muy a menudo los procesos ETL se ejecutan durante la noche) o una vez al mes (los datos están disponibles para los usuarios finales alrededor del quinto día hábil de un nuevo mes). Muy a menudo los dos enfoques se combinan.

El principal desafío de una arquitectura de DataWarehouse es permitir que las empresas accedan a datos históricos resumidos con acceso de solo lectura para los usuarios finales. De nuevo, desde un punto de vista técnico, la mayoría de las consultas de SQL comenzarían con una instrucción SELECT.

Aprenda aquí para obtener más información: Descripción general de ETL