Cloud IO Enabler Podcast
|
Amazon Web Services provee de asombrosas soluciones para gestionar Big Data, dentro de las cuales está AWS Glue el ETL de Amazon.
ETL son las siglas de extraer, transformar y cargar, siendo un servicio que busca categorizar, limpiar, validar, formatear y enriquecer millones de datos que provienen de bases de datos, archivos, streams, etc.
AWS Glue utiliza para el análisis el concepto de dynamic frame, que oferta una gran cantidad de posibles transformaciones pre-diseñadas generando automáticamente el código Python o Scala.
AWS Glue el ETL de Amazon, también es compatible con el concepto dataframes de Apache Spark por lo que puede intercalar ambas funcionalidades obteniendo sus ventajas principales.
Esta tecnología es también serverless lo que quiere decir que no se debe provisionar ningún servidor sino solo usarlo configurando los almacenes de datos orígenes correspondientes, el pipeline de transformación y los almacenes de datos destino.
Una de las últimas novedades es que desde Agosto del 2020, su versión 2.0 es 10x más rápida que los jobs de Apache Spark y tiene un nueva modalidad de precios que permite ser un servicio extremadamente rentable.
Si requiere ampliar más esta tecnología escríbanos en los comentarios y si desea revisar más puede comenzar en: AWS Glue: How It Works.