Data Engineering on Google Cloud
(GC-DEGC)
Módulo 1: Introducción a la ingeniería de datos
- Conocer el rol de un ingeniero de datos.
- Analizar los desafíos de la ingeniería de datos.
- Introducción a BigQuery.
- Data Lakes y Data Warehouses.
- Demostración: Federated Queries con BigQuery.
- Bases de datos transaccionales vs Data Warehouses.
- Demostración web: Encontrar PII en su dataset con la API DLP.
- Asociación efectiva con otros equipos de datos.
- Gestionar el acceso a los datos y la gobernanza.
- Creación de pipelines listos para producción.
- Revisión del caso de estudio personalizado de GCP.
Módulo 2: Creación de un Data Lake
- Introducción a Data Lakes.
- Almacenamiento de datos y opciones ETL en GCP.
- Creación de un Data Lake con almacenamiento en Cloud.
- Demostración opcional: optimización de costes con las clases de Google Cloud Storage y las funciones Cloud.
- Securizar el almacenamiento en Cloud.
- Almacenar de manera ordenada todo tipo de datos.
- Video demostración: ejecución de federated queries en ficheros ORC y Parquet en BigQuery.
- Cloud SQL como un Data Lake relacional.
Módulo 3: Creación de un Data Warehouse
- El Data Warehouse moderno.
- Introducción a BigQuery.
- Introducción.
- Carga de datos.
- Estudio de esquemas.
- Diseño de esquemas.
- Campos anidados y repetidos.
- Optimización con particionamiento y clustering.
Módulo 4: Introducción a la creación de Batch Data Pipelines
- EL, ELT, ETL.
- Consideraciones de calidad.
- Realizar operaciones en BigQuery.
- Demostración: ELT para mejorar la calidad de los datos en BigQuery.
- Deficiencias.
- ETL para resolver problemas de calidad de datos.
Módulo 5: Ejecutar Spark en Cloud Dataproc
- El ecosistema de Hadoop.
- Ejecutar Hadoop en Cloud Dataproc.
- GCS en lugar de HDFS.
- Optimización de Dataproc.
Módulo 6: Procesamiento de datos Serverless con Cloud Dataflow
- Cloud Dataflow.
- El valor del Dataflow para los clientes.
- Dataflow Pipelines.
- Plantillas de Dataflow.
- Dataflow SQL.
Módulo 7: Administrar Data Pipelines con Cloud Data Fusion y Cloud Composer
- Crear de manera visual Batch Data Pipelines con Cloud Data Fusion.
- Componentes.
- Descripción general de la UI.
- Creacion de un Pipeline.
- Estudio de datos con el uso de Wrangler.
- Orquestar el trabajo entre los servicios de GCP con Cloud Composer.
- Apache Airflow Environment.
- DAGs y Operadores.
- Programación de un Workflow.
- Demostración opcional: carga de datos activada por eventos con Cloud Composer, Cloud Functions, Cloud Storage y BigQuery.
- Monitorización y Logging.
Módulo 8: Introducción al procesamiento de datos streaming
- Procesamiento de datos streaming.
Módulo 9: Mensajería Serverless con Cloud Pub/Sub
- Cloud Pub/Sub.
Módulo 10: Características de Cloud Dataflow Streaming
- Características de BigQuery Streaming.
Módulo 11: Características de BigQuery Streaming y Bigtable de alto rendimiento
- Características streaming de BigQuery.
- Cloud Bigtable.
Módulo 12: Funcionalidad y rendimiento avanzados de BigQuery
- Funciones de ventana analíticas.
- Uso de cláusulas With.
- Funciones GIS.
- Demostración: mapear los códigos postales de más rápido crecimiento con BigQuery GeoViz.
- Consideraciones de rendimiento.
Módulo 13: Introducción a la analítica y la IA
- ¿Qué es la IA?
- Del análisis de datos Ad-hoc a las decisiones basadas en datos.
- Opciones para modelos ML en GCP.
Módulo 14: APIs de modelado ML preconstruidas para datos no estructurados
- La dificultad de los datos no estructurados.
- APIs de ML para el enriquecimiento los datos.
Módulo 15: Análisis Big Data con Cloud AI Platform Notebooks
- ¿Qué es un Notebook?
- BigQuery Magic y Ties to Pandas.
Módulo 16: Pipelines ML en producción con Kubeflow
- Métodos para aplicar ML en GCP.
- Kubeflow.
- AI Hub.
Módulo 17: Creación de modelos personalizados con SQL en BigQuery ML
- BigQuery ML para Quick Model Building.
- Demostración: enseñar a un modelo de BigQuery ML a predecir las tarifas de taxi de Nueva York.
- Modelos compatibles.
Módulo 18: Creación de modelos personalizados con Cloud AutoML
- ¿Por qué utilizar Auto ML?
- Auto ML Vision.
- Auto ML NLP.
- Tablas Auto ML.