Data Engineering on Google Cloud (GC-DEGC)

Módulo 1: Introducción a la ingeniería de datos

  • Conocer el rol de un ingeniero de datos.
  • Analizar los desafíos de la ingeniería de datos.
  • Introducción a BigQuery.
  • Data Lakes y Data Warehouses.
  • Demostración: Federated Queries con BigQuery.
  • Bases de datos transaccionales vs Data Warehouses.
  • Demostración web: Encontrar PII en su dataset con la API DLP.
  • Asociación efectiva con otros equipos de datos.
  • Gestionar el acceso a los datos y la gobernanza.
  • Creación de pipelines listos para producción.
  • Revisión del caso de estudio personalizado de GCP.

Módulo 2: Creación de un Data Lake

  • Introducción a Data Lakes.
  • Almacenamiento de datos y opciones ETL en GCP.
  • Creación de un Data Lake con almacenamiento en Cloud.
  • Demostración opcional: optimización de costes con las clases de Google Cloud Storage y las funciones Cloud.
  • Securizar el almacenamiento en Cloud.
  • Almacenar de manera ordenada todo tipo de datos.
  • Video demostración: ejecución de federated queries en ficheros ORC y Parquet en BigQuery.
  • Cloud SQL como un Data Lake relacional.

Módulo 3: Creación de un Data Warehouse

  • El Data Warehouse moderno.
  • Introducción a BigQuery.
  • Introducción.
  • Carga de datos.
  • Estudio de esquemas.
  • Diseño de esquemas.
  • Campos anidados y repetidos.
  • Optimización con particionamiento y clustering.

Módulo 4: Introducción a la creación de Batch Data Pipelines

  • EL, ELT, ETL.
  • Consideraciones de calidad.
  • Realizar operaciones en BigQuery.
  • Demostración: ELT para mejorar la calidad de los datos en BigQuery.
  • Deficiencias.
  • ETL para resolver problemas de calidad de datos.

Módulo 5: Ejecutar Spark en Cloud Dataproc

  • El ecosistema de Hadoop.
  • Ejecutar Hadoop en Cloud Dataproc.
  • GCS en lugar de HDFS.
  • Optimización de Dataproc.

Módulo 6: Procesamiento de datos Serverless con Cloud Dataflow

  • Cloud Dataflow.
  • El valor del Dataflow para los clientes.
  • Dataflow Pipelines.
  • Plantillas de Dataflow.
  • Dataflow SQL.

Módulo 7: Administrar Data Pipelines con Cloud Data Fusion y Cloud Composer

  • Crear de manera visual Batch Data Pipelines con Cloud Data Fusion.
  • Componentes.
  • Descripción general de la UI.
  • Creacion de un Pipeline.
  • Estudio de datos con el uso de Wrangler.
  • Orquestar el trabajo entre los servicios de GCP con Cloud Composer.
  • Apache Airflow Environment.
  • DAGs y Operadores.
  • Programación de un Workflow.
  • Demostración opcional: carga de datos activada por eventos con Cloud Composer, Cloud Functions, Cloud Storage y BigQuery.
  • Monitorización y Logging.

Módulo 8: Introducción al procesamiento de datos streaming

  • Procesamiento de datos streaming.

Módulo 9: Mensajería Serverless con Cloud Pub/Sub

  • Cloud Pub/Sub.

Módulo 10: Características de Cloud Dataflow Streaming

  • Características de BigQuery Streaming.

Módulo 11: Características de BigQuery Streaming y Bigtable de alto rendimiento

  • Características streaming de BigQuery.
  • Cloud Bigtable.

Módulo 12: Funcionalidad y rendimiento avanzados de BigQuery

  • Funciones de ventana analíticas.
  • Uso de cláusulas With.
  • Funciones GIS.
  • Demostración: mapear los códigos postales de más rápido crecimiento con BigQuery GeoViz.
  • Consideraciones de rendimiento.

Módulo 13: Introducción a la analítica y la IA

  • ¿Qué es la IA?
  • Del análisis de datos Ad-hoc a las decisiones basadas en datos.
  • Opciones para modelos ML en GCP.

Módulo 14: APIs de modelado ML preconstruidas para datos no estructurados

  • La dificultad de los datos no estructurados.
  • APIs de ML para el enriquecimiento los datos.

Módulo 15: Análisis Big Data con Cloud AI Platform Notebooks

  • ¿Qué es un Notebook?
  • BigQuery Magic y Ties to Pandas.

Módulo 16: Pipelines ML en producción con Kubeflow

  • Métodos para aplicar ML en GCP.
  • Kubeflow.
  • AI Hub.

Módulo 17: Creación de modelos personalizados con SQL en BigQuery ML

  • BigQuery ML para Quick Model Building.
  • Demostración: enseñar a un modelo de BigQuery ML a predecir las tarifas de taxi de Nueva York.
  • Modelos compatibles.

Módulo 18: Creación de modelos personalizados con Cloud AutoML

  • ¿Por qué utilizar Auto ML?
  • Auto ML Vision.
  • Auto ML NLP.
  • Tablas Auto ML.