Serverless Data Processing with Dataflow (GC-SDPD)

Módulo 1: Introducción

  • Introducción de los objetivos del curso.
  • Demuestre cómo Apache Beam y Dataflow trabajan juntos para satisfacer las necesidades de procesamiento de datos de su organización.

Módulo 2: Beam Portability

  • Resuma los beneficios del Beam Portability Framework.
  • Personalice el entorno de procesamiento de datos de su canalización utilizando contenedores personalizados.
  • Revise los casos de uso para las transformaciones entre idiomas.
  • Habilite el marco de portabilidad para sus canalizaciones de Dataflow.

Módulo 3: Separación de computación y almacenamiento con Dataflow

  • Habilite Shuffle y Streaming Engine para canalizaciones por lotes y de transmisión, respectivamente, para obtener el máximo rendimiento.
  • Habilite la programación flexible de recursos para un rendimiento más rentable.

Módulo 4: IAM, cuotas y permisos

  • Seleccione la combinación correcta de permisos de IAM para su trabajo de Dataflow.
  • Determina tus necesidades de capacidad al inspeccionar las cuotas relevantes para tus trabajos de Dataflow.

Módulo 5: Seguridad

  • Seleccione su estrategia de procesamiento de datos zonal con Dataflow, según las necesidades de la localidad de sus datos.
  • Implemente las mejores prácticas para un entorno de procesamiento de datos seguro.

Módulo 6: Beam Concepts Review

  • Revise los conceptos principales de Apache Beam (Pipeline, PCollections, PTransforms, Runner, lectura / escritura, Utility PTransforms, entradas laterales), paquetes y DoFn Lifecycle.

Módulo 7: Windows, Watermarks, Triggers

  • Implemente lógica para manejar sus datos retrasados.
  • Revise los diferentes tipos de desencadenantes.
  • Revise los conceptos básicos de transmisión (PCollections ilimitadas, Windows).

Módulo 8: Fuentes y sumideros

  • Escriba la E/S de su elección para su canalización de Dataflow.
  • Ajuste su transformación de fuente / sumidero para obtener el máximo rendimiento.
  • Cree fuentes y receptores personalizados con SDF.

Módulo 9: Esquemas

  • Introduzca esquemas, que brindan a los desarrolladores una forma de expresar datos estructurados en sus canalizaciones de Beam.
  • Utilice esquemas para simplificar su código de Beam y mejorar el rendimiento de su canalización.

Módulo 10: Estado y temporizadores

  • Identificar casos de uso para implementaciones de API de temporizador y estado.
  • Seleccione el tipo de estado y temporizadores adecuados para su canalización.

Módulo 11: Mejores prácticas

  • Implementa las mejores prácticas para las canalizaciones de Dataflow.

Módulo 12: Dataflow SQL y DataFrames

  • Desarrolle una canalización de Beam utilizando SQL y DataFrames.

Módulo 13: Portátiles Beam

  • Crea un prototipo de tu canalización en Python con los cuadernos de Beam.
  • Utilice la magia de Beam para controlar el comportamiento de la grabación de la fuente en su computadora portátil.
  • Inicie un trabajo en Dataflow desde una computadora portátil.

Módulo 14: Monitoreo

  • Navegue por la IU de detalles del trabajo de Dataflow.
  • Interprete gráficos de métricas de trabajo para diagnosticar regresiones de canalización.
  • Establezca alertas en trabajos de Dataflow mediante Cloud Monitoring.

Módulo 15: Registro e informes de errores

  • Use los widgets de diagnóstico y registros de Dataflow para solucionar problemas de canalización.

Módulo 16: Solución de problemas y depuración

  • Usa un enfoque estructurado para depurar tus canalizaciones de Dataflow.
  • Examine las causas comunes de fallas en las tuberías.

Módulo 17: Desempeño

  • Comprenda las consideraciones de rendimiento de las canalizaciones.
  • Considere cómo la forma de sus datos puede afectar el rendimiento de la canalización.

Módulo 18: Pruebas y CI / CD

  • Probar enfoques para su canalización de Dataflow.
  • Revise los marcos y las funciones disponibles para optimizar su flujo de trabajo de CI / CD para las canalizaciones de Dataflow.

Módulo 19: Fiabilidad

  • Implemente las mejores prácticas de confiabilidad para sus canalizaciones de Dataflow.

Módulo 20: Plantillas Flex

  • Uso de plantillas flexibles para estandarizar y reutilizar el código de canalización de Dataflow.

Módulo 21: Resumen

  • Resumen.