Serverless Data Processing with Dataflow
(GC-SDPD)
Módulo 1: Introducción
- Introducción de los objetivos del curso.
- Demuestre cómo Apache Beam y Dataflow trabajan juntos para satisfacer las necesidades de procesamiento de datos de su organización.
Módulo 2: Beam Portability
- Resuma los beneficios del Beam Portability Framework.
- Personalice el entorno de procesamiento de datos de su canalización utilizando contenedores personalizados.
- Revise los casos de uso para las transformaciones entre idiomas.
- Habilite el marco de portabilidad para sus canalizaciones de Dataflow.
Módulo 3: Separación de computación y almacenamiento con Dataflow
- Habilite Shuffle y Streaming Engine para canalizaciones por lotes y de transmisión, respectivamente, para obtener el máximo rendimiento.
- Habilite la programación flexible de recursos para un rendimiento más rentable.
Módulo 4: IAM, cuotas y permisos
- Seleccione la combinación correcta de permisos de IAM para su trabajo de Dataflow.
- Determina tus necesidades de capacidad al inspeccionar las cuotas relevantes para tus trabajos de Dataflow.
Módulo 5: Seguridad
- Seleccione su estrategia de procesamiento de datos zonal con Dataflow, según las necesidades de la localidad de sus datos.
- Implemente las mejores prácticas para un entorno de procesamiento de datos seguro.
Módulo 6: Beam Concepts Review
- Revise los conceptos principales de Apache Beam (Pipeline, PCollections, PTransforms, Runner, lectura / escritura, Utility PTransforms, entradas laterales), paquetes y DoFn Lifecycle.
Módulo 7: Windows, Watermarks, Triggers
- Implemente lógica para manejar sus datos retrasados.
- Revise los diferentes tipos de desencadenantes.
- Revise los conceptos básicos de transmisión (PCollections ilimitadas, Windows).
Módulo 8: Fuentes y sumideros
- Escriba la E/S de su elección para su canalización de Dataflow.
- Ajuste su transformación de fuente / sumidero para obtener el máximo rendimiento.
- Cree fuentes y receptores personalizados con SDF.
Módulo 9: Esquemas
- Introduzca esquemas, que brindan a los desarrolladores una forma de expresar datos estructurados en sus canalizaciones de Beam.
- Utilice esquemas para simplificar su código de Beam y mejorar el rendimiento de su canalización.
Módulo 10: Estado y temporizadores
- Identificar casos de uso para implementaciones de API de temporizador y estado.
- Seleccione el tipo de estado y temporizadores adecuados para su canalización.
Módulo 11: Mejores prácticas
- Implementa las mejores prácticas para las canalizaciones de Dataflow.
Módulo 12: Dataflow SQL y DataFrames
- Desarrolle una canalización de Beam utilizando SQL y DataFrames.
Módulo 13: Portátiles Beam
- Crea un prototipo de tu canalización en Python con los cuadernos de Beam.
- Utilice la magia de Beam para controlar el comportamiento de la grabación de la fuente en su computadora portátil.
- Inicie un trabajo en Dataflow desde una computadora portátil.
Módulo 14: Monitoreo
- Navegue por la IU de detalles del trabajo de Dataflow.
- Interprete gráficos de métricas de trabajo para diagnosticar regresiones de canalización.
- Establezca alertas en trabajos de Dataflow mediante Cloud Monitoring.
Módulo 15: Registro e informes de errores
- Use los widgets de diagnóstico y registros de Dataflow para solucionar problemas de canalización.
Módulo 16: Solución de problemas y depuración
- Usa un enfoque estructurado para depurar tus canalizaciones de Dataflow.
- Examine las causas comunes de fallas en las tuberías.
Módulo 17: Desempeño
- Comprenda las consideraciones de rendimiento de las canalizaciones.
- Considere cómo la forma de sus datos puede afectar el rendimiento de la canalización.
Módulo 18: Pruebas y CI / CD
- Probar enfoques para su canalización de Dataflow.
- Revise los marcos y las funciones disponibles para optimizar su flujo de trabajo de CI / CD para las canalizaciones de Dataflow.
Módulo 19: Fiabilidad
- Implemente las mejores prácticas de confiabilidad para sus canalizaciones de Dataflow.
Módulo 20: Plantillas Flex
- Uso de plantillas flexibles para estandarizar y reutilizar el código de canalización de Dataflow.
Módulo 21: Resumen
- Resumen.