Big Data on AWS (AWSBD)

Big Data sur AWS vous présente les solutions de données volumineuses basées sur le cloud et Amazon Elastic MapReduce (EMR), la plate-forme de big data AWS. Dans ce cours, nous vous montrons comment utiliser Amazon EMR pour traiter des données en utilisant le large écosystème d'outils Hadoop tels que Pig and Hive. Nous vous apprenons également à créer des environnements de données volumineuses, à travailler avec Amazon DynamoDB, Amazon Redshift et Amazon Kinesis, et à tirer parti des meilleures pratiques pour concevoir des environnements Big Data pour la sécurité et la rentabilité.

 

Conditions préalables :

Connaissance de base des technologies Big Data, y compris Apache Hadoop et HDFS

Connaissance des technologies Big Data telles que Pig, Hive et MapReduce utile mais pas obligatoire

Connaissance pratique des principaux services AWS et de l'implémentation du cloud public

D’avoir suivi préalablement le cours AWS Essentials ou d’avoir une expérience équivalente

Compréhension de base de l'entreposage de données, des systèmes de bases de données relationnelles et de la conception de bases de données

 

Ce cours est destiné aux personnes responsables de la conception et de la mise en œuvre de solutions Big Data, à savoir les Architectes Solutions et les Administrateurs SysOps, Data Scientists et Data Analysts intéressés d’apprendre davantage sur les solutions Big Data sur AWS

 

Aperçu du cours de formation / contenu :

Comprendre Apache Hadoop dans le contexte d'Amazon EMR

Comprendre l'architecture d'un cluster Amazon EMR

Lancer un cluster Amazon EMR à l'aide d'un type d'instance Amazon Machine Image et Amazon EC2 approprié

Choisir les options de stockage de données AWS appropriées à utiliser avec Amazon EMR

Connaître les options d'intégration, de transfert et de compression des données à utiliser avec Amazon EMR

Utiliser des cadres de programmation communs disponibles pour Amazon EMR, y compris Hive, Pig et Streaming

Travailler avec Amazon Redshift pour implémenter une solution Big Data

Tirer parti du logiciel de visualisation Big Data

Choisir les options de sécurité appropriées pour Amazon EMR et vos données

Effectuer une analyse de données en mémoire avec Spark et Shark sur Amazon EMR

Choisir les options appropriées pour gérer votre environnement Amazon EMR de manière rentable

Comprendre les avantages de l'utilisation d'Amazon Kinesis pour le Big Data

Afficher les détails


Ce cours couvrira les concepts suivants :


Jour 1 : Présentation du Big Data, Apache Hadoop et des avantages d'Amazon EMR

Amazon EMR Architecture

Utilisation d'Amazon EMR

Lancement et utilisation d'un cluster Amazon EMR

Les cadres de programmation Hadoop

 

Jour 2 : Utilisation de Hive pour les analyses publicitaires

Utilisation de Streaming for Life Sciences Analytics

Vue d'ensemble Spark et Shark pour les analyses en mémoire

Utilisation de Spark et Shark pour les analyses en mémoire

Gestion des coûts Amazon EMR

Présentation de la sécurité Amazon EMR

Ingestion de données, transfert et compression

Utilisation d'Amazon Kinesis pour le traitement de Big Data en temps réel

 

Jour 3 : Utilisation d'Amazon Kinesis et d'Amazon EMR pour diffuser et traiter des données volumineuses

Options de stockage de données AWS

Utilisation de DynamoDB avec Amazon EMR

Vue d'ensemble d’Amazon Redshift et Big Data

Utilisation d'Amazon Redshift pour Bi