Big Data - Einblick in Hadoop und andere Frameworks
(TDE-BIGD)
Das Thema Big Data ist lange schon den Kinderschuhen entwachsen. Erfahrungen und Informationen sind längst das Kapital vieler Unternehmen und die Analyse und Strukturierung riesiger Datenmengen daher unternehmenskritisch. Wer Trends und Zusammenhänge schneller erkennt als die Marktbegleiter hat einen entscheidenden Wettbewerbsvorteil. Big-Data-Lösungen sprießen daher wie Pilze aus dem Boden. Dieser Kurs vermittelt, was sich hinter diesem Hype versteckt, welche Technologien zum Einsatz kommen und wie diese arbeiten.
Kursinhalt
- Was versteckt sich hinter Big Data?
- Anwendungsbeispiele für Big Data
- Speicherung großer Datenmengen in verteilten Dateisystemen
- MapReduce-Verfahren und CAP-Theorem
- NoSQL-Datenbanken
- Software-Lösungen für Big Data: Hadoop, Spark und Flink
- Data Analytics
- IT-Architekturen für Big Data
- Big Data und Data Analytics Praxis-Demo
- Blick in die Zukunft
Zielgruppe
Der Kurs richtet sich an all diejenigen, die Big-Data-Lösungen planen, bewerten oder implementieren möchten.
Voraussetzungen
Es werden keine speziellen Vorkenntnisse vorausgesetzt. Wer Interesse an Big-Data-Lösungen in Bezug auf Anwendungsszenarien sowie technische Realisierung hat, wird von diesem Kurs profitieren.
Inhaltsverzeichnis
1 Was ist Big Data?
- 1.1 Der große Berg Daten
- 1.2 Anwendungsgebiete von BIG DATA
- 1.3 Die Definition von Big Data: 3-5 „V“s
- 1.3.1 Volume
- 1.3.2 Velocity: Geschwindigkeit und Aktualität der Daten
- 1.3.3 Variety: Vielfältigkeit der Daten
- 1.3.4 Veracity: Gültigkeit und Zuverlässigkeit der Daten
- 1.3.5 Das ist Big Data
- 1.4 Der Ursprung von Big Data
2 Big Data Grundlagen
- 2.1 Die BIG DATA Value Chain
- 2.2 Quellen für BigData Datenanalysen
- 2.3 Die Architektur
- 2.4 SQL: feste, vordefinierte Tabellenschemata
- 2.5 Normalisierung von Tabellen
- 2.6 NoSQL
- 2.6.1 Key-Value Stores
- 2.6.2 In-Memory Key-Value Stores
- 2.6.3 Document Stores
- 2.6.4 Graph Databases
- 2.6.5 Column Stores
- 2.7 CAP-Theorem
- 2.7.1 Kombination CA des CAP-Theorems
- 2.7.2 Kombination CP des CAP-Theorems
- 2.7.3 Kombination AP des CAP-Theorems
3 Hadoop und Spark
- 3.1 Hadoop
- 3.2 MapReduce
- 3.2.1 Hauptkonzepte – MapReduce
- 3.2.2 Beispiel: Wörter zählen
- 3.3 HDFS
- 3.3.1 HDFS – Hauptkomponenten
- 3.3.2 HDFS – Architektur
- 3.4 YARN
- 3.5 Apache Spark
- 3.5.1 Resilient Distributed Dataset
- 3.5.2 Spark SQL
- 3.5.3 Spark Streaming
- 3.5.4 MLlib
- 3.5.5 Machine Learning
- 3.5.6 GraphX
4 Big Data Technologien
- 4.1 Das Hadoop Ecosystem
- 4.2 Pig
- 4.3 Hive
- 4.4 Mahout
- 4.5 HBase
- 4.6 Sqoop
- 4.7 Flume
- 4.8 Chukwa
- 4.9 Flink
- 4.10 Oozie
- 4.11 Zookeeper
- 4.12 Ambari
- 4.13 R Connector
- 4.14 Cassandra
- 4.15 SAP HANA
5 Anforderungen an die Datenbankentwicklung
- 5.1 Die Entwicklung von SQL zu NoSQL
- 5.2 Facebook und Twitter: höhere Anforderungen
- 5.2.1 Read-Only-Replicas zur Überbrückung
- 5.2.2 Multi-Master Datenbanken
- 5.3 ACID vs BASE
- 5.4 Vorteile von NoSQL (BASE)
- 5.5 Der ELK Stack
- 5.5.1 ElasticSearch Abfragen auf der Konsole
- 5.5.2 Kibana - das Dashboard für grafische Anzeigen
- 5.6 ELK: Sharding und Reverse Indexing
- 5.7 MongoDB - ein beliebter Document Store
6 Anwendungsbeispiele für Big Data
- 6.1 Limitierungen klassischer analytischer Anwendungen
- 6.2 Einsatzszenarien von Big Data
- 6.2.1 Clickstream Analyse
- 6.2.2 Stimmungsanalysen aus Social Media
- 6.2.3 Analyse von Log-Daten
- 6.2.4 Analyse von Sensordaten
- 6.2.5 Analyse von Texten
- 6.2.6 Analyse von Video- und Sprachdaten
- 6.3 Weltweite Immobilienvermietung am Beispiel von AirBnB
- 6.4 Internationale Datacenterverknüpfung am Beispiel CERN
- 6.5 Beispiel: US FINRA
- 6.6 Beispiel: Jobbörse MONSTER
- 6.7 Beispiel: Google BigTable
7 Pipelines und ETL Prozesse
- 7.1 DB vs. Datawarehouse vs. Data Lake
- 7.2 Snowflake-Schemas
- 7.3 Extract - Transform - Load (ETL)
- 7.4 Pivot Tabellen / Klassische Reports
- 7.5 Pipeline für einen ETL Prozess
- 7.6 Data-Lakes
8 Data Governance + Risiken
- 8.1 Die 3 Säulen von Data Governanance
- 8.2 Was kann ich tun, um meine Daten zu schützen?
- 8.3 Risiken
- 8.4 Data Compliance Risiko
- 8.4.1 National und in Europa
- 8.4.2 Inhalte der DSGVO
- 8.4.3 International
- 8.4.4 Sozialrisiko
- 8.5 Datenrisiken
- 8.5.1 Sicherheit der Daten
- 8.5.2 Qualität der Daten
- 8.6 Definitions- und Aussagerisiko
- 8.6.1 Faktor Daten
- 8.6.2 Faktor Data Management
- 8.6.3 Faktor Organisation
- 8.6.4 Faktor Prozess
- 8.6.5 Faktor Kunde als Betroffener
- 8.7 Herausforderungen
- 8.8 EU-AI-Act: Erste Regulierungen von KI
9 Herausforderungen im Betrieb von Big Data Lösungen
- 9.1 Wo ist der Anfang?
- 9.2 Hadoop unternehmensweit betreiben
- 9.2.1 Physische Infrastruktur
- 9.2.2 Datenhaltung
- 9.2.3 Datenzugriff
- 9.2.4 Datenintegration
- 9.2.5 IT-Sicherheit
- 9.2.6 Weitere Betriebskriterien
- 9.2.7 Wirtschaftliche Kriterien
- 9.3 Betriebsphasen einer neuen Big-Data Landschaft
- 9.4 Erfolgsfaktoren
10 Ausblick
- 10.1 Prognose der Big Data Markt-Kapitalisierung
- 10.2 Marktanteile führender Unternehmen im 4. Quartal 2023
- 10.3 Orchestrierung in der Cloud
- 10.4 KI und ML
- 10.5 Environment-, Social- und Governance-Faktoren (ESG)
- 10.6 Quantencomputing und Big Data
- 10.7 Natural Language Processing (NLP)
- 10.8 Big-Data- und ML/KI Fachkräftebedarf
- 10.9 Aktueller Stand
- 10.10 Technische Entwicklungen
- 10.11 Markt-Entwicklungen
- 10.12 Business-Entwicklungen
- 10.13 Diskussion der Ergebnisse
11 Hadoop Installation & Configuration & Go!
- 11.1 Installationsschema für APACHE HADOOP 3.1.3
- 11.2 Hadoop 3.1.3 auf Github
- 11.3 Die Experteach Labor-Umgebung
- 11.4 Anpassung der Konfigurationsdateien
- 11.5 Übersicht der Filestrukturen im Labor
- 11.6 Erster Start des HDFS
- 11.7 Syntax und Ablauf von Zählaufgaben
- 11.8 Output beim MAPREDUCE Vorgang
- 11.9 Hadoop Cockpit
- 11.10 Wordcount Abfrage via PIG:
- 11.11 RATING – Datensätze filtern (25 Mio)