Hier finden Kurs und Schulung statt
Open Source Schulung:

Apache Hadoop

Big Data Processing mit Apache Hadoop

Die Analyse umfangreicher Unternehmensdaten liefert Einblicke in oftmals verborgene Zusammenhänge. Dabei ergibt sich bereits aus der Vielfalt der erfassten Daten häufig bereits ein Problem, andererseits ist diese Vielfalt eine besondere Chance - vorausgesetzt man bewältigt die Datenflut effizient.

Werkzeuge und Methoden für systematische Datenanalysen (Datamining) existieren schon seit langem. Wenn es aber um unstrukturierte Inhalte wie z.B. Texte in Blogs oder auf Webseiten oder um Dokumente in einem verteilten CMS geht, stößt man schnell an deren Systemgrenzen. Datenbankserver sind in vielen Szenarien die optimale Lösung, aber deutliche Grenzen sind auch dort erkennbar sobald Skalierbarkeit und die zuverlässige Verarbeitung unstrukturierter Daten gefordert werden. Besonders die Skalierbarkeit auf Basis preiswerter Standardhardware und die flexiblen Integrationsmöglichkeiten in viele vorhandene IT-Systeme sind die Stärke des Cluster Systems Apache Hadoop.

Unser Ziel ist es, Ihnen den Einstieg in des Thema Big-Data-Processing zu vereinfachen. Sie können sich die Tools auch selbst installieren oder eine vorkonfigurierte Distribution z.B. von Cloudera Inc. aus dem Internet laden.

Aber was kommt danach? Genau das stellen wir Ihnen in unserem Praxis-Seminar vor. Dabei gehen wir auf konkrete Anwendungsbeispiele ein und zeigen Ihnen, mit welchen Methoden diese effizient zu bearbeiten sind. Wir arbeiten anhand praxisnaher Beispiele heraus, welche Tools im Umfeld von Hadoop welchen Nutzen haben, für welche Aufgabentypen diese verwendbar sind und wie Sie vorhandene Daten effizient in das System übertragen. Danach sind Sie in der Lage zu entscheiden, welche Ihrer Aufgaben mit dem MapReduce-Ansatz gelöst werden können und Sie starten selbst in ein neues interessantes Themengebiet: extrahieren Sie neue Informationen aus ihren vorhandenen Daten!

Preis

2 Tage, 945,00 € + 19% MwSt. = 1.124,55 €

Volle 8 Zeitstunden pro Tag, komplette Grundausstattung an Originalliteratur, freier Internetzugang überall, Leihnotebook, Vollpension, Getränke (besondere Weinsorten werden separat abgerechnet), Gebäck, selbstgebackene Kuchen, Sauna, Rahmenprogramm.

Zusatz- oder Minderleistungen auf Wunsch:

Aufpreis für Übernachtung im Zweibettzimmer (großes, komfortables Zimmer) 59,00 € + 7% MwSt. = 63,13 €pro Nacht
Aufpreis für Übernachtung in der Linuxhotel-WG 83,00 € + 7% MwSt. = 88,81 €pro Nacht
Aufpreis für Einzelzimmer (nach Verfügbarkeit, bitte rechtzeitig buchen) 129,00 € + 7% MwSt. = 138,03 €pro Nacht
Preisnachlaß bei Verzicht auf die Vollpension -29,41 € + 19% MwSt. = -35,00 €pro Tag
Preisnachlaß bei Verzicht auf das Rahmenprogramm -8,40 € + 19% MwSt. = -10,00 €pro Abend

Steuerliche Absetzbarkeit * Stornobedingungen

Termine

04.10 - 05.10.16 KW 40 Anmeldung Apache Hadoop
oder
nennen Sie uns Ihren Wunschtermin

Dozenten

Jörn Kuhlenkamp ist wissenschaftlicher Mitarbeiter an der TU Berlin und hat sich in seiner Promotion auf das Systemmanagement und die Entwicklung von verteilten skalierbaren Systemen, insbesondere Datenbanksysteme, in Cloud Umgebungen spezialisiert. Im Rahmen seiner wissenschaftlichen Tätigkeiten am Karlsruher Institut für Technologie (KIT), der TU Berlin und internationalen, industriellen Forschungszentren, wie dem IBM T.J. Watson Research Center, konnte er exzellente theoretische wie praktische Kenntnisse im Betrieb von Systemen im Umfeld von Apache Hadoop gewinnen.

Jörn Kuhlenkamp publiziert zum Thema skalierbare verteilte Systeme in Cloud Umgebungen seit mehreren Jahren international Forschungsarbeiten und hält weltweit Vorträge, welche den Stand der Technik auf diesem Gebiet weiter vorantreiben.

Teilnahmevoraussetzungen

Grundlegende Kenntnisse in:

Falls Sie hier unsicher sind, beraten wir Sie gerne, per Mail oder telefonisch.

Kursinhalt

Einführung
Grundlegende Berechnungsmodelle und Basisdienste
Speichersysteme
Speichersysteme managen und erlauben Zugriff auf die Datenbasis für Berechnungen und speichern Ergebnisse. Lernen Sie relevante hoch verfügbare und skalierbaren Speichersysteme und ihre unterschiedlichen Eigenschaften kennen, die Basisdienste für die Ausführung von Jobs bereitstellen.
Job Spezifikation
Um eine schnelle und fehlerfreie Spezifikation von Jobs zu ermöglichen, kann auf eine Vielzahl von Frameworks zurückgegriffen werden, die auf höheren Abstraktionsebenen als MapReduce angesiedelt sind oder Implementierungen für bestimmte Einsatzdomänen bieten. Lernen Sie anhand von praktischen Beispielen, welches Framework für welche Problemstellung geeignet ist.
Resource Negotiation
Um unterschiedliche Jobs auf einem Cluster parallel und verlässlich ausführen zu können, muss die Ausführung unterschiedliche Jobs koordiniert und bereitgestellte Ressourcen pro Job gemanagt werden.
Deployment
Hadoop Cluster können in unterschiedlichen Umgebungen deployed und betrieben oder als gehosteter Service genutzt werden.
Cluster Management und Tools
Lernen Sie Tools und Techniken kennen um einen Hadoop Cluster zu deployen, betreiben und optimieren.

Zeitlicher Ablauf