ETL-Prozess: Datenfluss von der Quelle zum Lager

Wie kommen Daten eigentlich ins Data Warehouse? Dafür braucht es einen ETL-Prozess. Dabei werden Daten aus unterschiedlichen Datenquellen so vereinheitlicht, dass sie in entscheidungsrelevante Informationen überführt werden können.

 Extract – Transform – Load

Effiziente ETL-Prozesse sind für die Arbeit mit Datenbanken essenziell und somit auch für jede Business-Intelligence-Anwendung unabkömmlich. Die heterogenen Daten, die die verschiedenen Operativsysteme generieren und sammeln, werden im ETL-Prozess zusammengeführt und homogenisiert, damit dem Management anschließend qualifizierte Daten als Entscheidungsgrundlage zur Verfügung stehen. Der ETL-Prozess besteht aus drei konsekutiven Phasen:

Extrahieren Auslesen der Daten aus den verschiedenen Quellen
Transformieren Umwandeln der Daten in das gewünschte Format
Laden Überführen der Daten in die Datenbank

Im Folgenden wollen wir diese Schritte noch einmal genauer betrachten.

Extrahieren

Im ersten Schritt werden die Daten aus den diversen operativen Systemen, wie ERP und CRM, sowie externen Quellen, wie Social Media, ausgewählt und selektiert. Denn nicht alle Daten werden tatsächlich zu Analyse-Zwecken benötigt, im Sinne der Performance sollten die nicht erforderlichen Daten deswegen auch nicht extrahiert werden. Zur Exportierung der meist unstrukturierten, heterogenen Informationseinheiten lohnt der Einsatz von ETL-Tools wie beispielsweise Pentaho Kettle oder Microsoft SSIS.

Die Extraktion aus den Quellsystemen geschieht entweder synchron in Echtzeit oder asynchron in regelmäßigen Abständen. Viele Unternehmen nutzen dafür periodisch Nacht-Jobs, da so das Tagesgeschäft nicht beeinflusst wird. Allerdings können Extraktionen auch sporadisch durch Ereignisse oder gezielte Anfragen ausgelöst werden.

Transformieren

Im folgenden Schritt der Transformation geht es darum, die unstrukturierten Daten in das erforderliche Zielschema, d. h. die Spaltentypen des Data Warehouse, zu überführen.

Die Transformation und die damit zusammenhängende Datenbereinigung (Data Cleansing) sind der aufwändigste Teil der Implementierung eines BI-Systems. Trotzdem sind beide Aktionen unerlässlich. Andernfalls könnten wichtige Managemententscheidungen auf verfälschten Daten beruhen. Die Bereinigung erfolgt über automatisierte und manuelle Prozesse. Formale Fehler wie beispielsweise falsche Steuerzeichen, Währungsangaben, aber auch Datenduplikate lassen sich automatisiert erkennen und anpassen. Andere, meist inhaltliche Fehler können nur durch eine manuelle Prüfung aufgedeckt werden. Wird ein Umsatz beispielsweise mit einer falschen Jahreszahl erfasst, so fehlt er im laufenden Jahr und kann nur nach einer intensiven manuellen Prüfung korrigiert werden.

Zudem werden die Daten während des Transformationsschritts harmonisiert, d. h. sie erhalten die gleichen Bezeichnungen. Sind beispielsweise in einer Datenquelle sämtliche Datumsangaben in der Form TTMMJJJ, in einer anderen jedoch in Form von JJJJMMTT gegeben, muss dies vereinheitlicht werden. Gleiches gilt zum Beispiel auch für Maßeinheiten oder Produktbezeichnungen. Hierfür werden sogenannte Mapping Tables herangezogen.

Zum Schluss sind die Daten bei Bedarf noch mit betriebswirtschaftlichen Kennzahlen anzureichern, z. B. aggregierten Umsatzzahlen oder Deckungsbeiträgen. Dies beschleunigt spätere Analysen und erhöht somit die Performance des Systems.

Laden

Im letzten Schritt werden die bearbeiteten Daten in das Data Warehouse geladen. Der Ladeprozess sollte so effizient wie möglich ablaufen, um das Tagesgeschäft nicht zu beinträchtigen und den notwendigen Zugriff für Nutzer zu gewähren. In diesem Schritt sollten auch Versionierungen angelegt werden, damit bei einem gravierenden Fehler eine vorherige Version geladen werden kann.

Ein einfacher, ausgearbeiteter ETL-Prozess kann dann folgendermaßen aussehen:

Die nun in der Datenbank vorliegenden Daten sind strukturiert, harmonisiert und damit auch analysierbar. Nur wenn dieser Schritt mit der entsprechenden Gründlichkeit und Sorgfalt durchgeführt wird, können Sie aus Ihren Daten das Wissen ziehen, das Sie für ein erfolgreiches, datengetriebenes Unternehmen benötigen. Die Unterstützung von Experten ist dafür unerlässlich. Benötigen Sie Hilfe, um aus Ihren Daten das Beste herauszuholen? Dann sprechen Sie uns an, wir helfen Ihnen gern weiter.

By | 2018-04-12T14:26:02+00:00 18. April 2018|Categories: BI Know-how|Tags: |