Datenqualität der Syntax in Quellsystemen der BI (OLTP Systeme)

Syntaktische Datenqualität in den Quellsystemen

Wie bei den BI-Systemen muss die syntaktische Datenqualität auch in den Quellsystemen stimmen. Je nach Quellsystem sind unterschiedliche technische Herausforderungen bei der Syntax zu bewältigen. Unter Quellsystemen werden transaktionsorientierte Informationssysteme (TIS) verstanden, die mittels OLTP Datenbankmechanismen Daten verarbeiten. Man nennt diese Systeme auch OLTP Systeme.
  • CRM-Systeme (Customer Relationship Management) müssen insbesondere Kundendaten strukturiert und korrekt verarbeiten. Da in den CRM-Systemen gewöhnlich eine große Menge an Kundendaten manuell erfasst werden, können auch viele syntaktische Probleme auftauchen.

  • Bei ERP-Systemen (Enterprise Resource Planning) aber auch Abrechnungssysteme / Billingsysteme setzen die meisten Firmen auf Standardsoftware und deren meist eingeschränkt anpassbaren Standarddatenmodelle. Dies führt häufig bei Datenübertragungen zwischen mehreren Systemen bzw. Systemmodulen zu vielen syntaktischen Transformationen und somit auch vielen potentiellen Quellen von Datenqualitätsproblemen.

Beispiel für typische syntaktische Transformationen und deren Probleme:


Eine Kundennummer wird im CRM-System als als 7-stellige Nummer (1234567) im Integerformat abgespeichert. Die selbe Kundennummer wird im ERP-System in ein 12-stelliges Text-Standarddatenmodell-Attribut transformiert. Die fehlenden 5 Stellen im ERP-Standarddatenmodell wird mit 5 Null-Werten aufgefüllt. Das Abrechnungssystem wiederum speichert die Kundennummer für das Drucken auf der Papierrechnung als Textwert ab. Wenn nun das BI-System die Kundennummer aus den drei Systemen importieren möchte, findet man die selbe Kundennummer in drei unterschiedlichen syntaktischen Formaten:
  • CRM: 1234567 [Integer]
  • ERP: 000001234567 [Text]
  • Billing: 1234567 [Text]
Berücksichtigt man solche Besonderheiten der Quellsysteme bei der Bewirtschaftung der BI-Systeme nicht, dann kämpft man dauerhaft mit syntaktischen Datenqualitätsproblemen, zusätzlich zu den semantischen Datenqualitätsproblemen.