Datenqualität Syntax Datenformat: Die Formatierung der Daten


Datenkosistenz Eindeutigkeit

Jeder Datensätz darf nur einmal aufgezeichnet, gespeichert bzw. weiterverarbeiet werden. Doppelte Datensätze sind zu vermeiden. Auf der Syntaktischen Ebene kann man dies dadurch überprüfen, indem alle Inhalte eines Datensatzes mit allen Inhalten eines anderen Datensatzes verglichen werden. Gibt es eine vollständige Übereinstimmung, dann liegen doppelte Datensätze vor. Im Falle von doppelten Datensätzen muss eine Regel hinterlegt werden, wie man damit umgeht. Wird immer der erste Datensatz vom zweiten Datensatz überschrieben, wird der zweite Datensatz prinzipiell gelöscht oder will man Fall für Fall entscheiden wie man damit umgeht, z.B. Abbruch der Verarbeitung oder schreiben der doppelten Datensätze in einen Fehlertopf, der dann gegebenenfalls in einer Nachverarbeitung geht.

Datenformat

Für eine hohe Datenqualität in den Systemen kann man mithilfe der Datenformate sehr viel proaktiv tun. Nehmen wir beispielsweise das Datumsformat. Mit Hilfe dieser standardisierten Formatierung können die Inhalte schnell und praktisch als Datumsangabeben interpretiert werden. Dies hilft bei der Weiterverarbeitung und im Reporting. Bei Texten muß man wiederum andere Dinge bei der Syntax beachten, wie z.B. die Zeichenlänge.  Wird beispielsweise ein Namensfeld auf 20 Zeichen beschränkt, kann es insbesondere bei Doppelnamen zu Problemen kommen. Bei Zahlen müssen auch viele Dinge bei der Datenmodellierung beachtet werden. Zahlenformate vereinfachen zwar die Weiterverarbeitung in vielen Dingen behindern aber auch andere Operationen ungewollt. Wird die Hausnummer als Zahl gespeichert können Hausnummer Kombinationen mit Buchstaben, z.B. '2b' nicht eingegeben werden. Wird die PLZ als Zahl gespeichert, könnten bestimmte Angaben nicht automatisch übernommen werden, z.B. D-'53299' oder 'CH-8048'. Desweiteren werden häufig in Systemen bestimmte Identifyer / Kennungen aus mehreren anderen Identifyer / Kennungen zusammengesetzt. Werden solche Identifyer / Kenner als Zahl gespeichert, führt dies zwangsläufig zu Einschränkungen.

Zeichencode / Character Set

Gerade bei Texten / Strings ist der verwendete Zeichencode bzw. das Character Set ein extrem wichtiger Punkt. Wird beispielsweise der Westeuropäische Zeichencode verwendet, können Texte (z.B. Namen) aus Tschechien nicht korrekt verarbeitet werden. Bei jeder Weiterverarbeitung der Daten muss beachtet werden, dass der Zeichencode korrekt ist. Gerade in großen Unternehmen wo viele verschiedene Systeme mit unterschiedlichen Datenbanken, Betriebssystemen und Software verwendet werden ist die Sicherstellung der korrekten Zeichencodes über die gesamten Verarbeitungstrecken sehr schwierig.

Trennzeichen

Daten wie auch Datensätze müssen korrekt getrennt werden. In Dateien empfiehlt es sich als Trennzeichen das Semikolon zu verwenden. Das Komma und das Leerzeichen kann häufiger in Texten vorkommen und sollte deshalb gemieden werden. Aber auch ein Semikolon kann in einem Text vorkommen. Damit ein Text korrekt in Dateien oder Datenbanken gespeichert und verarbeitet werden kann, muß vor der Dateierstellung geprüft werden, inwieweit das Trennzeichen im Text vorkommt. Das Trennzeichen muß dann im Text in ein anderes Zeichen transformiert werden. Alternativ kann man auch komplexe Verarbeitungsregeln impplementieren die diesen Sonderfall verarbeiten können.