Data Mining Verfahren


Zur Durchführung des Data Mining Prozesses können verschiedene Methoden und Verfahren genutzt werden. Im folgenden sollen ein paar wenige Verfahren kurz vorgestellt werden, die ihren Ursprung entweder in den statistisch-mathematischen Verfahren oder in der Künstlichen Intelligenz haben. Zum Data Mining eignen sich unter anderem Folgende Verfahren: Clu­steranalyse, Künstliche Neuronale Netze, Kohonen Netze85, Entscheidungsbaumverfahren, Lineare Regression, Genetische Algorithmen, Chi-squared Automatic Interaction Detection (CHAID), Regelbasierte Systeme, grafisches Data Mining usw.. 86

Clusteranalyse

Abbildung: Clusteranalyse

Die Clusteranalyse läßt sich in zwei verschiedene Methoden teilen. Dabei unterscheidet man die hierarchische Verfahren und die partitionierenden Verfahren.87 Die hierarchischen Verfah­ren kann man wiederum, je nach Vorgehensweise, in zwei Gruppen unterteilen. Aus den ein­zelnen Daten wird bei der agglomerativen Methode versucht, schrittweise Gruppen zu bilden. Dabei werden bei jedem Schritt jeweils zwei Gruppen zusammengefaßt. Die divisive Methode versucht im Gegensatz zur agglomerativen Methode die ganze Datenmenge in einzelne Grup­pen zu teilen. Das Ziel beider Verfahren ist, die Datenmenge in k Klassen zu teilen.

Abbildung: hierarchische Methoden der Clusteranalyse

Die Klassen (Cluster) werden auf der Basis der Verschiedenheit der Objekte gebildet. Dabei kommen Methoden wie euklidische Metrik oder City-Block-Metrik zum Einsatz. Diese Methoden bestimmen den Abstand von Objekten mit numerischen Merkmalen. Bei Objekten mit nominalen Merkmalen kann eine numerische Codierung vorgenommen werden, so daß wie bei Objekten mit numerischen Merkmalen verfahren werden kann. Es kann aber auch ein Un­ähnlichkeitsfaktor zur Abstandsmessung genutzt werden.88

Bei den partitionierenden Verfahren handelt es sich im Gegensatz zur hierarchischen Klassifi­kation um Optimierungsmethoden.89 Dabei wird nach unbekannten Datenmustern gesucht, indem die Daten in möglichst trennscharfe Klassen eingeteilt werden. Ein Vertreter dieser Methoden ist der K-Means-Algorithmus. Dieser versucht, die Daten in K-Cluster, durch Mi­nimierung des euklidischen Abstandes von den Clusterzentren, zuzuordnen. Am Anfang wird jedem Cluster eine Dateneinheit zugeordnet und dann sukzessive die restlichen Daten entspre­chend ihrem Abstand zu den Clusterzentren zugeordnet. Nach der Zuteilung wird durch be­stimmte Austauschverfahren bzw. durch Verschieben der einzelnen Dateneinheiten geprüft, ob die Dateneinheiten optimal zu den Clustern zugeordnet wurden. Da dieses Verfahren nur ein Verbesserungsverfahren ist, kann nicht davon ausgegangen werden, daß ein Globalopti­mum gefunden wird.90

Künstliche Neuronale Netze

Künstliche Neuronale Netze (KNN) sind nichtlineare Prognoseverfahren, die der biologischen Informationsverarbeitung nachempfunden wurden und selbständig lernende Eigenschaften besitzen.91 Durch Verknüpfung von Neuronen mittels Output/Input-Beziehungen entstehen mathematische Modelle. Durch Strukturveränderungsverfahren ist es dem KNN möglich, Lerneffekte zu erreichen. Die eingesetzten Algorithmen werden als Lernregeln bezeichnet.

Abbildung: Multi Layer Perzeptron

1943 wurde durch McCulloch und Pitts das erste mathematische Neuronenmodell entwickelt. Rosenblatt entwickelte 1958 das erste Perzeptron. Das Perzeptron eignet sich zur Klassifika­tion von Eingaben, d.h. es ordnet eine Eingabe einer bestimmten Ausgabe zu. Das Perzeptron besteht aus zwei Schichten, einer Eingabe- und einer Ausgabeschicht. In dieser Hinsicht un­terscheidet sich das Perzeptron nicht wesentlich von klassischen ökonomischen Modellen, die z.B. als lineare Regressionsmodelle eine Vielzahl von Eingabewerten linear zu einer Ausgabe kombinieren.92 Ein Multi Layer Perzeptron (MLP) besteht aus mehreren Schichten, der Ein­gabe-, der Zwischen- und der Ausgabeschicht. Die Zwischenschicht kann aus mehreren Neu­ronenschichten bestehen und wird auch als verborgene Schicht (Hidden-Layer) bezeichnet. Die Neuronen benachbarter Schichten sind miteinander verbunden und werden mit Gewichten bewertet.93 Bei der Klassifikation übernimmt immer die nachgelagerte Schicht die Klassifika­tion der Ausgaben der vorgelagerten Schicht. Die Verarbeitung der Informationen in der ver­borgenen Schicht ist für Außenstehenden nicht sichtbar.94 Durch die Ausgabeschicht kommen die verarbeiteten Informationen nach außen.

Die Funktionsweise eines Perzeptron ist vergleichbar mit der eines Gehirns. Jedes Neuron besitzt einen Schwellwert. Wird dieser Schwellwert durch die Ausgaben der vorgelagerten Schicht (die Eingabe entspricht beim Perzeptron der Einfachheit halber der Summe der Aus­gaben der vorgelagerten Neuronen) erreicht oder übertroffen, so gibt das Neuron ein anregen­des Signal an die nachgelagerte Schicht ab. Wird der Schwellwert nicht erreicht, so wird ein hemmendes Signal abgegeben. Im folgenden Beispiel wird mit einem Perzeptron ein lo­gisches „AND“ dargestellt. Wird von den Neuronen (x1,x2) ein anregendes Signal abgeschickt, so sind die Ausgabewerte jeweils 1. Zusammen ergibt sich somit ein Input in Höhe von 2, für das Neuron x3 mit dem Schwellwert von 2 (S=2). Damit ist der Schwellwert erreicht und das Neu­ron kann ein anregendes Signal senden. Sendet eines der beiden oder beide Neuronen (x1,x2) zusammen ein hemmendes Signal aus, so ist der Neuronen-Output von x1 oder x2 gleich Null und der Schwellwert kann nicht mehr erreicht werden. Das Neuron x3 sendet somit ein hem­mendes Signal (Null) aus.

Abbildung: Perzeptron mit einem logischen „AND“

Mit Hilfe von Lernregeln kann dieses bisher statisch betrachtete Netz in der Struktur verändert werden. Dabei sind folgende Veränderungen des Netzes möglich.

  • Löschen/Hinzufügen von Verbindungen und Neuronen

  • Änderung der Verbindungsstärke

  • Änderung des Schwellwertes

  • Änderung der Aktivierungsfunktion (die Aktivierungsfunktion bestimmt den aktuellen Aktivierungszustand des Neurons, welcher in den meisten KNN mit der Ausgabe des Neu­rons übereinstimmt), z.B. Heaviside Sprungfunktion, lineare, semilineare, logistische Aktivierungsfunktion

  • Änderung der Propagierungsfunktion

Es werden zwei Lernverfahren bei KNN unterschieden. Einmal das überwachte Lernen und andererseits das unüberwachte Lernen. Beim überwachten Lernen werden dem Netz Eingabe- und Ausgabemuster vorgegeben. Dabei hat das Lernverfahren die Aufgabe, die Struktur des Netzes so zu ändern, daß am Ende bei der Eingabe der Eingabemuster die vorgegeben Ausga­bemuster herauskommen. Beim unüberwachten Lernen werden nur die Eingabemuster in das Netz eingegeben. Das Lernverfahren hat hierbei die Aufgabe ähnliche Eingabemuster in be­stimmte Klassen einzuordnen. In der Praxis werden für ökonomische Anwendungen meist überwachte Lernverfahren eingesetzt. Beispiele für diese Lernverfahren sind die Hebb-Regel, die Delta-Regel und der Back Propagation Algorithmus.

Beim Back Propagation Algorithmus wird ausgehend von den Eingaben (Lerndaten) über die verborgene Schicht die Ausgabe eines KNN berechnet. Dieses Ergebnis wird mit dem ge­wünschten Ergebnis verglichen. Die Lerndaten dienen dem Netz zum Training. Mit Hilfe von Testdaten wird das Netz nach verschiedenen Trainingszyklen nach Fehlern überprüft und an­hand der Ergebnisse die Lernregeln für das Netz festgelegt. Dabei wird versucht, den Ausga­befehler so klein wie möglich zu halten. Ausgehend von der Ausgabeschicht werden Korrek­turen mittels der Lernregeln in Richtung der Eingabeschicht vorgenommen.95 Am Ende wird mit der Validierungsmenge die Güte des fertig entwickelten Netzes überprüft.96 Mit dieser Fähigkeit der Selbststrukturierung sind KNN in der Lage, eine optimale Korrespondenz (bzgl. einer Distanzfunktion wie z.B. dem mittleren quadratischen Fehler) zwischen Ein- und Aus­gaben darzustellen.97

Ein großer Nachteil von KNN besteht darin, daß die KNN von einer derartigen Komplexität gekennzeichnet sind, daß ihre inneren Zusammenhänge nur schwerlich nachvollziehbar sind. Ein weiteres großes Problem bei den Lernverfahren ist das Overlearning, d.h. das Netz liefert zu den bestimmten Eingabemustern ein exaktes Ergebnis, so daß die Generalisierungsfähig­keit des Netzes verloren gehen kann. Das Netz neigt hierbei mehr zum „Merken“ der Trai­ningsdaten, als zur Abstraktion der darin enthaltenen Wirkungszusammenhänge, so besteht die Gefahr der zu großen Anpassung der KNN an spezielle Marktsituationen in der Vergan­genheit98.

Abbildung: KNN zur Risikoprognose

Im Risikomanagement können KNN z.B. zur Klassifikation von Unternehmen in bestimmte Risikokategorien eingesetzt werden. Es ist aber auch denkbar, anhand von Risiko- und Unter­nehmensdaten das zukünftige Risiko zu prognostizieren. Hierzu müssen aber große Daten­mengen über das Unternehmen und die dazugehörigen Risiken existieren, damit ein dafür vorgesehenes KNN auch trainiert und getestet werden kann. Eine weitere Möglichkeit des Einsatzes für KNN im Risikomanagement könnte das Aufdecken von bisher unbekannten Zusammenhängen sein, z.B. Korrelationszusammenhänge.

In der Praxis werden bisher KNN zur Bonitätsprüfung bei Kreditvergaben anstatt einer stati­stischen Bonitätsprüfung eingesetzt. Aber auch für Prognoseprobleme an Finanzmärkten zur Berechnung von Aktien- und Wechselkursen, sowie Zinsentwicklungen sind KNN einsetzbar.

86 Vgl.: Hagedorn J. / Bissantz N. / Mertens P. (1997) S. 604ff; Chamoni, P. (1998a); Bissantz, N. (1998); Deventer, R. / van HOOF, A. (1998); Dilly, Ruth: Kapitel 3.1-3.3

87 Vgl.: Chamoni, P. (1998a), S.306

88 Vgl.: Chamoni, P.: (1998a), S.307

89 Vgl.: Chamoni, P.: (1998a), S.308

90 Vgl.: Chamoni, P.: (1998a), S.308

91 Vgl.: Data Mining Forum in: www.data-mining.de/mining.htm

92 Vgl.: Heitkamp, D. F. H. (1996), S.285

93 Vgl.: Chamoni, P. (1998a), S.314

94 Vgl.: Baetge, J. / Kruse, A. / Uthoff, C. (1996), S.275

95 Vgl.: Baetge, J. / Kruse, A. / Uthoff, C. (1996), S. 275

96 Vgl.: Baetge, J. / Kruse, A. / Uthoff, C. (1996), S. 276

97 Vgl.: Heitkamp, D. F. H. (1996), S. 285; Hornik, K. / Stinchcombe, M. / White, H.: (1989), S. 259-366

98 Vgl.: Heitkamp, D. F. H. (1996), S. 285


(Auszug aus der Diplomarbeit von Ralph Leipert: "Analytische Informationssysteme als Basis des Risikomanagement der Unternehmung")