Zur Durchführung des Data Mining Prozesses können verschiedene Methoden und Verfahren genutzt werden. Im folgenden sollen ein paar wenige Verfahren kurz vorgestellt werden, die ihren Ursprung entweder in den statistisch-mathematischen Verfahren oder in der Künstlichen Intelligenz haben. Zum Data Mining eignen sich unter anderem Folgende Verfahren: Clusteranalyse, Künstliche Neuronale Netze, Kohonen Netze85, Entscheidungsbaumverfahren, Lineare Regression, Genetische Algorithmen, Chi-squared Automatic Interaction Detection (CHAID), Regelbasierte Systeme, grafisches Data Mining usw.. 86 ClusteranalyseAbbildung: Clusteranalyse Die Clusteranalyse läßt sich in zwei verschiedene Methoden teilen. Dabei unterscheidet man die hierarchische Verfahren und die partitionierenden Verfahren.87 Die hierarchischen Verfahren kann man wiederum, je nach Vorgehensweise, in zwei Gruppen unterteilen. Aus den einzelnen Daten wird bei der agglomerativen Methode versucht, schrittweise Gruppen zu bilden. Dabei werden bei jedem Schritt jeweils zwei Gruppen zusammengefaßt. Die divisive Methode versucht im Gegensatz zur agglomerativen Methode die ganze Datenmenge in einzelne Gruppen zu teilen. Das Ziel beider Verfahren ist, die Datenmenge in k Klassen zu teilen. Abbildung: hierarchische Methoden der Clusteranalyse Die Klassen (Cluster) werden auf der Basis der Verschiedenheit der Objekte gebildet. Dabei kommen Methoden wie euklidische Metrik oder City-Block-Metrik zum Einsatz. Diese Methoden bestimmen den Abstand von Objekten mit numerischen Merkmalen. Bei Objekten mit nominalen Merkmalen kann eine numerische Codierung vorgenommen werden, so daß wie bei Objekten mit numerischen Merkmalen verfahren werden kann. Es kann aber auch ein Unähnlichkeitsfaktor zur Abstandsmessung genutzt werden.88 Bei den partitionierenden Verfahren handelt es sich im Gegensatz zur hierarchischen Klassifikation um Optimierungsmethoden.89 Dabei wird nach unbekannten Datenmustern gesucht, indem die Daten in möglichst trennscharfe Klassen eingeteilt werden. Ein Vertreter dieser Methoden ist der K-Means-Algorithmus. Dieser versucht, die Daten in K-Cluster, durch Minimierung des euklidischen Abstandes von den Clusterzentren, zuzuordnen. Am Anfang wird jedem Cluster eine Dateneinheit zugeordnet und dann sukzessive die restlichen Daten entsprechend ihrem Abstand zu den Clusterzentren zugeordnet. Nach der Zuteilung wird durch bestimmte Austauschverfahren bzw. durch Verschieben der einzelnen Dateneinheiten geprüft, ob die Dateneinheiten optimal zu den Clustern zugeordnet wurden. Da dieses Verfahren nur ein Verbesserungsverfahren ist, kann nicht davon ausgegangen werden, daß ein Globaloptimum gefunden wird.90 Künstliche Neuronale NetzeKünstliche Neuronale Netze (KNN) sind nichtlineare Prognoseverfahren, die der biologischen Informationsverarbeitung nachempfunden wurden und selbständig lernende Eigenschaften besitzen.91 Durch Verknüpfung von Neuronen mittels Output/Input-Beziehungen entstehen mathematische Modelle. Durch Strukturveränderungsverfahren ist es dem KNN möglich, Lerneffekte zu erreichen. Die eingesetzten Algorithmen werden als Lernregeln bezeichnet. Abbildung: Multi Layer Perzeptron 1943 wurde durch McCulloch und Pitts das erste mathematische Neuronenmodell entwickelt. Rosenblatt entwickelte 1958 das erste Perzeptron. Das Perzeptron eignet sich zur Klassifikation von Eingaben, d.h. es ordnet eine Eingabe einer bestimmten Ausgabe zu. Das Perzeptron besteht aus zwei Schichten, einer Eingabe- und einer Ausgabeschicht. In dieser Hinsicht unterscheidet sich das Perzeptron nicht wesentlich von klassischen ökonomischen Modellen, die z.B. als lineare Regressionsmodelle eine Vielzahl von Eingabewerten linear zu einer Ausgabe kombinieren.92 Ein Multi Layer Perzeptron (MLP) besteht aus mehreren Schichten, der Eingabe-, der Zwischen- und der Ausgabeschicht. Die Zwischenschicht kann aus mehreren Neuronenschichten bestehen und wird auch als verborgene Schicht (Hidden-Layer) bezeichnet. Die Neuronen benachbarter Schichten sind miteinander verbunden und werden mit Gewichten bewertet.93 Bei der Klassifikation übernimmt immer die nachgelagerte Schicht die Klassifikation der Ausgaben der vorgelagerten Schicht. Die Verarbeitung der Informationen in der verborgenen Schicht ist für Außenstehenden nicht sichtbar.94 Durch die Ausgabeschicht kommen die verarbeiteten Informationen nach außen. Die Funktionsweise eines Perzeptron ist vergleichbar mit der eines Gehirns. Jedes Neuron besitzt einen Schwellwert. Wird dieser Schwellwert durch die Ausgaben der vorgelagerten Schicht (die Eingabe entspricht beim Perzeptron der Einfachheit halber der Summe der Ausgaben der vorgelagerten Neuronen) erreicht oder übertroffen, so gibt das Neuron ein anregendes Signal an die nachgelagerte Schicht ab. Wird der Schwellwert nicht erreicht, so wird ein hemmendes Signal abgegeben. Im folgenden Beispiel wird mit einem Perzeptron ein logisches „AND“ dargestellt. Wird von den Neuronen (x1,x2) ein anregendes Signal abgeschickt, so sind die Ausgabewerte jeweils 1. Zusammen ergibt sich somit ein Input in Höhe von 2, für das Neuron x3 mit dem Schwellwert von 2 (S=2). Damit ist der Schwellwert erreicht und das Neuron kann ein anregendes Signal senden. Sendet eines der beiden oder beide Neuronen (x1,x2) zusammen ein hemmendes Signal aus, so ist der Neuronen-Output von x1 oder x2 gleich Null und der Schwellwert kann nicht mehr erreicht werden. Das Neuron x3 sendet somit ein hemmendes Signal (Null) aus. Abbildung: Perzeptron mit einem logischen „AND“ Mit Hilfe von Lernregeln kann dieses bisher statisch betrachtete Netz in der Struktur verändert werden. Dabei sind folgende Veränderungen des Netzes möglich.
Es werden zwei Lernverfahren bei KNN unterschieden. Einmal das überwachte Lernen und andererseits das unüberwachte Lernen. Beim überwachten Lernen werden dem Netz Eingabe- und Ausgabemuster vorgegeben. Dabei hat das Lernverfahren die Aufgabe, die Struktur des Netzes so zu ändern, daß am Ende bei der Eingabe der Eingabemuster die vorgegeben Ausgabemuster herauskommen. Beim unüberwachten Lernen werden nur die Eingabemuster in das Netz eingegeben. Das Lernverfahren hat hierbei die Aufgabe ähnliche Eingabemuster in bestimmte Klassen einzuordnen. In der Praxis werden für ökonomische Anwendungen meist überwachte Lernverfahren eingesetzt. Beispiele für diese Lernverfahren sind die Hebb-Regel, die Delta-Regel und der Back Propagation Algorithmus. Beim Back Propagation Algorithmus wird ausgehend von den Eingaben (Lerndaten) über die verborgene Schicht die Ausgabe eines KNN berechnet. Dieses Ergebnis wird mit dem gewünschten Ergebnis verglichen. Die Lerndaten dienen dem Netz zum Training. Mit Hilfe von Testdaten wird das Netz nach verschiedenen Trainingszyklen nach Fehlern überprüft und anhand der Ergebnisse die Lernregeln für das Netz festgelegt. Dabei wird versucht, den Ausgabefehler so klein wie möglich zu halten. Ausgehend von der Ausgabeschicht werden Korrekturen mittels der Lernregeln in Richtung der Eingabeschicht vorgenommen.95 Am Ende wird mit der Validierungsmenge die Güte des fertig entwickelten Netzes überprüft.96 Mit dieser Fähigkeit der Selbststrukturierung sind KNN in der Lage, eine optimale Korrespondenz (bzgl. einer Distanzfunktion wie z.B. dem mittleren quadratischen Fehler) zwischen Ein- und Ausgaben darzustellen.97 Ein großer Nachteil von KNN besteht darin, daß die KNN von einer derartigen Komplexität gekennzeichnet sind, daß ihre inneren Zusammenhänge nur schwerlich nachvollziehbar sind. Ein weiteres großes Problem bei den Lernverfahren ist das Overlearning, d.h. das Netz liefert zu den bestimmten Eingabemustern ein exaktes Ergebnis, so daß die Generalisierungsfähigkeit des Netzes verloren gehen kann. Das Netz neigt hierbei mehr zum „Merken“ der Trainingsdaten, als zur Abstraktion der darin enthaltenen Wirkungszusammenhänge, so besteht die Gefahr der zu großen Anpassung der KNN an spezielle Marktsituationen in der Vergangenheit98. Abbildung: KNN zur Risikoprognose Im Risikomanagement können KNN z.B. zur Klassifikation von Unternehmen in bestimmte Risikokategorien eingesetzt werden. Es ist aber auch denkbar, anhand von Risiko- und Unternehmensdaten das zukünftige Risiko zu prognostizieren. Hierzu müssen aber große Datenmengen über das Unternehmen und die dazugehörigen Risiken existieren, damit ein dafür vorgesehenes KNN auch trainiert und getestet werden kann. Eine weitere Möglichkeit des Einsatzes für KNN im Risikomanagement könnte das Aufdecken von bisher unbekannten Zusammenhängen sein, z.B. Korrelationszusammenhänge. In der Praxis werden bisher KNN zur Bonitätsprüfung bei Kreditvergaben anstatt einer statistischen Bonitätsprüfung eingesetzt. Aber auch für Prognoseprobleme an Finanzmärkten zur Berechnung von Aktien- und Wechselkursen, sowie Zinsentwicklungen sind KNN einsetzbar. 86 Vgl.: Hagedorn J. / Bissantz N. / Mertens P. (1997) S. 604ff; Chamoni, P. (1998a); Bissantz, N. (1998); Deventer, R. / van HOOF, A. (1998); Dilly, Ruth: Kapitel 3.1-3.3 87 Vgl.: Chamoni, P. (1998a), S.306 88 Vgl.: Chamoni, P.: (1998a), S.307 89 Vgl.: Chamoni, P.: (1998a), S.308 90 Vgl.: Chamoni, P.: (1998a), S.308 91 Vgl.: Data Mining Forum in: www.data-mining.de/mining.htm 92 Vgl.: Heitkamp, D. F. H. (1996), S.285 93 Vgl.: Chamoni, P. (1998a), S.314 94 Vgl.: Baetge, J. / Kruse, A. / Uthoff, C. (1996), S.275 95 Vgl.: Baetge, J. / Kruse, A. / Uthoff, C. (1996), S. 275 96 Vgl.: Baetge, J. / Kruse, A. / Uthoff, C. (1996), S. 276 97 Vgl.: Heitkamp, D. F. H. (1996), S. 285; Hornik, K. / Stinchcombe, M. / White, H.: (1989), S. 259-366 98 Vgl.: Heitkamp, D. F. H. (1996), S. 285 (Auszug aus der Diplomarbeit von Ralph Leipert: "Analytische Informationssysteme als Basis des Risikomanagement der Unternehmung") |