STUDIENSCHWERPUNKT FINANZMATHEMATIK UND DATA MINING

Data Mining

Als Data Mining bezeichnet man das systematische Analysieren von Daten mit dem Ziel potentiell nützliche Informationen zu gewinnen. Für die Herkunft der betrachteten Daten gibt es dabei keine Einschränkungen: Es kann sich um die Häufigkeitsangaben einer ökologischen Studie zur Insektenverbreitung handeln, um Betriebskennzahlen einer Produktionsanlage für Insulin oder um Ergebnisse einer Bürgerbefragung zum Thema Geschwindigkeitsbegrenung auf Autobahnen.

Data Mining ist kein Teilgebiet der Mathematik, es kommen aber verschiedene Bereiche der Mathematik im Data Mining zum Einsatz: Stochastik, Geometrie und Analysis um nur einige zu nennen. Daneben spielt das Programmieren, insbesondere in Sprachen wie zum Beispiel R oder Python eine wesentliche Rolle.

Die Grafik rechts zeigt ein Beispiel für Data Mining in medizinischen Daten: Jeder schwarze oder rote Punkt in den beiden Diagrammen repräsentiert zwei aufeinander folgende Herzschläge; die Koordinaten eines Punktes sind die Zeitdauern der beiden Herzschläge gemessen in Millisekunden. Je weiter ein Punkt also von der von links unten nach rechts oben laufenden Diagonalen im Koordinatensystem entfernt ist, desto größer ist die Änderung in der Herzschlagdauer im Vergleich zum vorherigen Herzschlag.

Aus medizinischer Sicht können Herzschläge von einem Kardiologen abhängig von der Art der Auslösung durch das Reizleitungssystem des Herzes in normale und anormale klassifiziert werden. Sind beide einen Punkt repräsentierenden Herzschläge normal, so erscheint dieser in schwarzer Farbe, sonst in roter. Es ist kein Zufall, dass die meisten roten Punkte nicht in der Nähe der oben erwähnten Diagonalen liegen, denn eine erhebliche Änderung der Herzschlagdauer innerhalb von zwei Herzschlägen ist kein typisches Verhalten des Herzes.

Die mathematische Methode der »Diskriminanzanalyse« ermöglicht es datenbasiert, im vorliegenden Fall auf der Basis von 3000 Herzschlägen, die beiden cyan-farbenen Kurven zu bestimmen -- siehe das obere der beiden Diagramme. Diese trennen die beiden Punktgruppen (schwarz und rot) im Sinne der Wahrscheinlichkeitstheorie optimal: Man kann einen beliebigen Punkt rein mathematisch dahingehend klassifizieren, ob die beiden zugehörigen Herzschläge normal sind oder nicht, indem man ermittelt, ob er zwischen den beiden Kurven liegt. Bei dieser Strategie ist salopp gesprochen die Wahrscheinlichkeit für eine im Vergleich mit der kardiologischen Klassifikation korrekte Zuordnung maximal. Diese »Trefferwahrscheinlichkeit« wird auch durch die von dunkelgrün nach gelb changierenden Farben symbolisiert, wobei dunkelgrün für eine hohe Trefferquote bei Klassifikation als »normal« steht. Entsprechend deutet ein heller werdendes Grün eine sinkende Trefferquote an, während die Trefferquote für die Klassifikation als »anormal« entsprechend steigt.

Im unteren Diagramm sieht man das Ergebnis einer Klassifikation von ca. 15000 Herzschlägen mit Hilfe der beiden Kurven: Schwarze Punkte, die nicht zwischen den beiden Kurven liegen, sowie rote Punkte mit einer Position zwischen den beiden Kurven, werden durch die Methode falsch klassifiziert. Das Bemerkenswerte ist, dass die dargestellten 15000 Punkte nicht in die Ermittlung der beiden für die Klassifikation genutzten Kurven eingeflossen sind.