KonWAx (KonzeptWandel mit Axiomen)

Projektbetreuung: Dr. Özgür L. Özcep

Beschreibung:

In den meisten Anwendungen des maschinellen Lernens besteht die Aufgabe, aus gegebenen Trainingsdaten eine Zielfunktion f: Dom->Range zu erlernen, die zu Eingaben aus Test-Datensätzen - mit hoher Wahrscheinlichkeit - den korrekten f-Wert voraussagt (bzw. einen f-Wert bestimmt, der nur einen kleinen Fehler aufweist). Ein einfaches Beispiel ist die Bestimmung des Typs eines Wagens (Familienwagen, Sportwagen, etc.) aus Eingabe-Merkmalsvektoren der Form <PS-Stärke, Anzahl-der-Türen>.
Der Definitionsbereich Dom der Funktion f ist eine Menge von Daten, die als Vektoren in einem Merkmalsraum (im Beispiel: Vektoren der Form <PS-Stärke, Anzahl der Türen>) repräsentiert sind. Auch der Bildbereich Range besteht aus Merkmalsvektoren, in einem möglicherweise anderen Merkmalsraum (z.B. Raum von Vektoren des Typs (Autotyp)). Die Zuordnung durch die Funktion f ist in vielen Fällen jedoch aufgrund von Unsicherheiten bzgl. der (Un-)Vollständigkeit der Daten und der Merkmalsdimension nicht eindeutig. Stattdessen werden die Merkmale wahrscheinlichkeitstheoretisch durch Zufallsvariable repräsentiert, so dass z.B. Wahrscheinlichkeitsverteilungen der Form P(PS-Stärke, Anzahl-der-Türen) oder bedingte Wahrscheinlichkeitsverteilungen P(Autotyp | PS-Stärke, Anzahl-der-Türen) definiert werden können. Die Zufallsvariablen des Bildbereichs (im Beispiel: Autotyp) werden Zielvariable genannt, die Nicht-Ziel-Variablen werden als Datenvariablen bezeichnet. Im Fall, dass der Ausgabe-Merkmalsraum nur aus einer booleschen Variablen besteht, wird statt “Funktion” auch der Begriff “Konzept” verwendet.
Im Folgenden bezeichne X einen Vektor der Datenmerkmale und es stehe Y für eine boolesche Zielvariable. In der wichtigen Unterklasse der überwachten Lernverfahren enthält der Merkmalsraum der Trainingsdaten auch die Zielvariable: Mit jedem Datensatz wird die richtige Instanz der Zielvariablen beschrieben.

Der Fokus des Projekts liegt auf der Untersuchung einer Unterklasse von überwachten maschinellen Verfahren, bei denen die Daten nicht als Ganzes im Vorhinein (offline) gegeben sind, sondern nach und nach in Datenströmen (online) an das verarbeitende System gelangen. In den meisten dieser Szenarien muss ein immer wiederkehrendes Phänomen berücksichtigt werden: die relevanten Verteilungen P(Y|X), P(X) sind nicht stationär, sie können sich ändern. Ändert sich P(Y|X), wird von realem Konzeptwandel (engl: real concept drift) gesprochen, ändert sich P(X), wird von virtuellem Konzeptwandel gesprochen. Maschinelle Lernverfahren, die den Konzeptwandel berücksichtigen, werden auch als adaptive Online-Lernverfahren bezeichnet.

In der Literatur sind verschiedene etablierte Verfahren zum adaptiven Online-Lernen unter Konzeptwandel beschrieben [1]. Der in den Verfahren verwendete Konzeptbegriff ist quantitativ-wahrscheinlichkeitstheoretischer Natur.

Im dem Projekt wird eine Brücke zwischen diesem quantitativ-wahrscheinlichkeitstheoretischen Konzeptbegriff und dem qualitativ-logischen Konzeptbegriff gebaut, um von den Vorteilen zweier Gebiete (Datengestützte Modellierung aus dem Bereich des maschinellen Lernens vs. axiomatische, Modell-eliminierende Methodik und Schlussverfahren der Logik) zu profitieren.

Es soll ein adaptives Online-Lernverfahren entwickelt werden, in dem die statistische Modellierung von Konzepten durch Axiome kontrolliert wird. Ein einfaches, aber dennoch illustratives Beispiel ist das Hinzufügen von Ausschluss-Axiomen, die im Fall des Auto-Szenarios etwa besagen, dass ein Familienauto kein Sportauto ist. Diese Axiome verhindern, dass für einen konkreten Merkmalsvektor x beide Wahrscheinlichkeiten P(Autotyp=familienauto | x) und P(Autotyp=sportauto | x) größer als 0,5 sind. Relevant für den Ansatz sind Vorarbeiten wie z.B. [2]. Anders als in [2] wird in diesem Projekt eine mächtigere Sprache zur Axiomatisierung betrachtet (Prädikatenlogik statt Aussagenlogik).

Literatur:

[1] J. a. Gama, I. Zliobaite, A. Bifet, M. Pechenizkiy, and A. Bouchachia: A survey on concept drift adaptation. ACM Comput. Surv., 46(4):44:1-44:37, Mar. 2014.

[2] J. Deng, N. Ding, Y. Jia, A. Frome, K. Murphy, S. Bengio, Y. Li, H. Neven, and H. Adam: Large-scale object classification using label relation graphs. In D. Fleet et al, editors, Computer Vision -- ECCV 2014, volume 8689 of Lecture Notes in Computer Science, pages 48-64. Springer International Publishing, 2014.