Lead Validation - Can machine learning exceed substring pattern matching in the accuracy of detecting fake entries?

- Bachelorarbeit -


Beschreibung:

In der heutigen Zeit generieren viele Unternehmen große Mengen an potenziellen Kunden, auch bekannt als Leads, über digitale Kanäle. Dort geben Nutzer ihre persönlichen Informationen sowie relevante Daten an. Die automatische Validierung dieser Daten ist ein wichtiger Schritt vor der Weiterverarbeitung. Mittels Techniken des maschinellen Lernens soll ein System entworfen werden, das einen Lead hinsichtlich seiner Legitimität klassifiziert. Das System soll ungültige Leads mit einer höheren Genauigkeit als durch Textmustererkennung identifizieren.

Das in dieser Bachelorarbeit entworfene System besteht aus drei Modulen: Textuelle Eingaben werden mittels Repräsentation des Textes durch eingeführte Metriken syntaktisch validiert und mittels eines Random Forest Klassifikators evaluiert. Zudem werden textuelle Eingaben mittels einer zeichenbasierten Long Short-Term Memory Architektur eingebettet und die Distanz zu dem nächstgelegenen Eintrag in einer Online Blacklist berechnet. Numerische Eingaben, die keine mathematische Repräsentation des Wertes darstellen, werden analog zu der syntaktischen Analyse von textuellen Eingaben bewertet. Zuletzt werden die Werte aus den obigen Modulen rekombiniert und der Lead mittels XGBoost, einer Implementation von gradientenverstärkten Entscheidungsbäumen, klassifiziert.

Anforderungen/Kenntnisse:
Machine Learning

Bearbeitung:
Nils Loose

Betreuung:

Prof. Dr. rer. nat. Ralf Möller
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 3101 6400