LDA Topic Models

- Bachelorarbeit -


Beschreibung:
In der heutigen Zeit existieren große Mengen an Textdokumenten, die zu einem Korpus zusammengefasst automatisch analysiert werden sollen. Verfahren zur Dimensionsreduktion bieten eine Möglichkeit, die Textdokumente zu vergleichen und zu gruppieren. Wir nehmen an, dass stetig neue Dokumente dazukommen und somit ein zu analysierender Korpus nie vollständig ist.
Ein bekanntes Verfahren zur Topic-Modellierung ist Latent Dirichlet Allocation (LDA). LDA führt eine Dimensionsreduktion eines Korpus auf Topics, bestehend aus Topicverteilungen, durch und lernt eine Repräsentation, d.h. ein Modell, für einen statischen Korpus.

Um auch neu dazukommende Dokumente analysieren zu können, ist es in der Regel ratsam das gelernte Modell zu erneuern. Die Neuberechnung eines Modells ist jedoch sehr rechenintensiv. Gerade bei nur wenigen neuen Dokumenten kann es sinnvoll sein, das vorhandene Topic Modell nur an die neuen Dokumente anzupassen. Aus diesem Grund evaluieren wir in dieser Bachelorarbeit unterschiedliche Verfahren, die zum Ziel haben, bestehende Modelle an neue Dokumente anzupassen.

Anforderungen/Kenntnisse:
- Topic-Modellierung (LDA, Online LDA)
- Programmierkenntnisse (Python, Java)

Bearbeitung:
Magnus Bender

Ergebnis:
Die Ausarbeitung kann im Institut für Informationssysteme angefordert werden.

Betreuung:

Prof. Dr. rer. nat. Ralf Möller
Institut für Informationssysteme
Ratzeburger Allee 160 ( Gebäude 64 - 2. OG)
23562 Lübeck
Telefon: 0451 / 3101 6400