Sprache

Citation Recognition für juristische Plattformen auf der SDS 2025

08.06.2025

Citation Recognition in Large-Scale Legal Platforms Using Transformer Models

Frustriert von regulären Ausdrücken, die bei Randfällen versagen, und LLMs, die ewig brauchen, um zu antworten? Wir haben uns gefragt: Wie lassen sich juristische Zitate zuverlässig extrahieren, ohne die Leistung zu beeinträchtigen? Die Antwort ist ein auf BERT basierendes NER-System – schnell, robust und produktionsreif.

Ein Forschungspaper, basierend auf der Bachelorarbeit von Mirio Eggmann, Jasmin Fitz und Dario Glasl, wurde als Full Paper zur 12th IEEE Swiss Conference on Data Science (SDS) 2025 angenommen.

Forschungsschwerpunkt:

Klassische regelbasierte Ansätze stossen bei kontextabhängigen und sich wandelnden Zitierformaten an ihre Grenzen. LLMs bieten zwar hohe Genauigkeit, sind jedoch für produktive Re-Indexierungspipelines zu rechenintensiv.

Die vorgeschlagene Lösung basiert auf feinjustierten encoder-only Transformer-Modellen (BERT). Damit lassen sich über 3.000 juristische Dokumente in nur 32 Minuten effizient verarbeiten – ein signifikanter Fortschritt hinsichtlich Skalierbarkeit und Geschwindigkeit.

Bedeutung des Projekts:

  • Bestätigung der hohen Qualität der Ausbildung im Studiengang Informatik an der OST
  • Beispiel für die gelungene Verknüpfung von Hochschulwissen mit industrieller Praxis
  • Ergebnis einer engen und fachlich fundierten Betreuung durch das Dozierendenteam

Die Präsentation des Papers fand am 27. Juni 2025 im Rahmen der SDS in Zürich statt.

Gratulation an das Projektteam zu dieser anerkannten Leistung im Bereich angewandter Forschung.