Zur Übersicht

4.12.2024

Dr. Anne-Kathrin Schumann

Automatische Übersetzung für Ober- und Niedersorbisch

Sprach-KI für zwei "kleine" Sprachen

Für das WITAJ-Sprachzentrum in Bautzen entwickeln wir automatische Übersetzungsmodelle für die Sprachenpaare Obersorbisch-Deutsch und Niedersorbisch-Deutsch. Ober- und Niedersorbisch werden in der sächsischen und brandenburgischen Lausitz gesprochen und sind westslawische Sprachen. Die Zahl der Sprecher und Sprecherinnen für beide Sprachen zusammengenommen liegt unter 100.000, so dass man hier mit Fug und Recht von "kleinen" Sprachen sprechen kann.

Warum sind auch kleine Sprachen wichtig?

Sprachen - auch die kleinen unter ihnen - sind Teil unserer Kultur und Geschichte. Sie vermitteln nicht nur das Wissen und die Erfahrungen früherer Generationen, sie verraten uns durch ihre Struktur und Verbreitung auch viel über die Entstehung und Entwicklung unserer Gesellschaft. Insbesondere ist jede Sprache für ihre Sprecherinnen und Sprecher ein ganz wesentlicher Teil ihrer Persönlichkeit und Identität - gerade die wichtigsten Dinge lassen sich allzu oft nur in der Muttersprache ausdrücken. Selbstverständlich ist deshalb jede Sprache wertvoll. "Kleine" Sprachen benötigen aber unsere besondere Unterstützung, damit sie nicht nur als kulturelles Zeugnis erhalten bleiben, sondern sich auch lebendig entwickeln.

Welche Bedeutung hat NLP für kleine Sprachen?

Natural Language Processing (NLP) ist gerade für kleine Sprachen von besonderer Bedeutung und kann ihre lebendige Entwicklung und tägliche Nutzung wesentlich fördern. Zum Beispiel besteht im Hinblick auf das Sorbische nach wie vor die Schwierigkeit, dass die Sprache immer noch nur in bestimmten sozialen Kontexten genutzt werden kann, aber nur selten auf dem Amt, auf der Arbeit oder beim Online-Shopping: Häufig liegen die benötigten Informationen einfach nicht auf Sorbisch vor. Diese Informationslücke behindert aber die Verbreitung und Weiterentwicklung der Sprache. Nun können jedoch mit Hilfe von NLP Texte blitzschnell und automatisch aus dem Sorbischen ins Deutsche oder aus dem Deutschen ins Sorbische übersetzt werden: Diese Technologie nennt man "Maschinelle Übersetzung" oder auf Englisch "Machine Translation" (MT). Mit Hilfe von MT kann nahezu jede beliebige Information schnell, günstig und in guter Qualität auf Sorbisch bereitgestellt werden, so dass Sorbisch-Sprechende Gelegenheit haben, ihre Muttersprache nicht nur zu Hause am Küchentisch, sondern in möglichst vielen Lebenssituationen zu nutzen.

Welche Herausforderungen bewältigen wir in diesem Projekt?

Bei der Entwicklung von NLP-Modellen für "kleine" Sprachen besteht in der Regel das Problem, dass nur wenige Ressourcen im Sinne von KI-Trainingsdaten zur Verfügung stehen. Die sorbischen Sprachen sind diesbezüglich keine Ausnahme. Allerdings arbeitet das Witaj-Sprachzentrum schon seit Jahren an der Erstellung geeigneter Trainingsdatensätze und verfügt auch bereits über selbsttrainierte Übersetzungsmodelle für das Ober- und Niedersorbische, die in die Sotra-Übersetzungs-App eingebunden sind. t2k entwickelt diese Modelle kontinuierlich weiter und berät zu Aspekten der Datenhaltung und der technologischen Weiterentwicklung, insbesondere im Hinblick auf die aktuellen Transformer-Modelle und neuere Ansätze aus der MT-Forschung.