Crowdsourcing für Schweizerdeutsches Speech-to-Text

Auf einen Blick

Projektleiter/in : Manuela Hürlimann
Projektteam : Malgorzata Anna Ulasik
Projektstatus : abgeschlossen
Drittmittelgeber : Interne Förderung (ZHAW digital / Digital Futures Fund)
Kontaktperson : Manuela Hürlimann

Beschreibung

Die Verschriftlichung von gesprochenem Schweizerdeutsch (Speech-to-Text, STT) ist ein wichtiges Problem, das viele Firmen bei uns nachfragen. Anwendungen sind z.B. automatischer Kundensupport, Voice Assistants wie Siri, TV-Untertitelung, etc. Bisher existiert keine praxistaugliche Lösung, was vor allem daran liegt, dass es (fast) keine Daten gibt um STT-Modelle zu trainieren: typischerweise braucht es tausende Stunden Audio mit Transkripten, bislang sind nur 300h für Schweizerdeutsch verfügbar. In diesem Projekt sammeln wir solche Daten für alle Dialekte, indem wir mit Hilfe der Schweizer Bevölkerung in grossem Umfang Audio-Beispiele aufnehmen, basierend auf hochdeutschen Sätzen, die wir zur Verfügung stellen. Dafür nutzen wir eine Web-Applikation, die auf dem Mozilla CommonVoice-Framework basiert und für die Bedürfnisse des Projektes angepasst wird.

Zurück