Projekt: Spracherkennung durch Künstliche Intelligenz
Das Karlsruher Institut für Technologie (KIT) hat eine KI entwickelt, die gesprochene Worte innerhalb kürzester Zeit in Worte umwandeln kann. Damit ist sie in der Spracherkennung dem Menschen weit voraus.
Mithilfe einer neu entwickelten KI werden gesprochene Worte nahezu fehlerfrei in kürzester Zeit in Worte umgewandelt. Dabei agiert die Technologie besser als ein Mensch.
Die KI stammt von Forschern aus dem Karlsruher Institut für Technologie (KIT). Messungen haben ergeben, dass innerhalb von 1,75 Sekunden englische Worte mit einer Fehlerrate von 5 Prozent umgewandelt werden. Zum Vergleich: Menschen liegen bei derartigen Messungen bei 5,5 Prozent. Somit funktioniert die Technologie in dieser Hinsicht besser als ein Mensch.
Grundsätzlich ist hierbei der Standardtest „Switchboard conversational corpus“ angewendet worden. Er beinhaltet etwa 2500 Unterhaltung mit ungefähr 500 Sprechern.
Die Herausforderungen spontaner Sprache
Das Problem an spontaner Sprache ist, dass sie für Maschinen zu lebhaft wirkt. Aus diesem Grund liegen z.B. Füllwörter wie „äh“ oder Satzabbrüche vor.
Die Technologie stellt den Kern des Lecture Translators dar, der bereits seit 2012 bei Vorlesungen in Karlsruhe Anwendung findet. Der Vorteil daran ist, dass hiermit verschiedene Erfahrungen hinsichtlich der Herausforderungen spontaner Sprache gesammelt werden können.
Das Forschungsteam arbeitet mit neuronalen Netzen in der Encoder-Decoder-Architektur und vereint in diesem Zusammenhang den LSTM- (Long Short-Term Memory) sowie den Transformer-Ansatz. Dr. Sebastian Stücker, Gruppenleiter für multilinguale Spracherkennung, äußert sich dazu wie folgt: „Unsere Stärken liegen in der Grundlagentechnik. […]
Zudem haben wir im Training neuronaler Netze die Minimierung der Verlustfunktion modifiziert und so die Latenz verringert“.
Dadurch konnten sie die Berechnungszeit deutscher Texte auf 1,3 Sekunden reduzieren und die menschliche Fehlerrate unterschreiten.
Allgemein können die Forscher bereits neue Erfolge verzeichnen, jedoch haben diese keinen vergleichbaren Benchmark.
Quelle Titelbild: iStock /alvarez
[plista]