Mozilla gibt 500 Stunden Sprachdaten frei
Quelle: Mozilla

Mozilla gibt 500 Stunden Sprachdaten frei

Mozilla hat hunderttausende Sprachaufnahmen gesammelt und diese jetzt zum kostenlosen Download freigegeben. Mit der offenen Datenbank können Forscher und Entwickler ihre Spracherkennungsprojekte weiter vorantreiben – denn Sprach-Interfaces werden im Umgang mit Geräten eine immer wichtigere Rolle spielen.
30. November 2017

     

Mozilla verfolgt den Open-Source-Gedanken weiter und möchte Sprachtechnologie-Projekte unterstützen. So hat das Machine-Learning-Team des Unternehmens jetzt eine umfangreiche Sprachdatenbank im Rahmen des Projekts Common Voice öffentlich zugänglich gemacht. Die 500 Stunden Material umfassende Sammlung enthält 400'000 Aufnahmen von 200'000 Personen – und sie wird konstant durch Menschen aus aller Welt überprüft und weiter gefüttert.

Mit dieser Datensammlung möchte Mozilla Entwicklern, Forschern und Start-ups, die mit sprachbasierten Technologien arbeiten, einen offenen Zugang zu Forschungsmaterial bieten. Vergleichbare, qualitativ ähnlich hochwertige Sprachdaten können zehntausende Euro kosten und reichen oftmals im Umfang doch nicht aus, um eine Statistikgrundlage für eine Spracherkennung zu schaffen, die Nutzererwartungen trifft.


Die Machine-Learning Experten von Mozilla arbeiten ausserdem an einer Open-Source-Speech-To-Text-Engine, mittels derer Diktier-Software weiter ausgefeilt werden kann. Das Team ist sehr erfolgreich: Bei Mozilla Librispeech liegt die Erkennungsfehlerrate mittlerweile bei 6,5 Prozent. Bisher liegen alle Daten in englischer Sprache vor, aber bald sollen weitere Idiome dazukommen.

Die Daten stehen bei Mozilla Common Voice zum kostenlosen Download bereit. (rpg)


Weitere Artikel zum Thema

Microsofts Spracherkennung ist so gut wie die menschliche

21. August 2017 - Ein Forschungsteam von Microsoft hat einen Meilenstein in der Spracherkennung erreicht. Die vom Team entwickelten Algorithmen erkennen Sprache so effizient wie Menschen.

Statistik Stadt Zürich stellt Open-Source-Software zur Verfügung

15. Juni 2017 - Die Statistik-Abteilung der Stadt Zürich macht per Ende Jahr eine Open-Source-Software öffentlich, mit der interaktive Grafiken erstellt werden können, um unterschiedliche Daten zu veranschaulichen.

Spracherkennung versteht Schweizerdeutsch

20. Februar 2017 - Das Walliser Start-up Recapp bietet eine Spracherkennungslösung, die auf Branchen fokussiert ist und ausserdem Mundart versteht.


Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Vor wem mussten die sieben Geisslein aufpassen?
GOLD SPONSOREN
SPONSOREN & PARTNER