Spracherkennungsbibliothek von Mozilla umfasst jetzt 18 Sprachen

von Simon Wegmüller

28. Februar 2019 - Mozilla hat die neueste Version von Common Voice veröffentlicht, einer Open-Source-Sammlung von transkribierten Sprachdaten, die nun über 1400 Stunden Sprachproben von 42'000 Mitwirkenden in 19 Sprachen umfasst.

Im vergangenen Jahr hat Mozilla daran gearbeitet, seine Common Voice Initiative um Open Source Spracherkennungsdatensätze in weiteren Sprachen zu erweitern. Mozilla hatte Common Voice im Juni 2017 erstmals angekündigt und lud Freiwillige aus der ganzen Welt ein, Textausschnitte mit ihrer Stimme über Web und mobile Apps aufzunehmen.

Jetzt hat die Organisation die neuste Version von Common Voice veröffentlicht, die nunmehr in 18 verschiedenen Sprachen verfügbar ist, darunter Niederländisch, Hakha-Chin, Esperanto, Farsi, Baskisch, Spanisch, Französisch, Deutsch, Mandarin-Chinesisch (traditionell), Walisisch und Kabyle. Die Sammlung besteht aus 1400 Stunden aufgezeichneten Sprachclips von 42'000 Mitwirkenden.

Dabei handelt es sich um einen der grössten mehrsprachigen Datensätze seiner Art, behauptet Mozilla, und der Korpus soll bald noch grösser werden. Das Unternehmen sagt, dass die Datenerhebung in 70 Sprachen aktiv im Gange ist.