Google verbessert Cloud Speech API

von Luca Cannellotto

15. August 2017 - Google hat die 2016 lancierte Cloud Speech API verbessert und erweitert. Das Update umfasst die Unterstützung von Audiodateien mit einer Länge von bis zu drei Stunden und 30 weiterer Sprachen.

Google hat seine Cloud Speech API 2016 lanciert und nun merklich verbessert und erweitert. Wie einem Blogbeitrag zu entnehmen ist, ist die Spracherkennung, die dank maschinellem Lernen Sprache in Text umwandeln kann, neu in der Lage, Audiodateien von bis zu drei Stunden Länge zu verarbeiten. Bisher lag die maximale Länge bei 80 Minuten. Weiter bietet der Dienst nun Timestamps für jedes einzelne Wort des Textes, so dass Nutzer mittels einer Suche nun zu einzelnen Wörtern in der Audiodatei springen können.

Bisher war die Google Speech API in der Lage, 89 Sprachen zu erkennen und zu transkribieren, mit dem Update kommen 30 Sprachen hinzu, die von über einer Milliarde Menschen gesprochen werden. Diese umfassen etwa die amharische Sprache, die in Äthiopien gesprochen wird, sowie armenisch, georgisch, nepalesisch und verschiedene indische Sprachen (eine vollständige Liste der unterstützten Sprachen findet sich hier). Eigenen Angaben zufolge will Google damit mehr Menschen erreichen und ihnen die Dienstleistung zur Verfügung stellen.