Azure AI Speech hat sein Personal Voice-Angebot auf Version 2.1 angehoben und erzielt damit laut
Microsoft eine höhere Aussprachegenauigkeit und bessere Steuerbarkeit der generierten Stimmen. Mit dem neuen Zero-Shot-TTS-Modell DragonV2.1Neural sollen sich Emotionen, Akzente und Umgebungscharakteristika präziser steuern lassen, während die Prosodie (Betonung, Tonfall und Sprechtempo) stabiler wird. Benchmark-Ergebnisse im Blog zeigen eine durchschnittliche Reduktion der Word Error Rate um 12,8 Prozent gegenüber dem Vorgängermodell.
Das Modell erlaube auch, mit nur 5 bis 90 Sekunden Sprachprobe eine personalisierte KI-Stimme zu erzeugen und in über 100 Sprachausgaberegionen mit einer Latenz von unter 300 ms auszugeben. Über SSML-Phonem-Tags und benutzerdefinierte Lexika sollen Entwickler zudem gezielt die Aussprache von Eigennamen und Fachbegriffen festlegen können.
Ab Mitte August soll "DragonV2.1Neural" im Speech Studio verfügbar sein. Entwickler greifen über die BaseModels_List-Operation der Custom Voice API darauf zu. Alle technischen Details und Beispiele zur Integration finden sich im offiziellen
Blogbeitrag von Micrososft.
(dow)