In einer erstaunlichen Überraschung übertrifft die Spracherkennungstechnologie des chinesischen E-Commerce-Riesen seine Konkurrenten in internationalen Rankings

Inhaltsverzeichnis Alibaba ist im weltweiten Wettlauf um Sprach-KI nach oben gerückt, nachdem sein neues Sprachmodell vor OpenAI- und xAI-Systemen rangiert. Fun-Realtime-TTS-Preview, entwickelt vom Tongyi Lab von Alibaba, belegte den fünften Platz in der Rangliste der Artificial Analysis Speech Arena. Das Ergebnis platzierte Alibaba als einziges in China entwickeltes Sprachsystem unter den weltweiten Top 5. Laut SCMP-Bericht verzeichnete Fun-Realtime-TTS-Preview in der Artificial Analysis Speech Arena eine Punktzahl von 1.190. Das Leaderboard misst Sprachmodelle durch blinde Benutzerbewertungen generierter Sprachclips. Artificial Analysis betreibt den Benchmark von San Francisco aus. Zu seinen Unterstützern gehören der ehemalige GitHub-Chef Nat Friedman und der Gründer von Google Brain, Andrew Ng. Das Ranking vergleicht Sprachmodelle für wichtige Sprachaufgaben. Zu diesen Aufgaben gehören Speech-to-Text, Sprachverständnis, Konversationsinteraktion und Text-to-Speech-Generierung. Alibabas Modell lag im Benchmark vor den westlichen Konkurrenten von OpenAI und xAI. Das Ergebnis machte Tongyi Lab zu einem der weltweit führenden Entwickler von Sprach-KI. Im Mittelpunkt der Leistung standen komplexe chinesische Sprachmuster. Das Modell verarbeitete Dialekte und Akzente, die in älteren Sprachsystemen häufig die Genauigkeit beeinträchtigen. Chinesische Sprach-KI-Systeme haben in regionalen Dialekten Probleme mit der Genauigkeit. In einem Mai-Bericht des Baidu Developer Center wurde das Ausmaß dieses Problems beschrieben. Der Bericht ergab, dass herkömmliche Systeme, die auf Standard-Mandarin trainiert wurden, bei akzentuierten Sprechern an Genauigkeit verlieren. Es wurde außerdem festgestellt, dass die Genauigkeit bei regionalen chinesischen Dialekten unter 30 % sinken kann. Alibabas Cloud-Abteilung meldete eine breitere Sprachabdeckung für das neue Modell. Das System unterstützt mehr als 30 Sprachen, sieben große chinesische Dialekte und über 20 regionale Akzente. Auch bei Spracherkennungstests schnitt das Unternehmen gut ab. Das Fun-Realtime-ASR-Modell von Alibaba führte den Index der Wortfehlerrate der künstlichen Analyse an. Dieses Modell verzeichnete eine Wortfehlerrate von 1,8 %. Die Punktzahl bedeutet, dass das System weniger als zwei Wörter pro 100 transkribierte Wörter übersehen hat. Alibaba hat auch das Modell für Sprach-KI-Anwendungen für Unternehmen positioniert. Fun-Realtime-TTS-Preview umfasst Anpassungstools für Anwendungsfälle im Finanz- und Gesundheitswesen. Im Gesundheitswesen kann das System gesprochene Notizen von Ärzten in strukturierte klinische Aufzeichnungen umwandeln. Diese Funktion zielt auf die Echtzeitdokumentation innerhalb medizinischer Arbeitsabläufe ab. Chinesische KI-Firmen haben ihr Augenmerk stärker auf spezialisierte Sprachsysteme gerichtet. Viele Unternehmen suchen mittlerweile nach praktischen Einsatzmöglichkeiten, die über die Allzweck-Chatbots hinausgehen. Voice AI eignet sich auch für Verbrauchergeräte und Unternehmenssoftware. Smartphones, intelligente Lautsprecher und Assistenten im Auto können sprachbasierte Interaktion mit begrenzter Benutzerschulung unterstützen. Der breitere Sprach-KI-Markt umfasst immer noch starke US-Konkurrenten. Google und ElevenLabs sind weiterhin führend bei vielen kommerziellen Sprachanwendungen und Entwicklertools. Das neueste Ranking von Alibaba erweitert den globalen Sprach-KI-Wettbewerb um ein weiteres chinesisches Modell. Die Ergebnisse des Unternehmens folgen der steigenden Nachfrage nach Sprachtools in regionalen Sprachen und Unternehmensumgebungen.