Dans un bouleversement stupéfiant, la technologie de reconnaissance vocale du géant chinois du commerce électronique surpasse ses concurrents dans les classements internationaux

Alibaba a progressé dans la course mondiale à l'IA vocale après que son nouveau modèle vocal se soit classé au-dessus des systèmes OpenAI et xAI. Fun-Realtime-TTS-Preview, développé par le laboratoire Tongyi d'Alibaba, s'est classé cinquième au classement Artificial Analysis Speech Arena. Le résultat place Alibaba comme le seul système vocal de conception chinoise parmi les cinq premiers mondiaux. Selon le rapport SCMP, Fun-Realtime-TTS-Preview a enregistré un score de 1 190 sur l'Artificial Analysis Speech Arena. Le classement mesure les modèles vocaux grâce aux évaluations aveugles des clips vocaux générés par les utilisateurs. Artificial Analysis exploite le benchmark depuis San Francisco. Ses bailleurs de fonds incluent l'ancien directeur général de GitHub, Nat Friedman, et le fondateur de Google Brain, Andrew Ng. Le classement compare les modèles vocaux pour les tâches vocales clés. Ces tâches incluent la synthèse vocale, la compréhension vocale, l'interaction conversationnelle et la génération de synthèse vocale. Le modèle d’Alibaba s’est classé devant ses rivaux occidentaux d’OpenAI et de xAI sur l’indice de référence. Le résultat place Tongyi Lab parmi les principaux développeurs mondiaux d’IA vocale. La réussite était centrée sur des modèles complexes de discours chinois. Le modèle gérait des dialectes et des accents qui réduisent souvent la précision dans les anciens systèmes vocaux. Les systèmes d’IA vocale chinois sont confrontés à des problèmes de précision dans les dialectes régionaux. Un rapport de mai du Baidu Developer Center décrit l'ampleur de ce problème. Le rapport révèle que les systèmes traditionnels formés au mandarin standard perdent en précision avec les locuteurs accentués. Il a également constaté que la précision peut descendre en dessous de 30 % pour les dialectes chinois régionaux. L’unité cloud d’Alibaba a signalé une couverture linguistique plus large pour le nouveau modèle. Le système prend en charge plus de 30 langues, sept dialectes chinois majeurs et plus de 20 accents régionaux. L’entreprise s’est également bien classée aux tests de reconnaissance vocale. Le modèle Fun-Realtime-ASR d’Alibaba est en tête de l’indice de taux d’erreur de mots d’analyse artificielle. Ce modèle a enregistré un taux d'erreur de mot de 1,8 %. Le score signifie que le système a manqué moins de deux mots pour 100 mots transcrits. Alibaba a également positionné le modèle pour les applications d'IA vocale d'entreprise. Fun-Realtime-TTS-Preview comprend des outils de personnalisation pour les cas d'utilisation de la finance et de la santé. Dans le domaine de la santé, le système peut transformer les notes orales des médecins en dossiers cliniques structurés. Cette fonctionnalité cible la documentation en temps réel dans les flux de travail médicaux. Les entreprises chinoises d’IA se tournent davantage vers les systèmes vocaux spécialisés. De nombreuses entreprises recherchent désormais des utilisations pratiques au-delà des chatbots à usage général. Voice AI s’adapte également aux appareils grand public et aux logiciels d’entreprise. Les smartphones, les haut-parleurs intelligents et les assistants embarqués peuvent prendre en charge les interactions vocales avec une formation limitée des utilisateurs. Le marché plus large de l’IA vocale comprend toujours de puissants concurrents américains. Google et ElevenLabs continuent de diriger de nombreuses applications vocales commerciales et outils de développement. Le dernier classement d’Alibaba ajoute un autre modèle chinois au concours mondial d’IA vocale. Les résultats de l’entreprise font suite à la demande croissante d’outils vocaux dans les langues régionales et dans les environnements d’entreprise.