Cryptonews

En una sorprendente sorpresa, la tecnología de reconocimiento de voz del gigante chino del comercio electrónico supera a sus rivales en las clasificaciones internacionales

Source
CryptoNewsTrend
Published
En una sorprendente sorpresa, la tecnología de reconocimiento de voz del gigante chino del comercio electrónico supera a sus rivales en las clasificaciones internacionales

Alibaba ha avanzado en la carrera global de IA de voz después de que su nuevo modelo de voz se ubicara por encima de los sistemas OpenAI y xAI. Fun-Realtime-TTS-Preview, desarrollado por Tongyi Lab de Alibaba, ocupó el quinto lugar en la clasificación de Artificial Analysis Speech Arena. El resultado colocó a Alibaba como el único sistema de voz diseñado en China dentro del top cinco mundial. Según el informe SCMP, Fun-Realtime-TTS-Preview registró una puntuación de 1190 en Artificial Analysis Speech Arena. La tabla de clasificación mide los modelos de voz a través de calificaciones de usuarios ciegos de los clips de voz generados. Artificial Analysis opera el punto de referencia desde San Francisco. Entre sus patrocinadores se encuentran el ex director ejecutivo de GitHub, Nat Friedman, y el fundador de Google Brain, Andrew Ng. La clasificación compara modelos de habla en tareas de voz clave. Estas tareas incluyen conversión de voz a texto, comprensión de voz, interacción conversacional y generación de texto a voz. El modelo de Alibaba se ubicó por delante de sus rivales occidentales de OpenAI y xAI en el punto de referencia. El resultado colocó a Tongyi Lab entre los principales desarrolladores mundiales de inteligencia artificial del habla. El logro se centró en patrones complejos del habla china. El modelo maneja dialectos y acentos que a menudo reducen la precisión en sistemas de habla más antiguos. Los sistemas de inteligencia artificial de voz chinos enfrentan problemas de precisión en todos los dialectos regionales. Un informe de mayo del Centro de Desarrolladores de Baidu describió la magnitud de ese problema. El informe encontró que los sistemas tradicionales entrenados en mandarín estándar pierden precisión con hablantes con acento. También descubrió que la precisión puede caer por debajo del 30% para los dialectos regionales chinos. La unidad de nube de Alibaba informó una cobertura lingüística más amplia para el nuevo modelo. El sistema admite más de 30 idiomas, siete dialectos chinos principales y más de 20 acentos regionales. La empresa también obtuvo una buena puntuación en las pruebas de reconocimiento de voz. El modelo Fun-Realtime-ASR de Alibaba encabezó el índice de tasa de error de palabras de análisis artificial. Ese modelo registró una tasa de error de palabras del 1,8%. La puntuación significa que el sistema omitió menos de dos palabras por cada 100 palabras transcritas. Alibaba también ha posicionado el modelo para aplicaciones empresariales de inteligencia artificial de voz. Fun-Realtime-TTS-Preview incluye herramientas de personalización para casos de uso de finanzas y atención médica. En el sector sanitario, el sistema puede convertir las notas habladas de los médicos en registros clínicos estructurados. Esta característica apunta a la documentación en tiempo real dentro de los flujos de trabajo médicos. Las empresas chinas de IA han centrado más su atención en los sistemas de voz especializados. Muchas empresas ahora buscan usos prácticos más allá de los chatbots de uso general. Voice AI también se adapta a dispositivos de consumo y software empresarial. Los teléfonos inteligentes, los parlantes inteligentes y los asistentes en el automóvil pueden admitir la interacción basada en voz con una capacitación limitada del usuario. El mercado más amplio de la IA del habla todavía incluye fuertes competidores estadounidenses. Google y ElevenLabs continúan liderando muchas aplicaciones de voz comerciales y herramientas para desarrolladores. La última clasificación de Alibaba añade otro modelo chino a la competencia mundial de inteligencia artificial del habla. Los resultados de la empresa siguen la creciente demanda de herramientas de voz en idiomas regionales y entornos empresariales.

En una sorprendente sorpresa, la tecnología de reconocimiento de voz del gigante chino del comercio electrónico supera a sus rivales en las clasificaciones internacionales