في مفاجأة مذهلة، تفوقت تقنية التعرف على الكلام التي طورتها شركة التجارة الإلكترونية الصينية العملاقة على منافسيها في التصنيف العالمي

جدول المحتويات: انتقلت شركة Alibaba إلى مستوى أعلى في سباق الذكاء الاصطناعي الصوتي العالمي بعد أن احتل نموذج الكلام الجديد الخاص بها مرتبة أعلى من أنظمة OpenAI وxAI. احتلت لعبة Fun-Realtime-TTS-Preview، التي طورها Tongyi Lab التابع لشركة Alibaba، المركز الخامس في قائمة المتصدرين في ساحة التحليل الاصطناعي للكلام. ووضعت النتيجة علي بابا باعتباره النظام الصوتي الوحيد المصمم في الصين ضمن المراكز الخمسة الأولى على مستوى العالم. وفقًا لتقرير SCMP، سجلت Fun-Realtime-TTS-Preview درجة 1,190 في ساحة تحليل الكلام الاصطناعي. تقيس لوحة المتصدرين النماذج الصوتية من خلال تقييمات المستخدمين الأعمى لمقاطع الكلام التي تم إنشاؤها. يعمل التحليل الاصطناعي على تشغيل المعيار من سان فرانسيسكو. ومن بين الداعمين لها الرئيس التنفيذي السابق لـGitHub، نات فريدمان، ومؤسس Google Brain، أندرو إنج. يقارن الترتيب نماذج الكلام عبر المهام الصوتية الرئيسية. تتضمن هذه المهام تحويل الكلام إلى نص، وفهم الصوت، والتفاعل التحادثي، وإنشاء تحويل النص إلى كلام. وقد احتل نموذج علي بابا مرتبة متقدمة على المنافسين الغربيين من OpenAI وxAI في المعيار. وقد وضعت النتيجة Tongyi Lab بين أبرز مطوري الذكاء الاصطناعي للكلام على مستوى العالم. تركز الإنجاز على أنماط الكلام الصينية المعقدة. تعامل النموذج مع اللهجات واللهجات التي غالبًا ما تقلل من الدقة في أنظمة الكلام القديمة. تواجه أنظمة الذكاء الاصطناعي الصوتية الصينية مشاكل في الدقة عبر اللهجات الإقليمية. ووصف تقرير صدر في مايو من مركز مطوري بايدو حجم هذه المشكلة. ووجد التقرير أن الأنظمة التقليدية المدربة على لغة الماندرين القياسية تفقد الدقة مع مكبرات الصوت. ووجدت أيضًا أن الدقة يمكن أن تنخفض إلى أقل من 30% بالنسبة للهجات الصينية الإقليمية. أبلغت وحدة السحابة في علي بابا عن تغطية لغوية أوسع للنموذج الجديد. يدعم النظام أكثر من 30 لغة وسبع لهجات صينية رئيسية وأكثر من 20 لهجة إقليمية. حصلت الشركة أيضًا على تصنيف جيد في اختبار التعرف على الكلام. تصدر نموذج Fun-Realtime-ASR الخاص بشركة علي بابا مؤشر معدل خطأ كلمات التحليل الاصطناعي. سجل هذا النموذج معدل خطأ في الكلمات قدره 1.8%. تعني النتيجة أن النظام فاته أقل من كلمتين لكل 100 كلمة مكتوبة. وضعت علي بابا أيضًا نموذجًا لتطبيقات الذكاء الاصطناعي الصوتية للمؤسسات. يتضمن Fun-Realtime-TTS-Preview أدوات التخصيص لحالات استخدام التمويل والرعاية الصحية. وفي مجال الرعاية الصحية، يمكن للنظام تحويل الملاحظات المنطوقة للأطباء إلى سجلات سريرية منظمة. تستهدف هذه الميزة التوثيق في الوقت الفعلي داخل سير العمل الطبي. حولت شركات الذكاء الاصطناعي الصينية المزيد من الاهتمام نحو الأنظمة الصوتية المتخصصة. تسعى العديد من الشركات الآن إلى استخدامات عملية تتجاوز روبوتات الدردشة ذات الأغراض العامة. يناسب Voice AI أيضًا الأجهزة الاستهلاكية وبرامج الأعمال. يمكن للهواتف الذكية ومكبرات الصوت الذكية والمساعدين داخل السيارة دعم التفاعل الصوتي مع تدريب محدود للمستخدمين. لا يزال سوق الذكاء الاصطناعي للكلام الأوسع يشمل منافسين أمريكيين أقوياء. تواصل Google وElevenLabs قيادة العديد من التطبيقات الصوتية التجارية وأدوات المطورين. يضيف التصنيف الأخير لشركة علي بابا نموذجًا صينيًا آخر إلى المنافسة العالمية للذكاء الاصطناعي في الكلام. وتأتي نتائج الشركة في أعقاب الطلب المتزايد على الأدوات الصوتية عبر اللغات الإقليمية وإعدادات المؤسسات.