ایک حیران کن پریشانی میں، چینی ای کامرس دیو کی اسپیچ ریکگنیشن ٹیکنالوجی نے بین الاقوامی درجہ بندی میں حریفوں کو پیچھے چھوڑ دیا

مندرجات کا جدول علی بابا عالمی آواز AI کی دوڑ میں اپنے نئے اسپیچ ماڈل کو OpenAI اور xAI سسٹمز سے اوپر رکھنے کے بعد اوپر چلا گیا ہے۔ Fun-Realtime-TTS-Preview، جسے Alibaba کی Tongyi Lab نے تیار کیا ہے، مصنوعی تجزیہ اسپیچ ایرینا لیڈر بورڈ پر پانچویں نمبر پر ہے۔ نتیجہ نے علی بابا کو عالمی ٹاپ فائیو میں واحد چینی انجینئرڈ وائس سسٹم کے طور پر رکھا۔ ایس سی ایم پی کی رپورٹ کے مطابق، فن-ریئل ٹائم-ٹی ٹی ایس-پریویو نے مصنوعی تجزیہ اسپیچ ایرینا پر 1,190 کا اسکور ریکارڈ کیا۔ لیڈر بورڈ تیار کردہ اسپیچ کلپس کی بلائنڈ یوزر ریٹنگز کے ذریعے صوتی ماڈلز کی پیمائش کرتا ہے۔ مصنوعی تجزیہ سان فرانسسکو سے بینچ مارک چلاتا ہے۔ اس کے حمایتیوں میں GitHub کے سابق چیف ایگزیکٹو نیٹ فریڈمین اور گوگل برین کے بانی اینڈریو این جی شامل ہیں۔ درجہ بندی کلیدی آواز کے کاموں میں تقریری ماڈلز کا موازنہ کرتی ہے۔ ان کاموں میں اسپیچ ٹو ٹیکسٹ، صوتی سمجھ بوجھ، بات چیت کی بات چیت، اور ٹیکسٹ ٹو اسپیچ جنریشن شامل ہیں۔ علی بابا کا ماڈل بینچ مارک پر OpenAI اور xAI سے مغربی حریفوں سے آگے ہے۔ نتیجہ نے Tongyi Lab کو عالمی اسپیچ AI ڈویلپرز میں سرفہرست رکھا۔ کامیابی چینی تقریر کے پیچیدہ نمونوں پر مرکوز تھی۔ ماڈل نے بولیوں اور لہجوں کو سنبھالا جو اکثر پرانے تقریری نظاموں میں درستگی کو کم کر دیتے ہیں۔ چینی صوتی AI سسٹمز کو علاقائی بولیوں میں درستگی کے مسائل کا سامنا ہے۔ Baidu Developer Center کی مئی کی ایک رپورٹ نے اس مسئلے کے پیمانے کو بیان کیا۔ رپورٹ میں پتا چلا ہے کہ معیاری مینڈارن پر تربیت یافتہ روایتی نظام لہجے والے اسپیکر کے ساتھ درستگی کھو دیتے ہیں۔ اس نے یہ بھی پایا کہ علاقائی چینی بولیوں کے لیے درستگی 30 فیصد سے بھی کم ہو سکتی ہے۔ علی بابا کے کلاؤڈ یونٹ نے نئے ماڈل کے لیے وسیع زبان کی کوریج کی اطلاع دی۔ یہ نظام 30 سے زیادہ زبانوں، سات بڑی چینی بولیوں اور 20 سے زیادہ علاقائی لہجوں کو سپورٹ کرتا ہے۔ کمپنی نے اسپیچ ریکگنیشن ٹیسٹنگ میں بھی اچھی درجہ بندی کی۔ علی بابا کا فن-ریئل ٹائم-اے ایس آر ماڈل مصنوعی تجزیہ ورڈ ایرر ریٹ انڈیکس میں سرفہرست ہے۔ اس ماڈل میں 1.8% کی لفظی غلطی کی شرح ریکارڈ کی گئی۔ اسکور کا مطلب ہے کہ سسٹم نے ہر 100 نقل کردہ الفاظ میں دو سے کم الفاظ یاد کیے ہیں۔ علی بابا نے انٹرپرائز وائس اے آئی ایپلی کیشنز کے لیے ماڈل بھی پوزیشن میں رکھا ہے۔ Fun-Realtime-TTS-Preview میں فنانس اور ہیلتھ کیئر کے استعمال کے کیسز کے لیے حسب ضرورت ٹولز شامل ہیں۔ صحت کی دیکھ بھال میں، نظام ڈاکٹروں کے بولے گئے نوٹوں کو ساختی طبی ریکارڈ میں تبدیل کر سکتا ہے۔ یہ خصوصیت طبی کام کے بہاؤ کے اندر حقیقی وقت کی دستاویزات کو نشانہ بناتی ہے۔ چینی AI فرموں نے خصوصی آواز کے نظام کی طرف زیادہ توجہ دی ہے۔ بہت سی کمپنیاں اب عام مقصد کے چیٹ بوٹس سے ہٹ کر عملی استعمال تلاش کرتی ہیں۔ وائس AI صارفین کے آلات اور کاروباری سافٹ ویئر پر بھی فٹ بیٹھتا ہے۔ اسمارٹ فونز، سمارٹ اسپیکرز، اور کار میں معاونین محدود صارف کی تربیت کے ساتھ آواز پر مبنی تعامل کی حمایت کر سکتے ہیں۔ وسیع تر تقریر AI مارکیٹ میں اب بھی مضبوط امریکی حریف شامل ہیں۔ Google اور ElevenLabs بہت سے تجارتی صوتی ایپلی کیشنز اور ڈویلپر ٹولز کی قیادت کرتے رہتے ہیں۔ علی بابا کی تازہ ترین درجہ بندی نے عالمی تقریری AI مقابلے میں ایک اور چینی ماڈل کا اضافہ کیا ہے۔ کمپنی کے نتائج علاقائی زبانوں اور انٹرپرائز سیٹنگز میں صوتی ٹولز کی بڑھتی ہوئی مانگ کی پیروی کرتے ہیں۔