Tether AI QVAC SDK کو اپ گریڈ کرتا ہے، ٹربو کوانٹ کو روزمرہ کے آلات پر لاتا ہے، مقامی AI ڈیٹا سینٹر کے سائز کی میموری دیتا ہے۔

ٹیتھر کی اوپن سورس ٹربو کوانٹ ریلیز طویل سیشنز کے دوران میموری AI کی ضرورت کو کم کرتی ہے، لیپ ٹاپ، فون، ایج ڈیوائسز، اور وکندریقرت نیٹ ورکس کو کلاؤڈ کو سب کچھ بھیجے بغیر بڑی دستاویزات، طویل گفتگو، کوڈ بیسز اور ذاتی AI معاونین کو ہینڈل کرنے دیتا ہے۔

1 جون 2026 - ٹیتھر کے AI ریسرچ گروپ نے آج اپنے ٹربو کوانٹ کے اوپن سورس نفاذ کی پروڈکشن ریلیز کا اعلان کیا، گوگل ریسرچ میموری کمپریشن الگورتھم جس نے سلیکون ویلی سے "پائیڈ پائپر" سے موازنہ کیا ہے کیونکہ اس کی میموری کو ڈرامائی طور پر کم کرنے کی صلاحیت کے لیے بڑے AI ماڈلز کو چلانے کی ضرورت ہے۔ TurboQuant کے ساتھ، گوگل نے تحقیق میں ایک پیش رفت کی۔ ٹیتھر اسے اپنے اوپن سورس لوکل/ایج AI انجن QVAC Fabric کے ساتھ پروڈکشن میں زندہ کر رہا ہے، جو کہ llama.cpp کے طور پر شروع ہوا تھا، اب Fabric میں کئی کامیابیاں شامل ہیں جو مقامی آن ڈیوائس انٹیلی جنس کی حدود کو آگے بڑھاتی ہیں۔

ریلیز ٹربو کوانٹ کو پیپر سے اوپن سورس سافٹ ویئر میں بدل دیتی ہے جسے ڈویلپر لیپ ٹاپس، کنزیومر GPUs، موبائل چپس، ایج ڈیوائسز اور وکندریقرت انفرنس نیٹ ورکس میں استعمال، جانچ اور موافقت کر سکتے ہیں۔ اس میں ایک مکمل کوانٹائزیشن پائپ لائن، عام انفرنس فریم ورک کے لیے اڈاپٹر، ڈویلپر دستاویزات، اور ہائپر اسکیل ڈیٹا سینٹرز کے باہر حقیقی تعیناتی کے لیے ڈیزائن کیے گئے کام کے بوجھ سے منسلک پروفائلز شامل ہیں۔ تبدیلی اہمیت رکھتی ہے کیونکہ میموری سب سے بڑی وجوہات میں سے ایک ہے مفید AI کاموں کو اب بھی بادل کی طرف دھکیل دیا جاتا ہے۔

جب کوئی AI اسسٹنٹ استعمال کرتا ہے، تو ماڈل کو لوڈ کرنے کے لیے نہ صرف میموری کی ضرورت ہوتی ہے بلکہ اسے پہلے سے دیکھی گئی گفتگو، دستاویز، کوڈ بیس، یا ہدایات کو یاد رکھنے کے لیے ورکنگ میموری کی بھی ضرورت ہوتی ہے۔ اس ورکنگ میموری کو KV کیش کہا جاتا ہے، اور یہ سیشن کے طویل ہونے کے ساتھ بڑھتا ہے۔ ایک مختصر اشارہ ہینڈل کرنا آسان ہوسکتا ہے۔ ایک مکمل معاہدہ، مالیاتی فائلنگ، تحقیقی رپورٹ، کتاب، کوڈ ریپوزٹری، یا کئی گھنٹوں کی بات چیت میموری کی ضروریات کو اس سے آگے بڑھا سکتی ہے جس کی زیادہ تر لیپ ٹاپ، فون، اور صارف GPUs مدد کر سکتے ہیں۔

تقریباً 262,000 ٹوکنز پر، کئی گھنٹوں کی گفتگو یا چند سو صفحات کے متن کے پیمانے پر، 4B ماڈل کے لیے KV کیشے خود تقریباً 8 GB میموری استعمال کر سکتا ہے۔ اس سائز کے چار سیشنز ماڈل کو خود لوڈ کرنے کے لیے درکار میموری کا حساب کتاب کرنے سے پہلے اکیلے کیشے کو تقریباً 32 جی بی تک دھکیل سکتے ہیں۔ یہی وجہ ہے کہ بہت سے AI تجربات اب بھی ریموٹ ڈیٹا سینٹرز پر انحصار کرتے ہیں، یہاں تک کہ جب صارفین اپنے کام کو مقامی رکھنے کو ترجیح دیتے ہیں۔

ٹربو کوانٹ ایک غیر کمپریسڈ ماڈل کے قریب آؤٹ پٹ کوالٹی کو برقرار رکھتے ہوئے KV کیشے کو 5x تک کمپریس کرکے اس مساوات کو تبدیل کرتا ہے۔ عملی اصطلاحات میں، اس کا مطلب ہے کہ مقامی AI طویل گفتگو، بڑی فائلوں، زیادہ سیاق و سباق اور لوگوں کے پاس پہلے سے موجود ہارڈ ویئر پر کام کے بھاری بوجھ کو سنبھال سکتا ہے۔

صارفین کے لیے، اس کا مطلب یہ ہو سکتا ہے کہ کسی لیپ ٹاپ پر اے آئی اسسٹنٹ کو کلاؤڈ فراہم کنندہ پر مکمل فائل اپ لوڈ کیے بغیر سو صفحات پر مشتمل قانونی دستاویز کو پڑھنے اور تجزیہ کرنے کے لیے کہا جائے۔ اس کا مطلب یہ ہو سکتا ہے کہ ایک طالب علم آن ڈیوائس ٹیوٹر کا استعمال کر رہا ہے جو چند پیغامات کے بعد سیاق و سباق کو کھونے کے بجائے پورے مطالعاتی سیشن کو برقرار رکھتا ہے۔ اس کا مطلب ایک ڈویلپر ہو سکتا ہے جو مقامی کوڈنگ اسسٹنٹ چلا رہا ہو جو ایک ساتھ زیادہ کوڈ بیس کو سمجھتا ہے۔ اس کا مطلب یہ ہو سکتا ہے کہ ایک صحافی، ڈاکٹر، محقق، یا چھوٹے کاروبار کا مالک حساس فائلوں پر AI کا استعمال کرتے ہوئے اس ڈیوائس پر زیادہ سے زیادہ کام رکھے۔

ڈویلپرز اور اسٹارٹ اپس کے لیے، اس کا مطلب ہے کہ مہنگے GPU کلسٹرز تک رسائی حاصل کیے بغیر بڑے AI پروڈکٹس بنائے جا سکتے ہیں۔ مختصر سیاق و سباق والی ونڈوز کے ارد گرد ڈیزائن کرنے کے بجائے، میموری کی سخت حدود، یا صرف کلاؤڈ تعیناتی، ٹیمیں ٹربو کوانٹ کا استعمال لمبے سیشنز، بڑے کام کے بوجھ، اور کنزیومر ہارڈویئر، ایج ڈیوائسز، اور پیئر ٹو پیئر نیٹ ورکس پر زیادہ لچکدار تعیناتی کو سپورٹ کرنے کے لیے کر سکتی ہیں۔

ٹیتھر کے سی ای او پاولو ارڈوینو نے کہا، "گوگل کی تحقیق سے پتہ چلتا ہے کہ AI میموری کو زیادہ تر لوگوں کے خیال سے کہیں زیادہ مؤثر طریقے سے کمپریس کیا جا سکتا ہے۔ ہمارا کام پروڈکشن سافٹ ویئر میں وہ پیش رفت لاتا ہے جسے ڈویلپرز، اسٹارٹ اپس اور صارفین درحقیقت بنا سکتے ہیں۔" "اگر طویل سیاق و سباق AI صرف سب سے بڑے ڈیٹا سینٹرز کے اندر کام کرتا ہے، تو AI اس کی تشکیل کرے گا جس کے پاس سب سے زیادہ ہارڈ ویئر ہے۔ TurboQuant تبدیل کرتا ہے کہ مقامی AI کیا کر سکتا ہے دیوار کی میموری کو کم کر کے۔" "لوگوں کو AI اسسٹنٹ سے طویل دستاویز پڑھنے، پروجیکٹ یاد رکھنے، کوڈ میں مدد کرنے، یا نجی معلومات کے ذریعے کام کرنے کے قابل ہونا چاہیے، اس نے ریموٹ ڈیٹا سینٹر کے ذریعے ہر کام کو زبردستی کیے بغیر،" اس نے شامل کیا۔ "یہ وہی ہے جو ٹربو کوانٹ کو پروڈکشن میں لانا ممکن بناتا ہے۔ یہ مقامی AI کو زیادہ میموری، زیادہ سیاق و سباق اور روزمرہ کی زندگی میں مفید بننے کے لیے مزید گنجائش فراہم کرتا ہے۔"

ٹیتھر کا نفاذ ایسے ماحول کے لیے ڈیزائن کیا گیا ہے جہاں پروڈکشن AI اکثر حدوں میں چلتی ہے: محدود ڈیوائس میموری، مخلوط ہارڈ ویئر، طویل سیشن، لیٹنسی پریشر، اور سنٹرلائزڈ کلاؤڈ انفراسٹرکچر کے باہر تعیناتی۔ ٹیموں کو خود تحقیق کو دوبارہ بنانے کی ضرورت کے بجائے، اوپن سورس ریلیز AI ڈویلپر کمیونٹی کو مختلف سسٹمز میں ٹربو کوانٹ کو جانچنے، بہتر بنانے اور اسے اپنانے کے لیے مشترکہ بنیاد فراہم کرتی ہے۔ ٹربو کوانٹ کو QVAC SDK 0.12.0 میں شامل کیا جائے گا، جو اسے فیبرک کے ذریعے براہ راست دستیاب کرائے گا، جو کہ بنیادی عمارتوں میں سے ایک ہے۔