تعمل تقنية Tether AI على ترقية QVAC SDK، مما يوفر تقنية TurboQuant للأجهزة اليومية، مما يوفر ذاكرة محلية بحجم مركز بيانات الذكاء الاصطناعي

يعمل إصدار TurboQuant مفتوح المصدر من Tether على ضغط الذاكرة التي يحتاجها الذكاء الاصطناعي أثناء الجلسات الطويلة، مما يسمح لأجهزة الكمبيوتر المحمولة والهواتف وأجهزة الحافة والشبكات اللامركزية بمعالجة المستندات الأكبر حجمًا والمحادثات الأطول وقواعد التعليمات البرمجية ومساعدي الذكاء الاصطناعي الشخصي دون إرسال كل شيء إلى السحابة

1 يونيو 2026 - أعلنت مجموعة أبحاث الذكاء الاصطناعي التابعة لشركة Tether اليوم عن إصدار إنتاج لتطبيقها مفتوح المصدر لـ TurboQuant، خوارزمية ضغط الذاكرة لأبحاث Google التي أجرت مقارنات مع "Pied Piper" من وادي السيليكون لقدرتها على تقليل الذاكرة الكبيرة التي تحتاجها نماذج الذكاء الاصطناعي الكبيرة للتشغيل بشكل كبير. مع TurboQuant، حققت Google طفرة في مجال البحث. تعمل Tether على إضفاء الحيوية عليها في الإنتاج من خلال محرك QVAC Fabric المحلي/الحادي مفتوح المصدر الذي يعمل بالذكاء الاصطناعي، والذي بدأ كـ llama.cpp، والآن يتضمن Fabric العديد من الإنجازات التي تدفع حدود الذكاء المحلي على الجهاز.

يعمل هذا الإصدار على تحويل TurboQuant من ورق إلى برنامج مفتوح المصدر يمكن للمطورين استخدامه واختباره والتكيف معه عبر أجهزة الكمبيوتر المحمولة ووحدات معالجة الرسومات الاستهلاكية وشرائح الأجهزة المحمولة وأجهزة الحافة وشبكات الاستدلال اللامركزية. وهو يشتمل على خط أنابيب كامل للتكميم، ومحولات لأطر الاستدلال الشائعة، ووثائق المطورين، وملفات تعريف مضبوطة لأحمال العمل مصممة للنشر الحقيقي خارج مراكز البيانات ذات الحجم الكبير. هذا التغيير مهم لأن الذاكرة هي أحد أكبر الأسباب وراء استمرار دفع مهام الذكاء الاصطناعي المفيدة إلى السحابة.

عندما يستخدم شخص ما مساعد الذكاء الاصطناعي، فإن النموذج لا يحتاج إلى ذاكرة للتحميل فحسب، بل يحتاج أيضًا إلى ذاكرة عاملة لتذكر المحادثة أو المستند أو قاعدة التعليمات البرمجية أو التعليمات التي شاهدها بالفعل. تُسمى تلك الذاكرة العاملة بذاكرة التخزين المؤقت KV، وتنمو مع زيادة مدة الجلسة. قد يكون من السهل التعامل مع المطالبة القصيرة. يمكن للعقد الكامل أو التسجيل المالي أو تقرير البحث أو الكتاب أو مستودع الأكواد أو عدة ساعات من المحادثة أن يدفع متطلبات الذاكرة إلى ما هو أبعد مما يمكن أن تدعمه معظم أجهزة الكمبيوتر المحمولة والهواتف ووحدات معالجة الرسومات الاستهلاكية.

عند ما يقرب من 262000 رمزًا مميزًا، أي بحجم عدة ساعات من المحادثة أو بضع مئات من الصفحات من النص، يمكن لذاكرة التخزين المؤقت KV لنموذج 4B استخدام حوالي 8 جيجابايت من الذاكرة بمفردها. يمكن لأربع جلسات بهذا الحجم أن تدفع ذاكرة التخزين المؤقت وحدها إلى حوالي 32 جيجابايت قبل احتساب الذاكرة اللازمة لتحميل النموذج نفسه. ولهذا السبب لا تزال العديد من تجارب الذكاء الاصطناعي تعتمد على مراكز البيانات البعيدة، حتى عندما يفضل المستخدمون الاحتفاظ بعملهم محليًا.

يقوم TurboQuant بتغيير هذه المعادلة عن طريق ضغط ذاكرة التخزين المؤقت KV حتى 5x مع الحفاظ على جودة الإخراج قريبة من النموذج غير المضغوط. من الناحية العملية، يعني هذا أن الذكاء الاصطناعي المحلي يمكنه التعامل مع محادثات أطول وملفات أكبر وسياق أكبر وأعباء عمل أثقل على الأجهزة التي يمتلكها الأشخاص بالفعل.

بالنسبة للمستخدمين، قد يعني هذا مطالبة مساعد الذكاء الاصطناعي على جهاز كمبيوتر محمول بقراءة وتحليل مستند قانوني مكون من مائة صفحة دون تحميل الملف الكامل إلى مزود السحابة. يمكن أن يعني ذلك أن يستخدم الطالب معلمًا خاصًا على الجهاز ويحتفظ بجلسة دراسية كاملة بدلاً من فقدان السياق بعد بضع رسائل. يمكن أن يعني ذلك مطورًا يقوم بتشغيل مساعد ترميز محلي يفهم المزيد من قاعدة التعليمات البرمجية في وقت واحد. يمكن أن يعني ذلك صحفيًا أو طبيبًا أو باحثًا أو صاحب شركة صغيرة يستخدم الذكاء الاصطناعي في الملفات الحساسة مع الاحتفاظ بالمزيد من هذا العمل على الجهاز.

بالنسبة للمطورين والشركات الناشئة، فهذا يعني أنه يمكن إنشاء منتجات ذكاء اصطناعي أكبر دون افتراض الوصول إلى مجموعات GPU باهظة الثمن. بدلاً من التصميم حول نوافذ سياقية قصيرة، أو حدود صارمة للذاكرة، أو النشر على السحابة فقط، يمكن للفرق استخدام TurboQuant لدعم جلسات أطول، وأحمال عمل أكبر، ونشر أكثر مرونة عبر أجهزة المستهلك، وأجهزة الحافة، وشبكات نظير إلى نظير.

قال باولو أردوينو، الرئيس التنفيذي لشركة Tether: "أظهر بحث Google أنه يمكن ضغط ذاكرة الذكاء الاصطناعي بكفاءة أكبر بكثير مما افترضه معظم الناس. ويحقق عملنا هذا التقدم في برامج الإنتاج التي يمكن للمطورين والشركات الناشئة والمستخدمين البناء بها بالفعل". "إذا كان الذكاء الاصطناعي ذو السياق الطويل يعمل فقط داخل أكبر مراكز البيانات، فإن الذكاء الاصطناعي سوف يتشكل من قبل من يملك معظم الأجهزة. يغير TurboQuant ما يمكن أن يفعله الذكاء الاصطناعي المحلي من خلال جعل الذاكرة أقل من جدار. وأضاف: "يجب أن يكون الناس قادرين على مطالبة مساعد الذكاء الاصطناعي بقراءة مستند طويل، أو تذكر مشروع، أو المساعدة في التعليمات البرمجية، أو العمل من خلال المعلومات الخاصة دون فرض كل مهمة من خلال مركز بيانات بعيد". "هذا هو ما يجعل جلب TurboQuant إلى الإنتاج ممكنًا. فهو يمنح الذكاء الاصطناعي المحلي المزيد من الذاكرة، ومزيدًا من السياق، ومساحة أكبر ليصبح مفيدًا في الحياة اليومية."

تم تصميم تطبيق Tether للبيئات التي غالبًا ما يواجه فيها الذكاء الاصطناعي الإنتاجي حدودًا: ذاكرة الجهاز المقيدة، والأجهزة المختلطة، والجلسات الطويلة، وضغط زمن الوصول، والنشر خارج البنية التحتية السحابية المركزية. بدلاً من مطالبة الفرق بإعادة بناء البحث بأنفسهم، يوفر الإصدار مفتوح المصدر لمجتمع مطوري الذكاء الاصطناعي أساسًا مشتركًا لاختبار وتحسين وتكييف TurboQuant عبر أنظمة مختلفة. سيتم تضمين TurboQuant في QVAC SDK 0.12.0، مما يجعله متاحًا مباشرة من خلال Fabric، وهو أحد اللبنات الأساسية في ذلك.