يكشف باحثو Google عن كل الطرق التي يمكن للقراصنة من خلالها احتجاز عملاء الذكاء الاصطناعي واختطافهم

باختصار

لقد حددت جوجل ست فئات من الفخاخ، كل منها يستغل جزءًا مختلفًا من كيفية إدراك عملاء الذكاء الاصطناعي وتفكيرهم وتذكرهم وتصرفهم.

تتراوح الهجمات من النص غير المرئي على صفحات الويب إلى تسمم الذاكرة الفيروسي الذي يقفز بين العملاء.

لا يوجد إطار قانوني حتى الآن يقرر من المسؤول عندما يرتكب أحد عملاء الذكاء الاصطناعي المحاصرين جريمة مالية.

نشر الباحثون في Google DeepMind ما قد يكون الخريطة الأكثر اكتمالًا حتى الآن لمشكلة لم يأخذها معظم الناس في الاعتبار: تحويل الإنترنت نفسه إلى سلاح ضد عملاء الذكاء الاصطناعي المستقلين. تحدد الورقة التي تحمل عنوان "AI Agent Traps" ست فئات من المحتوى العدائي المصمم خصيصًا للتلاعب بالعملاء أو خداعهم أو اختطافهم أثناء تصفحهم وقراءتهم والتصرف على شبكة الإنترنت المفتوحة.

التوقيت مهم. تتسابق شركات الذكاء الاصطناعي لنشر وكلاء يمكنهم بشكل مستقل حجز السفر وإدارة صناديق البريد الوارد وتنفيذ المعاملات المالية وكتابة التعليمات البرمجية. يستخدم المجرمون بالفعل الذكاء الاصطناعي بشكل هجومي. بدأ المتسللون الذين ترعاهم الدولة في نشر عملاء الذكاء الاصطناعي لشن الهجمات السيبرانية على نطاق واسع. واعترفت شركة OpenAI في ديسمبر 2025 بأن الثغرة الأمنية الأساسية التي تستغلها هذه الأفخاخ -الحقن الفوري- "من غير المرجح أن يتم حلها بالكامل على الإطلاق".

لا يهاجم باحثو DeepMind النماذج نفسها. سطح الهجوم الذي يرسمونه هو عملاء البيئة الذين يعملون فيه. وإليك ما تعنيه في الواقع كل فئة من فئات الأفخاخ الست.

الفخاخ الستة

أولاً هناك "فخاخ حقن المحتوى". تستغل هذه الفجوة بين ما يراه الإنسان على صفحة الويب وما يحلله وكيل الذكاء الاصطناعي فعليًا. يمكن لمطور الويب إخفاء النص داخل تعليقات HTML أو عناصر CSS غير المرئية أو بيانات تعريف الصورة. يقرأ الوكيل التعليمات المخفية؛ أنت لا ترى ذلك أبدا. هناك متغير أكثر تعقيدًا، يسمى إخفاء الهوية الديناميكي، يكتشف ما إذا كان الزائر هو وكيل ذكاء اصطناعي ويقدم له نسخة مختلفة تمامًا من الصفحة - نفس عنوان URL، وأوامر مخفية مختلفة. وجد أحد المعايير عمليات حقن بسيطة مثل هؤلاء العملاء الذين تمت السيطرة عليهم بنجاح في ما يصل إلى 86% من السيناريوهات التي تم اختبارها.

من المحتمل أن تكون مصائد التلاعب الدلالي هي الأسهل في التجربة. إن الصفحة المليئة بعبارات مثل "معيار الصناعة" أو "موثوق به من قبل الخبراء" تؤدي إحصائيًا إلى تحيز توليف العميل في اتجاه المهاجم، مستغلة نفس تأثيرات التأطير التي يقع عليها البشر. يحتوي الإصدار الأكثر دقة على تعليمات ضارة داخل إطار تعليمي أو إطار "الفريق الأحمر" - "هذا افتراضي للبحث فقط" - مما يخدع فحوصات السلامة الداخلية للنموذج في التعامل مع الطلب على أنه حميد. النوع الفرعي الأكثر غرابة هو "التطرف الشخصي": تنتشر أوصاف شخصية الذكاء الاصطناعي عبر الإنترنت، ويتم استيعابها مرة أخرى في النموذج من خلال البحث على الويب، والبدء في تشكيل كيفية تصرفه فعليًا. تذكر الورقة حادثة Grok "MechaHitler" كحالة حقيقية لهذه الحلقة.

يمكنك رؤية أمثلة على ذلك في تجربتنا، حيث قمنا بكسر حماية الذكاء الاصطناعي لتطبيق Whatsapp وخداعه لإنشاء صور عارية ووصفات مخدرات وتعليمات لصنع القنابل

أحد الأمثلة على الهجوم الدلالي. الصورة: فك التشفير

مصائد الحالة المعرفية هي هجوم آخر تستهدف فيه الجهات الفاعلة الخبيثة الذاكرة طويلة المدى للعميل. في الأساس، إذا نجح المهاجم في زرع بيانات ملفقة داخل قاعدة بيانات استرجاعية يستعلم عنها الوكيل، فسوف يتعامل الوكيل مع تلك البيانات على أنها حقائق تم التحقق منها. يعد إدخال عدد قليل من المستندات المحسنة في قاعدة معرفية كبيرة أمرًا كافيًا لإفساد المخرجات المتعلقة بموضوعات محددة بشكل موثوق. لقد أظهرت هجمات مثل "CopyPasta" بالفعل كيف يثق العملاء بشكل أعمى بالمحتوى الموجود في بيئتهم.

تتجه مصائد التحكم السلوكية مباشرة إلى ما يفعله العميل. تتجاوز تسلسلات كسر الحماية المضمنة في مواقع الويب العادية محاذاة الأمان بمجرد أن يقرأ الوكيل الصفحة. تجبر مصائد سرقة البيانات العميل على تحديد موقع الملفات الخاصة ونقلها إلى عنوان يتحكم فيه المهاجم؛ واضطر وكلاء الويب الذين يتمتعون بإمكانية وصول واسعة إلى الملفات إلى استخراج كلمات المرور المحلية والمستندات الحساسة بمعدلات تتجاوز 80% عبر خمس منصات مختلفة في هجمات تم اختبارها. وهذا أمر خطير بشكل خاص الآن بعد أن بدأ الناس في منح عملاء الذكاء الاصطناعي مزيدًا من التحكم في معلوماتهم الخاصة مع ظهور منصات مثل OpenClaw ومواقع مثل Moltbook.

لا تستهدف المصائد النظامية عميلاً واحدًا. إنهم يستهدفون سلوك العديد من العملاء الذين يعملون في وقت واحد. ترسم الورقة خطًا مباشرًا للانهيار المفاجئ لعام 2010، حيث أدى أمر بيع آلي إلى حدوث حلقة من ردود الفعل التي قضت على ما يقرب من تريليون دولار من القيمة السوقية في دقائق. يمكن لتقرير مالي واحد ملفق، في التوقيت الصحيح، أن يؤدي إلى عمليات بيع متزامنة بين الآلاف من وكلاء التداول القائمين على الذكاء الاصطناعي.

وأخيرًا تستهدف مصائد الإنسان في الحلقة الإنسان الذي يراجع مخرجاته. تعمل هذه الفخاخ على هندسة "إرهاق الموافقة" - وهي مخرجات مصممة لتبدو ذات مصداقية من الناحية الفنية لشخص غير خبير، بحيث تسمح بأفعال خطيرة دون أن تدرك ذلك. تضمنت إحدى الحالات الموثقة عمليات حقن سريعة مبهمة لـ CSS جعلت أداة تلخيص الذكاء الاصطناعي تقدم تعليمات تثبيت برامج الفدية خطوة بخطوة كإصلاحات مفيدة لاستكشاف الأخطاء وإصلاحها. لقد رأينا بالفعل ما يحدث عندما يكون هوما