گوگل کے محققین نے ہر طرح سے انکشاف کیا ہے کہ ہیکرز AI ایجنٹوں کو پھنس سکتے ہیں، ہائی جیک کر سکتے ہیں۔

مختصراً

گوگل نے چھ ٹریپ کیٹیگریز کی نشاندہی کی ہے—ہر ایک اس بات کا مختلف حصہ استعمال کرتی ہے کہ AI ایجنٹوں کو کیسے محسوس ہوتا ہے، وجہ، یاد رکھی جاتی ہے اور عمل کیا جاتا ہے۔

حملے ویب صفحات پر غیر مرئی متن سے لے کر وائرل میموری پوائزننگ تک ہوتے ہیں جو ایجنٹوں کے درمیان چھلانگ لگاتے ہیں۔

ابھی تک کوئی قانونی فریم ورک یہ فیصلہ نہیں کرتا ہے کہ جب کوئی پھنسا ہوا AI ایجنٹ مالی جرم کرتا ہے تو کون ذمہ دار ہے۔

گوگل ڈیپ مائنڈ کے محققین نے شائع کیا ہے کہ اس مسئلے کا ابھی تک سب سے مکمل نقشہ کیا ہے جس پر زیادہ تر لوگوں نے غور نہیں کیا ہے: انٹرنیٹ خود خود مختار AI ایجنٹوں کے خلاف ایک ہتھیار میں تبدیل ہو رہا ہے۔ کاغذ، جس کا عنوان "AI ایجنٹ ٹریپس" ہے، مخالفانہ مواد کی چھ اقسام کی نشاندہی کرتا ہے جو خاص طور پر ایجنٹوں کو کھلے ویب پر براؤز کرنے، پڑھنے اور عمل کرنے کے لیے جوڑ توڑ، دھوکہ دینے، یا ہائی جیک کرنے کے لیے بنائے گئے ہیں۔

ٹائمنگ اہم ہے۔ AI کمپنیاں ایسے ایجنٹوں کو تعینات کرنے کی دوڑ میں لگ گئی ہیں جو آزادانہ طور پر سفر کی بکنگ کر سکتے ہیں، ان باکسز کا انتظام کر سکتے ہیں، مالی لین دین کو انجام دے سکتے ہیں، اور کوڈ لکھ سکتے ہیں۔ مجرم پہلے ہی AI کو جارحانہ طریقے سے استعمال کر رہے ہیں۔ ریاست کے زیر اہتمام ہیکرز نے بڑے پیمانے پر سائبر حملوں کے لیے AI ایجنٹوں کو تعینات کرنا شروع کر دیا ہے۔ اور OpenAI نے دسمبر 2025 میں اعتراف کیا کہ یہ ٹریپس جس بنیادی کمزوری کا فائدہ اٹھاتے ہیں — فوری انجیکشن — "کبھی مکمل طور پر حل ہونے کا امکان نہیں ہے۔"

ڈیپ مائنڈ کے محققین خود ماڈلز پر حملہ نہیں کر رہے ہیں۔ حملے کی سطح جس کا وہ نقشہ بناتے ہیں وہ ماحولیات کے ایجنٹ کام کرتے ہیں۔

چھ ٹریپس

پہلے "مواد کے انجیکشن کے جال" ہیں۔ یہ اس فرق کا فائدہ اٹھاتے ہیں کہ ایک انسان ویب پیج پر کیا دیکھتا ہے اور جو AI ایجنٹ درحقیقت تجزیہ کرتا ہے۔ ایک ویب ڈویلپر HTML تبصروں، CSS-غیر مرئی عناصر، یا تصویری میٹا ڈیٹا کے اندر متن چھپا سکتا ہے۔ ایجنٹ چھپی ہوئی ہدایات کو پڑھتا ہے۔ تم اسے کبھی نہیں دیکھتے. ایک زیادہ نفیس قسم، جسے ڈائنامک کلوکنگ کہا جاتا ہے، پتہ لگاتا ہے کہ آیا کوئی وزیٹر ایک AI ایجنٹ ہے اور اسے صفحہ کا بالکل مختلف ورژن پیش کرتا ہے—ایک ہی URL، مختلف پوشیدہ کمانڈز۔ ایک بینچ مارک نے 86 فیصد تک آزمائشی منظرناموں میں کامیابی کے ساتھ کمانڈر ایجنٹس جیسے سادہ انجیکشن پائے۔

سیمنٹک مینیپولیشن ٹریپس شاید آزمانا سب سے آسان ہیں۔ "صنعت کے معیار" یا "ماہرین کی طرف سے قابل اعتماد" جیسے فقروں سے بھرا ہوا صفحہ شماریاتی طور پر ایجنٹ کی ترکیب کو حملہ آور کی سمت میں متعصب کرتا ہے، جس سے انسانوں پر مرتب ہونے والے اثرات کا استحصال ہوتا ہے۔ ایک لطیف ورژن تعلیمی یا "ریڈ ٹیمنگ" فریمنگ کے اندر بدنیتی پر مبنی ہدایات کو لپیٹ دیتا ہے — "یہ فرضی ہے، صرف تحقیق کے لیے" — جو کہ ماڈل کی اندرونی حفاظتی جانچ کو بے وقوف بناتا ہے کہ وہ درخواست کو بے نظیر سمجھے۔ سب سے عجیب ذیلی قسم "شخصیت ہائپرسٹیشن" ہے: کسی AI کی شخصیت کی تفصیل آن لائن پھیل جاتی ہے، ویب تلاش کے ذریعے ماڈل میں واپس داخل ہو جاتی ہے، اور یہ تشکیل دینا شروع کر دیتی ہے کہ یہ اصل میں کیسے برتاؤ کرتا ہے۔ اس مقالے میں گروکس "میچا ہٹلر" کے واقعے کا ذکر اس لوپ کے حقیقی دنیا کے معاملے کے طور پر کیا گیا ہے۔

آپ ہمارے تجربے میں اس کی مثالیں دیکھ سکتے ہیں، Whatsapp کے AI کو جیل توڑنا اور اسے عریاں، منشیات کی ترکیبیں، اور بم بنانے کی ہدایات بنانے کے لیے دھوکہ دینا۔

سیمنٹک حملے کی ایک مثال۔ تصویر: ڈکرپٹ

کوگنیٹو اسٹیٹ ٹریپس ایک اور حملہ ہے جس میں بدنیتی پر مبنی اداکار ایجنٹ کی طویل مدتی یادداشت کو نشانہ بناتے ہیں۔ بنیادی طور پر، اگر کوئی حملہ آور ایجنٹ کے سوالات کو بازیافت کرنے والے ڈیٹا بیس کے اندر من گھڑت بیانات لگانے میں کامیاب ہو جاتا ہے، تو ایجنٹ ان بیانات کو تصدیق شدہ حقائق کے طور پر دیکھے گا۔ ایک بڑے علمی مرکز میں صرف مٹھی بھر اصلاحی دستاویزات کا انجیکشن لگانا مخصوص عنوانات پر قابل اعتماد طور پر خراب نتائج کے لیے کافی ہے۔ "کاپی پاستا" جیسے حملوں نے پہلے ہی یہ ظاہر کر دیا ہے کہ ایجنٹ کس طرح اپنے ماحول میں مواد پر اندھا اعتماد کرتے ہیں۔

برتاؤ کے کنٹرول کے جال براہ راست اس کے لیے جاتے ہیں جو ایجنٹ کرتا ہے۔ عام ویب سائٹس میں سرایت شدہ جیل بریک سیکونسز ایک بار جب ایجنٹ کے صفحہ کو پڑھتا ہے تو حفاظتی صف بندی کو اوور رائیڈ کر دیتے ہیں۔ ڈیٹا اکٹھا کرنے کے جال ایجنٹ کو نجی فائلوں کو تلاش کرنے اور حملہ آور کے زیر کنٹرول پتے پر منتقل کرنے پر مجبور کرتے ہیں۔ وسیع فائل تک رسائی کے حامل ویب ایجنٹوں کو آزمائشی حملوں میں پانچ مختلف پلیٹ فارمز میں 80 فیصد سے زیادہ کی شرح پر مقامی پاس ورڈز اور حساس دستاویزات کو نکالنے پر مجبور کیا گیا۔ یہ اب خاص طور پر خطرناک ہے کہ اوپن کلاؤ جیسے پلیٹ فارمز اور مولٹ بک جیسی سائٹس کے عروج کے ساتھ لوگ AI ایجنٹوں کو اپنی نجی معلومات پر زیادہ کنٹرول دینا شروع کر دیتے ہیں۔

میں

سسٹمک ٹریپس ایک ایجنٹ کو نشانہ نہیں بناتے ہیں۔ وہ بیک وقت کام کرنے والے بہت سے ایجنٹوں کے رویے کو نشانہ بناتے ہیں۔ یہ کاغذ 2010 کے فلیش کریش کی طرف ایک سیدھی لائن کھینچتا ہے، جہاں ایک خودکار سیل آرڈر نے فیڈ بیک لوپ کو متحرک کیا جس نے منٹوں میں مارکیٹ ویلیو میں تقریباً ایک ٹریلین ڈالر کا صفایا کر دیا۔ ایک ہی من گھڑت مالیاتی رپورٹ، صحیح وقت پر، ہزاروں AI ٹریڈنگ ایجنٹوں کے درمیان مطابقت پذیر سیل آف کو متحرک کر سکتی ہے۔

اور آخر کار ہیومن-ان-دی لوپ ٹریپس اس کے آؤٹ پٹ کا جائزہ لینے والے انسان کو نشانہ بناتے ہیں۔ یہ پھندے انجینئر "منظوری تھکاوٹ" کو پیدا کرتے ہیں—آؤٹ پٹ کو تکنیکی طور پر کسی غیر ماہر کے لیے قابل اعتبار نظر آنے کے لیے ڈیزائن کیا گیا ہے تاکہ وہ اس کا احساس کیے بغیر خطرناک کارروائیوں کی اجازت دیں۔ ایک دستاویزی کیس میں سی ایس ایس سے مبہم پرامپٹ انجیکشن شامل تھے جس نے AI سمریائزیشن ٹول کو مرحلہ وار رینسم ویئر کی تنصیب کی ہدایات کو ٹربل شوٹنگ میں مددگار اصلاحات کے طور پر پیش کیا۔ ہم پہلے ہی دیکھ چکے ہیں کہ جب ہما ہوتا ہے۔