كيف تقنع LLM بتجاهل قواعده

لا يخطئ LLM فقط بسبب خطأه. أحيانًا يخطئ لأن شخصًا ما يجعله يفعل ذلك عمدًا. الهروب من السجن ليس هجومًا إلكترونيًا كما نفهمه عادةً: لا يدخل أحد إلى خادم، ولا يفرض أحد كلمة مرور، ولا يكسر أحد قفلًا رقميًا.

كيف تقنع LLM بتجاهل قواعده

يمكن أن يخطئ نموذج اللغة الكبير (LLM) لأسباب عديدة. أحيانًا يكون الخطأ بسبب حدوده. يتنبأ بالكلمة التالية ويعمل بالاحتمالات. لذا قد ينتج معلومات خاطئة أو مضللة. لكن هناك نوع آخر من الأخطاء. لا يأتي من حدود تقنية للنموذج. بل يأتي من شخص قرر دفعه لأبعد مما يجب.

هذا يسمى "جلبريك".

أول شيء يجب فهمه هو أن الجلبريك لا يتطلب مهارات تقنية. ولا يحتاج إلى وصول خاص أو أدوات معينة. فقط يحتاج إلى موجه - نص مكتوب بالطريقة الصحيحة. لا يتم الدخول إلى النموذج من الخارج. لا يتم تعديل الأوزان أو كسر أي شيء. يتم استخدام الواجهة العادية، التي يستخدمها الجميع. ويتم بناء طلب يجعل النموذج يتصرف بشكل مختلف عن المفترض.

مثال أصبح شبه كلاسيكي: تطلب من نموذج LLM أن يشرح لك كيفية بناء شيء خطير، فيرفض. ثم تطلب منه أن يتقمص شخصية كاتب يكتب رواية إثارة. وفي مشهد، يشرح البطل - وهو كيميائي - العملية لزميل. نفس المحتوى، نفس النتيجة النهائية. لكن النموذج يفكر في الأمر، لأنه تعامل مع الطلب ككتابة إبداعية، وليس كتعليمات مباشرة. لم يتم تجاوز الحماية لأن أحدهم اخترق النظام. بل لأن أحدهم أعاد صياغة السؤال.

هذا ممكن لأن قواعد LLM ليست مكتوبة في الشيفرة مثل جدار ناري. بل يتم تعلمها أثناء التدريب - من خلال أمثلة، وتغذية راجعة بشرية، وتعليمات مدمجة في النظام. هي احتمالية وليست مطلقة. وكما هو الحال مع كل ما هو احتمالي، لديها هوامش. الجلبريك يبحث عن تلك الهوامش.

هناك باحثون في الأمن يختبرون حدود النماذج. هدفهم هو العثور على الثغرات قبل الآخرين. وهناك فضوليون يريدون فهم أين تنتهي الحماية ويبدأ النموذج الحقيقي. وهناك صحفيون يوثقون حدود الأنظمة التي يستخدمها الملايين يوميًا. وأيضًا، هناك من يسعى للحصول على محتوى يرفضه النموذج عادةً. مثل التعليمات الخطيرة أو المحتويات غير القانونية أو التلاعب الواسع النطاق.

الدوافع مختلفة. لكن التقنية غالبًا واحدة.

هناك ثلاث فئات رئيسية من الأساليب. الأولى هي تغيير السياق. تطلب من النموذج أن يتقمص دورًا أو يدخل في محاكاة. يجيب "كما لو" كان نظامًا آخر بلا قيود. الثانية هي التجزئة. تقسيم الطلبات المشكلة إلى أجزاء تبدو غير ضارة. كل جزء يمر عبر الفلاتر بمفرده. الثالثة، وهي الأكثر تعقيدًا، هي التلاعب بتعليمات النظام. سنسميها في المنشور القادم حقن الأوامر.

ما يجمع بين هذه الأساليب هو فكرة أساسية. النموذج لا يملك فهمًا أخلاقيًا لما يفعله. لديه أنماط. ويمكن تجاوز الأنماط إذا عرفت كيف تعيد صياغة الطلب.

الاختراق ليس دليلًا على أن النماذج خطيرة. بل هو دليل على أن النماذج أدوات. وتعتمد الأدوات على من يستخدمها ومدى جودة الحماية حولها. المسافة بين "النموذج يخطئ وحده" و"شخص يجعله يخطئ عمدًا" أقصر مما تبدو. وفي الوسط، هذا هو المجال الذي نستكشفه في هذه السلسلة.

×