لماذا يخطئ نموذج اللغة الكبير حتى عندما يبدو واثقًا من نفسه؟ لأنه لا يعرف، بل يتنبأ.
يخطئ لأنه لا يمتلك محركًا للحقيقة بداخله. لديه فقط محرك إحصائي للغة. عندما يجيب، لا يؤكد ما هو صحيح: بل يكمل جملة بأكثر الطرق احتمالًا بناءً على مليارات الأمثلة.
النموذج اللغوي الكبير (LLM) يقوم بشيء واحد فقط: يتوقع الكلمة التالية.
كلما كتبت شيئًا، ينظر النموذج إلى ما كتبت. ثم يحسب أي رمز - كلمة، جزء من كلمة، علامة ترقيم - هو الأكثر احتمالاً ليأتي بعده. ثم يكتبه. ثم يكرر. رمز بعد رمز، حتى نهاية الإجابة.
لا شيء أكثر من ذلك. لا يفكر، ولا يبحث عن الإجابة الصحيحة في الوقت الحقيقي. لقد استشار قاعدة معرفته مسبقًا -- مليارات النصوص، صفحات الويب، الكتب، المقالات -- ولكن مرة واحدة فقط، أثناء التدريب. ما تعلمه تم ضغطه في أوزان إحصائية: ليست ذكريات، ولا حقائق، ولا معرفة بالمعنى البشري. إذا ظهرت العبارة "عاصمة فرنسا هي" آلاف المرات تليها "باريس"، يتعلم النموذج أن "باريس" هو الرمز الأكثر احتمالاً في هذا السياق. عندما يجيب، لا يستجوب شيئًا -- بل يستخدم ما امتصه.
المشكلة أن هذا الآلية تعمل حتى عندما لا ينبغي لها. إذا كان هناك نص كافٍ في التدريب يربط كاتبًا بتاريخ خاطئ، ينتج النموذج ذلك التاريخ بنفس الثقة التي ينتج بها التاريخ الصحيح. لا يوجد لديه جرس داخلي ينبهه. لديه فقط احتمالات -- والاحتمال العالي ليس مرادفًا للحقيقة.
الفرق مع الخطأ البشري
عندما يخطئ الإنسان، يعرف غالبًا أنه في منطقة غير مؤكدة. يقول "يبدو لي"، "لست متأكدًا"، "سأتحقق". ليس دائمًا، لكن الشك جزء من العملية المعرفية.
النموذج اللغوي الكبير لا يملك شكًا. لديه احتمالات.
لماذا من المهم فهم هذا
ليس للتوقف عن استخدام هذه الأدوات. بل لاستخدامها بالطريقة الصحيحة.
النموذج اللغوي الكبير مفيد عندما تتعامل معه كزميل سريع يحتاج إلى التحقق، وليس كمصدر موثوق. الثقة العمياء هي المشكلة -- ليس النموذج نفسه.
طريقة تجريبية ولكن فعالة لفهم إذا كان النموذج يتنقل في منطقة غير مؤكدة هي إعادة صياغة السؤال نفسه مرتين أو ثلاث بطرق مختلفة. إذا تغيرت الإجابات في التفاصيل -- تاريخ يتغير، اسم يختلف، رقم لا يتطابق -- فهذا يعني أنه لا يوجد حقيقة تحتها بل منطقة احتمالات واسعة. النموذج في كل مرة يختار الرمز الأكثر احتمالاً في ذلك السياق، وإذا تغير السياق قليلاً، يتغير الاختيار أيضًا.
يمكنك أيضًا أن تسأل مباشرة: "ما مدى تأكدك من هذه الإجابة؟ على ماذا تعتمد؟" النماذج الأحدث لديها قدرة معينة على الإشارة عندما تكون في منطقة غير مغطاة جيدًا بالتدريب -- ليس دائمًا، وليس بشكل موثوق، ولكن غالبًا بما يكفي لتفهم أنه يستحق التحقق من مكان آخر. نفس الشيء إذا طلبت من النموذج التفكير بصوت عالٍ: "اشرح لي التفكير خطوة بخطوة." الأخطاء المنطقية تظهر بسهولة أكبر عندما يجب على النموذج توضيح الخطوات بدلاً من القفز مباشرة إلى النتيجة.