OpenAI تقدم أسلوبًا لاختبار نماذج الذكاء الاصطناعي دون وعي المستخدمين

أعلنت شركة OpenAI عن تطوير منهجية جديدة تهدف إلى تقييم مخاطر نماذج الذكاء الاصطناعي قبل إطلاقها تجاريًا مما يسهم في تحسين دقة اختبارات الأمان وتقليل الفجوة بين نتائج الاختبار وسلوك النماذج بعد النشر كما يعزز قدرة الشركات على كشف السلوكيات غير المرغوب فيها بصورة أكثر واقعية.

مشكلة الاختبارات التقليدية وقيود الكشف المبكر

تشير الشركة في تقرير مفصل نشر على موقع gigazine إلى أن الأساليب التقليدية تعتمد على مجموعات بيانات تحتوي على محفزات مصممة لاختبار السلوكيات الخطرة مثل توليد تعليمات ضارة أو محتوى غير آمن إلا أن هذه الطريقة تعاني من محدودية التغطية وعدم القدرة على مواكبة أساليب الهجوم الجديدة بالإضافة إلى إمكانية تعرف النموذج نفسه على أنه قيد الاختبار مما يؤدي إلى انخفاض دقة النتائج مقارنة بالسلوك الحقيقي بعد الإطلاق.

OpenAI-تقدم-أسلوبًا-لاختبار-نماذج-الذكاء-الاصطناعي-دون-وعي-المستخدمين.PNG" style="height: 285px; width: 550px;" title="الدراسة"/>
الدراسة

تقنية محاكاة النشر Deployment Simulation

قدمت OpenAI أسلوبًا جديدًا يعتمد على محاكاة استخدام النموذج في بيئة واقعية باستخدام نماذج أقدم لتوقع سلوك النماذج الأحدث مثل محاكاة GPT-5.1 باستخدام GPT-5.1 أو GPT-5.4 باستخدام GPT-5.2 وتُعرف هذه المنهجية باسم محاكاة النشر وتهدف إلى قياس احتمالية السلوك غير المرغوب فيه بطريقة أقرب إلى الواقع دون كشف عملية الاختبار للنموذج.

نتائج دقيقة وتقليص فجوة ما قبل وما بعد الإطلاق

أظهرت النتائج أن هذه الطريقة قادرة على التنبؤ بمعظم أساليب الهجوم بدقة عالية مع تقليل الفجوة بين سلوك النموذج أثناء الاختبار وبعد الإطلاق كما بينت البيانات أن أسلوبًا واحدًا فقط في نموذج GPT-5.4 أظهر فرقًا كبيرًا يتجاوز عشرة أضعاف بين مرحلتي الاختبار والنشر وهو ما يُعرف باسم استغلال الآلة الحاسبة.

تقليل قدرة النماذج على اكتشاف أنها تحت الاختبار

من أبرز مزايا التقنية الجديدة أنها تقلل بشكل كبير من احتمال إدراك النموذج أنه يخضع للاختبار إذ كانت بعض النماذج السابقة تتعرف على بيئة الاختبار بنسبة وصلت إلى 99.72٪ بينما انخفضت هذه النسبة إلى 5.12٪ فقط باستخدام محاكاة النشر مما يجعل الاختبارات أقرب إلى الواقع الفعلي بعد الإطلاق.

تأثير محتمل على مستقبل أمان الذكاء الاصطناعي

تؤكد هذه الخطوة أنها تمثل تحولًا مهمًّا في منهجيات تقييم الأمان خصوصًا مع شركات كبرى مثل Anthropic التي تعمل أيضًا على تطوير أنظمة أمان متقدمة حيث يمكن أن تساعد هذه المقاربة في بناء نماذج أكثر موثوقية وتقليل المخاطر قبل وصولها إلى المستخدمين.