خطة "غوغل" الجديدة للتحقق من مدى أخلاقية الذكاء الاصطناعي
للعلّم - حين تطلب من روبوت دردشة نصيحة طبية أو رأياً أخلاقياً، قد يبدو رده متزناً وعميقاً.
لكن السؤال الجوهري هو: هل يفهم فعلاً ما يقوله، أم أنه يجيد فقط ترتيب الكلمات بطريقة مقنعة؟
هذا هو التحدي الذي تناولته ورقة بحثية جديدة لفريق "غوغل ديب مايند" نُشرت في مجلة "Nature"، حيث يرى الباحثون أن طرق اختبار أخلاق أنظمة الذكاء الاصطناعي الحالية تعاني من خلل أساسي.
الأداء الأخلاقي لا يعني الفهم
حتى الآن، تركز الاختبارات على ما يسميه الباحثون "الأداء الأخلاقي" — أي ما إذا كانت إجابة النموذج تبدو صحيحة أو مقبولة أخلاقياً.
لكن هذا لا يثبت أن النظام يفهم لماذا يُعدّ أمرٌ ما صائباً أو خاطئاً، بحسب تقرير نشره موقع "digitaltrends" واطلعت عليه "العربية Business".
ومع استخدام النماذج اللغوية الكبيرة (LLMs) في مجالات حساسة مثل الإرشاد النفسي والنصائح الطبية وحتى الدعم العاطفي، يصبح الفرق بين الفهم الحقيقي والمحاكاة الإحصائية مسألة ذات تبعات واقعية.
ثلاث مشكلات رئيسية
تقترح الورقة إطاراً لقياس ما تسميه "الكفاءة الأخلاقية"، أي القدرة على إصدار أحكام مبنية على اعتبارات أخلاقية حقيقية، لا مجرد أنماط متعلمة من البيانات.
1- مشكلة النسخة المقلدة
النماذج اللغوية تتنبأ بالكلمة التالية استناداً إلى احتمالات إحصائية.
وعندما تقدم نصيحة أخلاقية، قد تكون تعيد صياغة محتوى مشابه في بيانات تدريبها، لا تمارس استدلالاً أخلاقياً فعلياً، المخرجات وحدها لا تكشف الفرق.
2- تعددية الأبعاد الأخلاقية
القرارات الواقعية غالباً ما تتضمن موازنة بين قيم متعارضة: الصدق مقابل اللطف، العدالة مقابل الكلفة.
تغيير تفصيل صغير — كالعمر أو السياق — قد يغير الحكم الأخلاقي بالكامل. الاختبارات الحالية لا تتحقق بما يكفي مما إذا كان النموذج يلتقط هذه الفروق الدقيقة.
3- التعددية الثقافية
ما يُعتبر عادلاً في ثقافة ما قد يُعد غير مقبول في أخرى.
أنظمة تُستخدم عالمياً يجب أن تتعامل مع أطر أخلاقية متعددة، لكن قياس قدرتها على ذلك لا يزال محدوداً.
اختبارات استفزازية لكشف المحاكاة
يقترح الباحثون التحول إلى اختبارات مصممة لكشف التقليد السطحي، عبر سيناريوهات غير مألوفة يصعب أن تكون موجودة في بيانات التدريب.
أحد الأمثلة المطروحة يتناول حالة تبرع حيوانات منوية بين أجيال داخل العائلة، وهو سيناريو قد يبدو قريباً من "سفاح القربى" لكنه يختلف أخلاقياً في تفاصيله.
إذا رفض النموذج الحالة لأسباب نمطية سطحية، فذلك مؤشر على مطابقة أنماط. أما إذا ناقش الاعتبارات الأخلاقية الفعلية، فالأمر مختلف.
كما يدعو الفريق لاختبار قدرة النماذج على تبديل الأطر الأخلاقية: هل يمكنها الانتقال من أخلاقيات الطب الحيوي إلى قواعد القانون العسكري مثلاً، مع الحفاظ على اتساق منطقي؟ وهل تتأثر أحكامها بتغييرات شكلية بسيطة في صياغة السؤال؟
نحو معيار علمي جديد
يرى باحثو "ديب مايند" أن الوقت حان لوضع معيار علمي يقيس الكفاءة الأخلاقية بالجدية نفسها التي نقيس بها مهارات الرياضيات أو البرمجة لدى النماذج.
لكنهم يعترفون بأن النماذج الحالية لا تزال هشة. تغييرات طفيفة في تنسيق السؤال قد تؤدي إلى أحكام مختلفة، ما يعكس محدودية الفهم العميق.
الخلاصة أن ما تقدمه روبوتات الدردشة اليوم هو تنبؤ إحصائي متقدم، لا فلسفة أخلاقية حقيقية.
وقد يتغير ذلك مستقبلاً، لكن فقط إذا بدأنا في قياس ما يهم فعلاً — ليس ما يبدو صحيحاً، بل ما يستند إلى منطق أخلاقي متماسك.
لكن السؤال الجوهري هو: هل يفهم فعلاً ما يقوله، أم أنه يجيد فقط ترتيب الكلمات بطريقة مقنعة؟
هذا هو التحدي الذي تناولته ورقة بحثية جديدة لفريق "غوغل ديب مايند" نُشرت في مجلة "Nature"، حيث يرى الباحثون أن طرق اختبار أخلاق أنظمة الذكاء الاصطناعي الحالية تعاني من خلل أساسي.
الأداء الأخلاقي لا يعني الفهم
حتى الآن، تركز الاختبارات على ما يسميه الباحثون "الأداء الأخلاقي" — أي ما إذا كانت إجابة النموذج تبدو صحيحة أو مقبولة أخلاقياً.
لكن هذا لا يثبت أن النظام يفهم لماذا يُعدّ أمرٌ ما صائباً أو خاطئاً، بحسب تقرير نشره موقع "digitaltrends" واطلعت عليه "العربية Business".
ومع استخدام النماذج اللغوية الكبيرة (LLMs) في مجالات حساسة مثل الإرشاد النفسي والنصائح الطبية وحتى الدعم العاطفي، يصبح الفرق بين الفهم الحقيقي والمحاكاة الإحصائية مسألة ذات تبعات واقعية.
ثلاث مشكلات رئيسية
تقترح الورقة إطاراً لقياس ما تسميه "الكفاءة الأخلاقية"، أي القدرة على إصدار أحكام مبنية على اعتبارات أخلاقية حقيقية، لا مجرد أنماط متعلمة من البيانات.
1- مشكلة النسخة المقلدة
النماذج اللغوية تتنبأ بالكلمة التالية استناداً إلى احتمالات إحصائية.
وعندما تقدم نصيحة أخلاقية، قد تكون تعيد صياغة محتوى مشابه في بيانات تدريبها، لا تمارس استدلالاً أخلاقياً فعلياً، المخرجات وحدها لا تكشف الفرق.
2- تعددية الأبعاد الأخلاقية
القرارات الواقعية غالباً ما تتضمن موازنة بين قيم متعارضة: الصدق مقابل اللطف، العدالة مقابل الكلفة.
تغيير تفصيل صغير — كالعمر أو السياق — قد يغير الحكم الأخلاقي بالكامل. الاختبارات الحالية لا تتحقق بما يكفي مما إذا كان النموذج يلتقط هذه الفروق الدقيقة.
3- التعددية الثقافية
ما يُعتبر عادلاً في ثقافة ما قد يُعد غير مقبول في أخرى.
أنظمة تُستخدم عالمياً يجب أن تتعامل مع أطر أخلاقية متعددة، لكن قياس قدرتها على ذلك لا يزال محدوداً.
اختبارات استفزازية لكشف المحاكاة
يقترح الباحثون التحول إلى اختبارات مصممة لكشف التقليد السطحي، عبر سيناريوهات غير مألوفة يصعب أن تكون موجودة في بيانات التدريب.
أحد الأمثلة المطروحة يتناول حالة تبرع حيوانات منوية بين أجيال داخل العائلة، وهو سيناريو قد يبدو قريباً من "سفاح القربى" لكنه يختلف أخلاقياً في تفاصيله.
إذا رفض النموذج الحالة لأسباب نمطية سطحية، فذلك مؤشر على مطابقة أنماط. أما إذا ناقش الاعتبارات الأخلاقية الفعلية، فالأمر مختلف.
كما يدعو الفريق لاختبار قدرة النماذج على تبديل الأطر الأخلاقية: هل يمكنها الانتقال من أخلاقيات الطب الحيوي إلى قواعد القانون العسكري مثلاً، مع الحفاظ على اتساق منطقي؟ وهل تتأثر أحكامها بتغييرات شكلية بسيطة في صياغة السؤال؟
نحو معيار علمي جديد
يرى باحثو "ديب مايند" أن الوقت حان لوضع معيار علمي يقيس الكفاءة الأخلاقية بالجدية نفسها التي نقيس بها مهارات الرياضيات أو البرمجة لدى النماذج.
لكنهم يعترفون بأن النماذج الحالية لا تزال هشة. تغييرات طفيفة في تنسيق السؤال قد تؤدي إلى أحكام مختلفة، ما يعكس محدودية الفهم العميق.
الخلاصة أن ما تقدمه روبوتات الدردشة اليوم هو تنبؤ إحصائي متقدم، لا فلسفة أخلاقية حقيقية.
وقد يتغير ذلك مستقبلاً، لكن فقط إذا بدأنا في قياس ما يهم فعلاً — ليس ما يبدو صحيحاً، بل ما يستند إلى منطق أخلاقي متماسك.