"مايكروسوفت" تكشف عن أداة جديدة لاختبار سلوك الذكاء الاصطناعي
للعلّم - أعلنت "مايكروسوفت" عن إطلاق إطار عمل جديد مفتوح المصدر يحمل اسم ASSERT، يهدف إلى مساعدة المطورين والشركات على اختبار سلوك أنظمة الذكاء الاصطناعي والتأكد من التزامها بالقواعد والسياسات الخاصة بكل تطبيق أو خدمة.
وتأتي الأداة الجديدة، التي يحمل اسمها الكامل "Adaptive Spec-driven Scoring for Evaluation and Regression Testing"، استجابة لحاجة متزايدة لدى المؤسسات التي تعتمد على الذكاء الاصطناعي، حيث لا يكفي تقييم أداء النماذج بشكل عام، بل أصبح من الضروري التأكد من أنها تتصرف وفقاً لمتطلبات العمل المحددة لكل منتج.
تحويل التعليمات إلى اختبارات تلقائية
وتعتمد ASSERT على الذكاء الاصطناعي لتحويل الأوصاف المكتوبة بلغة طبيعية إلى مجموعة متكاملة من الاختبارات القابلة للقياس والتقييم، بحسب تقرير نشره موقع "تك كرانش".
بمجرد أن يحدد المطور الأهداف أو السياسات أو السلوكيات المتوقعة من النظام، تقوم الأداة بتحويل هذه المتطلبات إلى قائمة منظمة من السلوكيات المقبولة وغير المقبولة، ثم تنشئ سيناريوهات واختبارات متنوعة للتحقق من التزام النظام بهذه القواعد.
بعد ذلك، تُشغّل الاختبارات على النظام المستهدف وتمنح نتائج تفصيلية تساعد المطورين على اكتشاف نقاط الضعف أو الانحرافات السلوكية.
تتبع أسباب الأخطاء
ومن أبرز مزايا الأداة قدرتها على تسجيل المسارات التي يتبعها نظام الذكاء الاصطناعي أثناء تنفيذ المهام، بما في ذلك الخطوات الوسيطة واستدعاءات الأدوات المختلفة، ما يتيح للمطورين فهماً أعمق لأسباب الإخفاقات والأخطاء.
كما تسمح ASSERT بإضافة معلومات إضافية مثل بيئة العمل والأدوات المتاحة والقيود التنظيمية، ما يساهم في تخصيص عملية التقييم بما يتناسب مع طبيعة كل تطبيق.
مثال عملي
على سبيل المثال، إذا كان لدى شركة ما مساعد ذكي مخصص للبحث في الوثائق الداخلية، يمكن للمطور تحديد قواعد واضحة مثل منع إرسال رسائل بريد إلكتروني إلى جهات خارج الشركة، أو حصر الوصول إلى المعلومات السرية على كبار التنفيذيين، أو تقديم ملخصات موجزة تراعي السياق السابق للمحادثة.
وفي هذه الحالة، تتولى ASSERT إنشاء اختبارات متنوعة للتأكد من أن النظام يلتزم بهذه الضوابط بشكل مستمر.
سد فجوة في تقييم النماذج
وترى "مايكروسوفت" أن الأداة الجديدة تعالج جانباً لا تغطيه اختبارات الذكاء الاصطناعي التقليدية، إذ إن السلوك المطلوب من النموذج غالباً ما يتأثر بطبيعة التطبيق وسياسات المؤسسة والأدوات المستخدمة داخله، وهو ما يصعب قياسه عبر المعايير العامة.
وقالت سارة بيرد، رئيسة المنتجات في قسم الذكاء الاصطناعي المسؤول لدى "مايكروسوفت"، إن التقييمات الدقيقة أصبحت عنصراً أساسياً لاتخاذ قرارات صحيحة بشأن أنظمة الذكاء الاصطناعي.
وأضافت أن المؤسسات لا تستطيع الحكم على مدى موثوقية أنظمتها ما لم تفهم سلوكها الفعلي، مشيرة إلى أن الأنظمة الجديرة بالثقة تتطلب قياس عدد كبير من الجوانب المرتبطة مباشرة بطبيعة التطبيق.
وأكدت أن ASSERT يمكن استخدامها خلال مراحل تطوير النظام، وبعد إطلاقه للمستخدمين، وحتى في عمليات المراقبة المستمرة على المدى الطويل.
توجه متنامٍ داخل الصناعة
ويأتي إطلاق ASSERT في وقت يشهد فيه قطاع الذكاء الاصطناعي تحولاً متزايداً نحو بناء أدوات تقييم واختبارات أكثر دقة واستمرارية، خاصة مع ازدياد قدرات النماذج الحديثة.
وخلال الفترة الأخيرة، برزت مبادرات عدة في هذا المجال، من بينها مشروع مركز ستانفورد لأبحاث نماذج المؤسسات، عبر منصة HELM، إضافة إلى اختبارات AILuminate التابعة ل MLCommons، وجهود مجموعة METR، والتي تركز جميعها على قياس أداء النماذج وسلوكها في سيناريوهات مختلفة.
وتعكس هذه الجهود اتجاهاً متنامياً داخل الصناعة نحو جعل تقييم الذكاء الاصطناعي عملية مستمرة ومنهجية، بدلاً من الاكتفاء باختبارات أولية قبل إطلاق المنتجات.
وتأتي الأداة الجديدة، التي يحمل اسمها الكامل "Adaptive Spec-driven Scoring for Evaluation and Regression Testing"، استجابة لحاجة متزايدة لدى المؤسسات التي تعتمد على الذكاء الاصطناعي، حيث لا يكفي تقييم أداء النماذج بشكل عام، بل أصبح من الضروري التأكد من أنها تتصرف وفقاً لمتطلبات العمل المحددة لكل منتج.
تحويل التعليمات إلى اختبارات تلقائية
وتعتمد ASSERT على الذكاء الاصطناعي لتحويل الأوصاف المكتوبة بلغة طبيعية إلى مجموعة متكاملة من الاختبارات القابلة للقياس والتقييم، بحسب تقرير نشره موقع "تك كرانش".
بمجرد أن يحدد المطور الأهداف أو السياسات أو السلوكيات المتوقعة من النظام، تقوم الأداة بتحويل هذه المتطلبات إلى قائمة منظمة من السلوكيات المقبولة وغير المقبولة، ثم تنشئ سيناريوهات واختبارات متنوعة للتحقق من التزام النظام بهذه القواعد.
بعد ذلك، تُشغّل الاختبارات على النظام المستهدف وتمنح نتائج تفصيلية تساعد المطورين على اكتشاف نقاط الضعف أو الانحرافات السلوكية.
تتبع أسباب الأخطاء
ومن أبرز مزايا الأداة قدرتها على تسجيل المسارات التي يتبعها نظام الذكاء الاصطناعي أثناء تنفيذ المهام، بما في ذلك الخطوات الوسيطة واستدعاءات الأدوات المختلفة، ما يتيح للمطورين فهماً أعمق لأسباب الإخفاقات والأخطاء.
كما تسمح ASSERT بإضافة معلومات إضافية مثل بيئة العمل والأدوات المتاحة والقيود التنظيمية، ما يساهم في تخصيص عملية التقييم بما يتناسب مع طبيعة كل تطبيق.
مثال عملي
على سبيل المثال، إذا كان لدى شركة ما مساعد ذكي مخصص للبحث في الوثائق الداخلية، يمكن للمطور تحديد قواعد واضحة مثل منع إرسال رسائل بريد إلكتروني إلى جهات خارج الشركة، أو حصر الوصول إلى المعلومات السرية على كبار التنفيذيين، أو تقديم ملخصات موجزة تراعي السياق السابق للمحادثة.
وفي هذه الحالة، تتولى ASSERT إنشاء اختبارات متنوعة للتأكد من أن النظام يلتزم بهذه الضوابط بشكل مستمر.
سد فجوة في تقييم النماذج
وترى "مايكروسوفت" أن الأداة الجديدة تعالج جانباً لا تغطيه اختبارات الذكاء الاصطناعي التقليدية، إذ إن السلوك المطلوب من النموذج غالباً ما يتأثر بطبيعة التطبيق وسياسات المؤسسة والأدوات المستخدمة داخله، وهو ما يصعب قياسه عبر المعايير العامة.
وقالت سارة بيرد، رئيسة المنتجات في قسم الذكاء الاصطناعي المسؤول لدى "مايكروسوفت"، إن التقييمات الدقيقة أصبحت عنصراً أساسياً لاتخاذ قرارات صحيحة بشأن أنظمة الذكاء الاصطناعي.
وأضافت أن المؤسسات لا تستطيع الحكم على مدى موثوقية أنظمتها ما لم تفهم سلوكها الفعلي، مشيرة إلى أن الأنظمة الجديرة بالثقة تتطلب قياس عدد كبير من الجوانب المرتبطة مباشرة بطبيعة التطبيق.
وأكدت أن ASSERT يمكن استخدامها خلال مراحل تطوير النظام، وبعد إطلاقه للمستخدمين، وحتى في عمليات المراقبة المستمرة على المدى الطويل.
توجه متنامٍ داخل الصناعة
ويأتي إطلاق ASSERT في وقت يشهد فيه قطاع الذكاء الاصطناعي تحولاً متزايداً نحو بناء أدوات تقييم واختبارات أكثر دقة واستمرارية، خاصة مع ازدياد قدرات النماذج الحديثة.
وخلال الفترة الأخيرة، برزت مبادرات عدة في هذا المجال، من بينها مشروع مركز ستانفورد لأبحاث نماذج المؤسسات، عبر منصة HELM، إضافة إلى اختبارات AILuminate التابعة ل MLCommons، وجهود مجموعة METR، والتي تركز جميعها على قياس أداء النماذج وسلوكها في سيناريوهات مختلفة.
وتعكس هذه الجهود اتجاهاً متنامياً داخل الصناعة نحو جعل تقييم الذكاء الاصطناعي عملية مستمرة ومنهجية، بدلاً من الاكتفاء باختبارات أولية قبل إطلاق المنتجات.