مايكروسوفت تطلق ASSERT لاختبار سلوك الذكاء الاصطناعي باللغة الطبيعية

مايكروسوفت تطلق ASSERT لتقييم سلوك نماذج الذكاء الاصطناعي باللغة الطبيعية. تهدف الأداة لضمان التزام الوكلاء الرقميين بسياسات التطبيقات الأمنية والتشغيلية.
مقدمة تحليلية
كشفت شركة Microsoft في الثاني من يونيو لعام 2026 عن إطلاق إطار العمل المفتوح المصدر ASSERT، وهي خطوة تأتي لحل واحدة من أكبر المشكلات التي تواجه مطوري تطبيقات الذكاء الاصطناعي والوكلاء الرقميين (AI Agents) حاليًا. على الرغم من أن مختبرات الأبحاث قد حققت قفزات هائلة في تقييم النماذج اللغوية الكبيرة (LLMs) من حيث السلامة العامة ومستويات المحاذاة (Alignment)، إلا أن المطورين والشركات يصطدمون دائمًا بعقبة صعبة: كيف نضمن أن يتصرف النظام الذكي بطريقة تتوافق تمامًا مع السياق الخاص والسياسات الفريدة لمنتج أو خدمة معينة؟
المنصة الجديدة، والتي يحمل اسمها اختصارًا لـ Adaptive Spec-driven Scoring for Evaluation and Regression Testing، تهدف إلى إزالة التعقيد المصاحب لعمليات اختبار السلوك التطبيقي. عبر توظيف نماذج الذكاء الاصطناعي نفسها لتحويل الأهداف والسياسات المكتوبة بلغة بشرية بسيطة إلى اختبارات برمجية دقيقة وقابلة للتتبع، تقدم مايكروسوفت أداة تملأ الفجوة القائمة بين التقييمات العامة والاحتياجات المتخصصة لبيئات العمل الفعلية.
التحليل التقني
يعتمد إطار العمل ASSERT على منهجية فريدة لتحويل النصوص الوصفية غير المنظمة إلى سيناريوهات اختبار برمجية صارمة. تبدأ العملية عندما يقوم المطور بإدخال سياسة تشغيلية معينة أو سلوك مستهدف باللغة الطبيعية (Plain Language). يقوم نظام ASSERT بعد ذلك بالخطوات التقنية التالية:
- تحليل النص المدخل واستخلاص القواعد والمحددات الأساسية لتحويلها إلى هيكل برمجي منظم يفرق بين السلوك المقبول (Acceptable Behavior) والسلوك غير المقبول (Unacceptable Behavior).
- توليد حالات اختبار وسيناريوهات افتراضية معقدة (Problem Scenarios) مصممة خصيصًا لاستفزاز النظام واختبار حدوده القصوى ومحاولة دفعه لكسر السياسة المحددة.
- تشغيل هذه السيناريوهات مباشرة ضد النظام المستهدف ومراقبة ردود أفعاله وسلوكه في بيئة معزولة ومحكومة.
- تسجيل وتوثيق "مسار التنفيذ" (Execution Trace) بالكامل، والذي يشمل الخطوات الوسيطة التي اتخذها الوكيل، واستدعاءات الأدوات البرمجية (Tool Calls)، واستعلامات واجهات برمجة التطبيقات (APIs) لتمكين المطورين من معرفة موضع الخلل بدقة في حال حدوث فشل.
- منح تقييم رقمي مبني على معايير الأداء والالتزام (Scored Results) لتحديد مدى جاهزية النظام للعمل أو تراجعه البرمجي.
يتيح النظام للمطورين أيضًا تقديم سياقات عمل متقدمة تشمل الأدوات المتاحة للذكاء الاصطناعي، والقيود الصارمة المفروضة عليه. على سبيل المثال، إذا تم تحديد قاعدة تمنع "وكيل الأبحاث الذكي" من إرسال رسائل بريد إلكتروني إلى نطاقات خارج الشركة، وتفرض عليه تلخيص المعلومات الحساسة فقط للمدراء التنفيذيين (C-level Executives)، فإن ASSERT يستغل هذه القواعد تلقائيًا لإنشاء اختبارات مستمرة تتحقق من كفاءة النظام في الحفاظ على سرية البيانات ومنع التسريبات البرمجية غير المقصودة.
السياق وتأثير السوق
يأتي إطلاق ASSERT في وقت تشهد فيه صناعة البرمجيات تحولًا استراتيجيًا نحو الاختبارات المتكررة وفحوصات التراجع (Regression Checks). مع تزايد قدرات النماذج، أصبحت معايير التقييم العامة مثل قياسات HELM من جامعة ستانفورد، أو منصة AILuminate من MLCommons، أو اختبارات مجموعة METR، تركز على قياس القدرات العامة للنماذج في ظروف معيارية ثابتة. ومع ذلك، تظل هذه المعايير عاجزة عن تلبية متطلبات الشركات التي تبني تطبيقات تجارية مخصصة تعتمد على منطق عمل معقد ومقيد بسياسات أمنية فريدة.
وكما أشارت Sarah Bird، رئيسة قسم المنتجات للذكاء الاصطناعي المسؤول في مايكروسوفت، فإن فهم السلوك التفصيلي للأنظمة الذكية هو السبيل الوحيد لبناء منتجات تكتسب ثقة المؤسسات. يتيح ASSERT اختبار الأنظمة في ثلاث مراحل حاسمة: مرحلة التطوير الأولي، مرحلة ما بعد النشر الفعلي، ومرحلة المراقبة والتحليل المستمر أثناء التشغيل الحي. هذا النهج يقلل من المخاطر التشغيلية والقانونية التي قد تترتب على الانحراف المفاجئ للوكلاء الأذكياء.
رؤية Glitch4Techs
نرى في Glitch4Techs أن أداة ASSERT تمثل قفزة حقيقية لحل أزمة "الصندوق الأسود" في تقييم وكلاء الذكاء الاصطناعي، لكنها في الوقت نفسه تطرح تحديات أمنية وتقنية جديدة يجب الحذر منها. الاعتماد على الذكاء الاصطناعي لتوليد حالات الاختبار وتقييم النتائج ينطوي على مخاطرة تسمى "التقييم الذاتي الدائري"، حيث قد يعجز النموذج المقيم عن كشف الثغرات المعقدة التي يقع فيها النموذج المستهدف، أو قد يتأثر بنقاط الضعف الكامنة في البنية التحتية للاستدلال والترجمة السلوكية الخاصة به.
بالإضافة إلى ذلك، يجب على المطورين عدم الاكتفاء بالسيناريوهات التي يولدها ASSERT تلقائيًا؛ فالهجمات السيبرانية الموجهة ضد تطبيقات الذكاء الاصطناعي، مثل هندسة الأوامر الخبيثة (Prompt Injection) المتقدمة والتلاعب بالسياق، قد تتجاوز القواعد الهيكلية التي تم صياغتها باللغة الطبيعية. التحدي الحقيقي يكمن في مدى قدرة ASSERT على مجاراة أساليب الاختراق المتطورة باستمرار، ومدى مرونة المطورين في تحديث "مواصفات السلوك" لمواجهة الثغرات الأمنية المكتشفة حديثًا. يظل دمج هذه الأداة كجزء من استراتيجية دفاعية شاملة (Defense-in-Depth) هو الخيار الأكثر أمانًا للشركات والمؤسسات التقنية.
كن أول من يعرف بمستقبل التقنية
أهم الأخبار والتحليلات التقنية مباشرة في بريدك.