السر وراء تحسين صدق وكلاء الذكاء الاصطناعي بنسبة 43% في 4 أسطر

"كشفت دراسة رائدة أجراها Mycel Network على 1,315 ناتجاً لوكلاء ذكاء اصطناعي عن أن "الصدق" هو أضعف أبعاد الجودة عالمياً. وتبين أن إضافة قسم بسيط مكون من أربعة أسطر للقيود يمكن أن يحسن هذا البعد بنسبة 43% بشكل فوري."
في عالم أنظمة الذكاء الاصطناعي المتعددة الوكلاء (multi-agent AI systems)، عادة ما يتم قياس النجاح بمدى إنجاز المهام. لكن دراسة جديدة ركزت على جانب مختلف وأكثر دقة: جودة تواصل الوكلاء مع بعضهم البعض. وقد كشفت هذه الدراسة عن أنماط مفاجئة قد تغير طريقة تفكيرنا في بناء وتطوير هذه الأنظمة.
قامت شبكة Mycel Network، وهي شبكة تتألف من 19 وكيل ذكاء اصطناعي يعملون بتنسيق ذاتي عبر "traces" مشتركة – وهي مستندات دائمة وموثقة بالتجزئة ينشرونها في أرشيف مشترك – بتحليل 1,315 من هذه الـ traces. تم تقييم كل trace بناءً على خمسة أبعاد للجودة: Specificity (الخصوصية)، Connections (الروابط)، Actionability (قابلية التنفيذ)، Density (الكثافة)، و Honesty (الصدق). وأظهرت النتائج الأولية أن الكثافة كانت الأعلى بمتوسط 8.40 من 10، بينما كان الصدق هو الأقل بمتوسط 7.74.
كان الاكتشاف الأكثر بروزاً هو أن الصدق يمثل نقطة ضعف عالمية. فـ 51% من جميع الـ traces كانت أضعف في بعد الصدق، حيث لا يميز الوكلاء بين ما اكتشفوه وما يتكهنون به، وتُطرح المزاعم كحقائق مطلقة دون الإشارة إلى القيود. هذه المشكلة ليست مقتصرة على وكيل فردي أو عائلة نموذج معينة، بل هي نمط سائد عبر الشبكة بأكملها، ويرجع ذلك إلى تدريب نماذج اللغات الكبيرة (LLMs) على إظهار الثقة، وهو ما ينتقل مباشرة إلى مخرجاتها المنشورة.
لحسن الحظ، وجدت الدراسة حلاً بسيطاً بشكل مدهش. عبر إضافة قسم "Limitations" (القيود) مكون من أربعة أسطر فقط إلى كل مخرج، يقر بما لم يتم اختباره، وما قد يكون خاطئاً، والافتراضات التي تم اتخاذها، ارتفع مستوى الصدق للوكلاء بشكل ملحوظ. قفزت درجة الصدق من 6/10 إلى 9/10 على نفس المحتوى، وهو تحسن بنسبة 43% بمجرد تغيير تنسيق. والأكثر إثارة، أن أول وكيل خارجي انضم إلى الشبكة بعد نشر دليل الجودة تبنى هذه الممارسة فوراً، محققاً درجة صدق 9.1/10 مقارنة بمتوسط الشبكة البالغ 7.7.
كما أظهرت الدراسة أن الجودة تتدرج طبيعياً إلى ثلاثة مستويات دون أي معايير مفروضة: وكلاء من المستوى الأعلى (30%، بدرجات تزيد عن 41/50) يتميزون بالاتساق والترابط، ووكلاء من المستوى المتوسط (40%، بدرجات 38-41)، ووكلاء من المستوى الأدنى (30%، بدرجات أقل من 38) بـ traces قصيرة وضعيفة الروابط. الملفت للنظر هو أن الوكلاء الأكثر تفاعلاً مع الشبكة هم من يسجلون درجات أعلى. وفي جانب آخر، كشفت الدراسة أن حلقات التحسين (optimization loops) تساعد الوكلاء الأضعف بشكل أكبر؛ ففي حين تحسنت الوكلاء الذين سجلوا 31-33 درجة بنسبة 42%، تحسنت الوكلاء الذين سجلوا 36-38 درجة بنسبة 20%، مما يشير إلى تأثير مساوٍ للجودة.
أثناء توسع الشبكة بضم وكلاء خارجيين، انخفض متوسط الجودة الكلي بشكل طفيف من 40.2 إلى 39.8. ومع ذلك، تحسنت درجة الصدق – البعد الوحيد الذي تم إبرازه بوضوح عبر البيانات – من 7.68 إلى 7.74. هذا يؤكد أن جعل المقاييس مرئية يؤثر على السلوك، وأن جعل جميع المقاييس مرئية قد يغير كل شيء في سلوك أنظمة الذكاء الاصطناعي.
بينما تقدم هذه الدراسة رؤى قيمة حول ديناميكيات جودة الاتصال بين وكلاء الذكاء الاصطناعي، يطرح السؤال حول مدى قابلية هذه النتائج للتعميم على أنظمة multi-agent أخرى تختلف في بنيتها أو مهامها. وهل يمكن اعتبار "الصدق" المتحقق عبر إضافة قسم "القيود" انعكاساً حقيقياً للفهم الذاتي للوكيل، أم مجرد استجابة لـ prompt هيكلي؟ كما أن فكرة "تقارب الوكلاء نحو حد أدنى من الجودة" عبر التحسين المستمر قد تثير تساؤلات حول إمكانية الابتكار غير الموجه أو ظهور سلوكيات غير متوقعة في الأنظمة المعقدة.
كن أول من يعرف بمستقبل التقنية
أهم الأخبار والتحليلات التقنية مباشرة في بريدك.