تخطى إلى المحتوى الرئيسي

دراسة: وكلاء الذكاء الاصطناعي يهدرون 44% من الرموز على مهام فاشلة

فريق جلتش
منذ ساعتين0 مشاهدة5 دقائق
دراسة: وكلاء الذكاء الاصطناعي يهدرون 44% من الرموز على مهام فاشلة

دراسة جديدة تكشف هدر وكلاء LLM لـ 44% من ميزانية الرموز في مهام فاشلة. يوفر نظام BAGEN الرياضي حلاً ذكياً لإيقاف التشغيل مبكراً وخفض التكاليف.

مقدمة تحليلية

كشفت دراسة أكاديمية مشتركة بين جامعات Northwestern وStanford وCornell بالتعاون مع All Hands AI أن وكلاء النماذج اللغوية الكبيرة (LLM Agents) يهدرون ما متوسطه 44% من الرموز (Tokens) على مسارات تشغيل محكوم عليها بالفشل منذ خطواتها الأولى. الورقة البحثية التي حملت عنوان 'BAGEN: Are LLM Agents Budget-Aware?' والمسجلة برقم arXiv:2606.00198 بتاريخ 29 مايو 2026، تجيب عن سؤال حاسم في هندسة البرمجيات الحديثة: هل تمتلك نماذج الذكاء الاصطناعي القدرة على إدراك حدود ميزانيتها البرمجية والمالية قبل التمادي في استهلاك الموارد؟ الإجابة القاطعة عبر اختبار خمسة نماذج رائدة في أربع بيئات تشغيلية كانت: لا مطلقاً.

عندما يقوم المطورون بإطلاق وكيل ذكي للقيام بمهام برمجية معقدة أو استرجاع بيانات، فإنهم يعتمدون عادةً على وضع حد أقصى للرموز (max_tokens) كصمام أمان وحيد. تكمن المشكلة الكبرى في أن الوكيل، عند مواجهته لمهمة غير قابلة للحل، لا يتوقف أو يطلب المساعدة، بل يدخل في دوامة مفرغة من التراجع (Backtracking) واستدعاء الأدوات المتكرر، مما يزيد من تكلفة الرموز لكل خطوة بشكل تصاعدي حتى يرتطم بالجدار الصلب للميزانية القصوى. هذا السلوك يعني عملياً دفع التكلفة الكاملة للمسار التشغيلي دون الحصول على أي نتيجة ملموسة.

القيمة الحقيقية لنتائج BAGEN تكمن في إثباتها أن الإيقاف المبكر للمسارات الفاشلة يتيح استرداد ما بين 28% إلى 64% من الرموز المهدرة. هذا الرقم لا يمثل مجرد تحسين طفيف في استهلاك موارد الحوسبة، بل يعد إعادة هيكلة جذرية لنفقات الاستدلال (Inference Cost) في بيئات الإنتاج الفعلية، وهو ما يفتح الباب أمام المطورين لتطبيق طبقات حماية برمجية مستقلة لتفادي الفواتير الضخمة وغير المبررة.

التحليل التقني

يقسم مشروع BAGEN الوعي بالميزانية لدى الوكلاء البرمجيين إلى نوعين رئيسيين من الميزانيات التي تؤثر بشكل مباشر على التشغيل:

  • الميزانية الداخلية (Internal Budgets): وتتعلق مباشرة بالاستهلاك الذاتي لعمليات الحوسبة والرموز التي يحرقها النموذج أثناء خطوات التفكير واستدعاء الأدوات. تم قياس هذا الجانب عبر بيئات تشمل Sokoban لحل الألغاز، ونظام Search-R1 للبحث والاسترجاع، وبيئة SWE-bench البرمجية التي تتطلب تعديل الأكواد البرمجية المتعددة واجتياز اختبارات التحقق الفني.
  • الميزانية الخارجية (External Budgets): وتنتج عن الآثار الجانبية المترتبة على قرارات الوكيل في الأنظمة المتصلة به، مثل تكاليف التخزين، رسوم استدعاء واجهات البرمجة الخارجية (APIs)، أو الإجراءات اللوجستية في بيئات إدارة سلاسل التوريد (Supply Chain) حيث تم اختبار النماذج ببيانات مؤسسية حقيقية تتطلب موازنة تكاليف التخزين والشحن بالتوازي مع استهلاك الرموز.

يقيس إطار عمل BAGEN قدرة الوكيل البرمجي على التنبؤ عبر ثلاث قدرات فرعية أساسية:

  • 1. التنبؤ بجدوى المهمة (Feasibility Prediction): قدرة النموذج على تقدير إمكانية حل المهمة بنجاح من الخطوة صفر قبل بدء أي إجراء فعلي. تظهر النماذج الرائدة الحالية انحيازاً مفرطاً للتفاؤل، حيث تصنف غالبية المهام على أنها قابلة للحل بغض النظر عن تعقيد المدخلات والقيود المفروضة.
  • 2. الكشف المبكر عن الفشل (Early Failure Detection): رصد إشارات التعثر أثناء تقدم العمل وتفعيل أمر التوقف التلقائي. اعتمد الباحثون على بروتوكول 'تكرار اللقطات' (Rollout-Replay Protocol) الذي يعيد استجواب النموذج عند كل بادئة تشغيلية لتقييم قدرته على التنبؤ بالخطوات المتبقية بشكل مستقل عن أدائه التشغيلي ذاته.
  • 3. معايرة النطاق التقديري (Interval Calibration): عوضاً عن إعطاء رقم تخميني واحد، يطلب الإطار من الوكيل تقديم حد أدنى وحد أقصى متوقعين لاستهلاك الموارد. النتائج أظهرت عجزاً كبيراً، حيث لم تتجاوز دقة تغطية النطاق الفعلي 47% حتى بعد إخضاع النماذج لعمليات الضبط الدقيق المتخصصة (SFT+RL).

لمحاكاة هذه الديناميكية وتأكيد فرضيات البحث، طور مختبر Effloow Lab نموذج محاكاة يعتمد على مكتبة Python القياسية دون الحاجة لأي مفاتيح برمجية (API Keys) أو معالجات رسومية (GPUs). قارنت المحاكاة بين تقدير تفاؤلي أعمى يحاكي سلوك النماذج الرائدة، ومقدّر مستوحى من BAGEN يتتبع متوسط تكلفة الخطوة الحالية والتباين الإحصائي (Variance) لرصد بوادر التراجع اللانهائي. وجاءت نتائج المحاكاة الرقمية على النحو التالي:

  • إجمالي التجارب البرمجية: 20 تجربة (10 مهام قابلة للحل، 10 مهام غير قابلة للحل مبرمجة بنمط تراجع عشوائي وتكلفة تصاعدية).
  • حد الميزانية الأقصى: 1500 رمز.
  • أداء المقدر التفاؤلي: صفر تنبيهات بالرغم من تجاوز جميع المهام غير القابلة للحل للحد الأقصى.
  • أداء مقدر BAGEN: إصدار 72 تنبيهاً ذكياً، منها 56 تنبيهاً دقيقاً في المسارات الفاشلة.
  • متوسط الرموز التي تم توفيرها في السيناريوهات الفاشلة: 44.6% بنطاق وفر يتراوح بين 40.9% إلى 48.7%.

السياق وتأثير السوق

المفاجأة الصادمة التي رصدتها الدراسة تكمن في ضعف الارتباط الإحصائي الشديد بين جودة أداء النموذج في المهام الأساسية وقدرته على الوعي بميزانيته الاستهللاكية، حيث بلغت قيمة معامل الارتباط r = 0.35 فقط. هذا يعني تقنياً أن ترقية نظامك البرمجي إلى نموذج أحدث وأقوى لن تحل مشكلة نزيف التكلفة المترتبة على المهام الفاشلة، بل قد تؤدي إلى تضخم الفاتورة بسبب زيادة كلفة الرموز الخاصة بالنماذج الأكبر ذاتها دون جدوى حقيقية.

يعود هذا الخلل الهيكلي في السوق إلى طريقة تدريب النماذج اللغوية الكبيرة؛ حيث تُحسّن النماذج عبر التعلم المعزز من التقييم البشري (RLHF) أو الضبط الدقيق للتعليمات لإتمام المهام بأي ثمن والظهور بمظهر 'القادر على الحل' لكسب نقاط أعلى في منصات التقييم المعيارية (Benchmarks). غياب إشارة المكافأة على 'التوقف الذكي' أو 'تقدير الفشل' جعل النماذج مبرمجة بشكل ضمني على التفاؤل المفرط والأعمى، مما يحول كفاءتها التشغيلية العالية إلى عبء مالي حقيقي عند مواجهة مهام برمجية معقدة أو مدخلات غامضة في بيئات الإنتاج الحقيقية.

رؤية Glitch4Techs

من وجهة نظرنا التقنية في Glitch4Techs، فإن الاعتماد الكلي على قدرات النموذج اللغوي الذاتية لتقدير تكاليفه يمثل ثغرة برمجية وتصميمية فادحة يقع فيها معظم مهندسي الأنظمة الوكيلة اليوم. تظهر الأبحاث بوضوح أن مهارة الإدراك الفوقي (Metacognition) المطلوبة لتحديد التكلفة المستقبلية هي عملية رياضية وإحصائية معقدة لا تتماشى مع آلية عمل شبكات التوليد اللغوية المبنية على التنبؤ بالرمز التالي.

الحل الحقيقي والفعال لهذه الأزمة لا يتطلب إعادة تدريب النماذج أو دفع مبالغ ضخمة في ضبط النماذج الدقيق (SFT)، بل يكمن في تطبيق تصميم الغلاف البرمجي الذكي (Wrapper Pattern) خارج حلقة النموذج. من خلال تتبع المشتق الإحصائي للتكلفة (Cost Derivative) وتغير معدل حرق الرموز خطوة بخطوة، يمكن للمطورين بناء 'صمام أمان ديناميكي' يتدخل لوقف الوكيل أو تحويل المهمة لمهندس بشري قبل التهام ميزانية التشغيل. نرى أن دمج هذه الأطر الرياضية البسيطة، مثل كود BudgetGuard المكتوب بلغة Python القياسية، يجب أن يصبح معياراً أساسياً في حزم تطوير البرمجيات المعيارية (SDKs) لوكلاء الذكاء الاصطناعي لمنع الانفجار المتوقع في فواتير الاستضافة السحابية مع توسع الشركات في نشر الوكلاء الذاتيين.

أعجبك المقال؟ شاركه

النشرة البريدية

كن أول من يعرف بمستقبل التقنية

أهم الأخبار والتحليلات التقنية مباشرة في بريدك.