فجوة الوكالة الذكية: لماذا اكتسح Claude Opus نموذج جوجل Gemma 4 في اختبارات البرمجة الحقيقية؟

"في مواجهة تقنية شرسة، نجح Claude Opus في بناء ميزة بحث كاملة بـ 700 سطر كود من محاولة واحدة، بينما فشل Gemma 4 الأسرع عالمياً في تجاوز مرحلة التخطيط رغم تشغيله على RTX 5090."
مقدمة تحليلية
في تطور مفاجئ لمجتمع المطورين، كشف اختبار ميداني أجراه فريق Glitch4Techs عن حقيقة صادمة تتعلق بالقدرات التنفيذية لنماذج الذكاء الاصطناعي. فبينما كانت الأرقام النظرية تشير إلى تفوق نموذج Gemma 4 من جوجل كأسرع نموذج محلي، سقط النموذج في فخ 'شلل التنفيذ' عند وضعه في مواجهة حقيقية لبناء ميزة بحث متكاملة لموقع vibescoder.dev. هذا الاختبار لم يكن مجرد مقارنة في سرعة توليد الأكواد، بل كان فحصاً لما نطلق عليه 'فجوة الوكالة' (The Agentic Gap)، وهي المسافة الفاصلة بين القدرة على كتابة كود معزول والقدرة على فهم وإدارة مشروع برمجي كامل بشكل مستقل.
السيناريو كان بسيطاً ولكنه معقد تقنياً: إضافة ميزة بحث عامة عبر كافة تدوينات الموقع، مع دمج نظام التصميم 'Neon Brutalist'، وإدارة حالات البحث عبر العناوين والمحتوى والوسوم، دون أي تدخل بشري بعد الأمر الأول. النتيجة كانت انتصاراً ساحقاً لنموذج Claude Opus 4.6 الذي أنجز المهمة من محاولة واحدة (One-shot)، مقابل فشل ذريع لنموذج Gemma 4 الذي استهلك 8 محاولات دون الوصول إلى نتيجة نهائية قابلة للاستخدام.
التحليل التقني
عند النظر إلى 'المحرك' الذي أدار هذه التجربة، نجد أن التباين التقني كان مذهلاً. نموذج Claude Opus 4.6، الذي يعمل عبر سحابة Anthropic، أظهر ذكاءً معمارياً فائقاً. ففي غضون 8 دقائق فقط، قام النموذج بما يلي:
- تحليل هيكلية المشروع وقراءة ملفات package.json وtsconfig.json وفهم نظام التصميم في globals.css.
- اتخاذ قرارات معمارية ذكية تشمل بناء واجهة بحث Cmd+K تفاعلية وصفحة بحث كاملة /search مدعومة بـ Server-rendering.
- تطوير مسار API متطور (api/search) يستخدم نظام 'Weighted Scoring'؛ حيث يمنح مطابقة العنوان 100 نقطة، والوسوم 50 نقطة، بينما يحصل المحتوى على نقاط أقل، مما يضمن دقة النتائج.
- كتابة 698 سطراً من الكود البرمجي النظيف عبر 6 ملفات، مع الالتزام التام بمعايير TypeScript وإدارة حالات الأخطاء والوصول (ARIA accessibility).
في المقابل، عانى نموذج Gemma 4 27B، رغم تشغيله محلياً على وحش الرسوميات RTX 5090 بسرعة مذهلة تصل إلى 167 توكن في الثانية، من مشكلة سلوكية قاتلة. النموذج دخل في حلقة مفرغة من 'التخطيط دون تنفيذ'؛ حيث كان يضع خططاً ممتازة ثم يتوقف عن العمل بمجرد الوصول لمرحلة كتابة الملفات. حتى مع محاولات الفريق لتعديل تعليمات AGENTS.md لإجباره على التنفيذ، استمر النموذج في وصف ما سيفعله بدلاً من فعله فعلياً، مما يشير إلى خلل في تدريب النماذج المحلية على وظائف 'نداء الأدوات' (Tool-calling) المتسلسلة.
السياق وتأثير السوق
تضع هذه التجربة معايير قياس الأداء (Benchmarks) التقليدية في موضع تساؤل. فإذا كان Gemma 4 قد سجل 100/100 في اختبارات جودة الكود النظرية، فإن فشله في 'الوكالة البرمجية' يعني أن هذه المعايير لا تقيس القدرة على العمل كوكيل (Agent). في السوق الحالي، يتجه المطورون نحو النماذج التي توفر الوقت لا تلك التي تولد نصوصاً برمجية سريعة فقط. تفوق Claude Opus يثبت أن Anthropic تركز على 'المنطق المتسلسل' وفهم السياق العميق، وهو ما يجعل تكلفتها المرتفعة استثماراً ناجحاً مقارنة بالنماذج المجانية التي تستهلك وقت المطور في التوجيه اليدوي.
رؤية Glitch4Techs
نعتقد في Glitch4Techs أن الفجوة التي رأيناها في Gemma ليست مجرد ضعف في النموذج، بل قد تكون مرتبطة بكيفية إدارة 'توكنات التفكير' (Reasoning Tokens). تشير تحليلاتنا إلى أن Gemma قد يكون استهلك ميزانية التوليد بالكامل في تفكير 'غير مرئي' داخل إطار Ollama، مما منعه من إخراج الكود الفعلي. ومع ذلك، تبقى الرسالة واضحة للمؤسسات التقنية: السرعة (Tokens per second) هي معيار مضلل إذا لم تقترن بالاستقلالية. حالياً، لا تزال النماذج السحابية مثل Claude وGPT تسيطر على عرش 'البرمجية الوكيلية'، بينما تظل النماذج المحلية أدوات مساعدة ممتازة لكتابة الدوال البسيطة، لكنها لم تنضج بعد لإدارة ميزات برمجية كاملة من الألف إلى الياء.
كن أول من يعرف بمستقبل التقنية
أهم الأخبار والتحليلات التقنية مباشرة في بريدك.