نموذج Nemotron-Labs من إنفيديا ينهي عصر توليد النصوص رمِزاً…

مقدمة تحليلية

في 23 مايو 2026، كشفت شركة NVIDIA النقاب عن عائلة نماذج Nemotron-Labs Diffusion (التي تضم إصدارات بـ 3B و8B و14B من المعاملات)، معلنةً عن بداية نهاية حقبة التوليد أحادي الاتجاه (Autoregressive) الذي هيمن على نماذج اللغة الكبيرة لسنوات. لطالما كان توليد النصوص "رمزاً برمز" (Token-by-Token) يفرض ضريبة برمجية باهظة؛ حيث يتطلب توليد استجابة مكونة من 2000 رمز إجراء 2000 دورة معالجة كاملة عبر أوزان النموذج بمليارات المعاملات، مما يجعل أقوى بطاقات الرسوميات مثل NVIDIA H100 (التي تقدم نطاقاً ترددياً للذاكرة يصل إلى 3.35 TB/s وقدرة حوسبة تبلغ 989 TFLOPS بدقة FP16) تعمل بأقل من 0.2% من طاقتها الفعلية بسبب قيود نقل البيانات من الذاكرة. يقدم نموذج Nemotron-Labs Diffusion حلاً جذرياً لهذه المعضلة عبر كسر حاجز المعالجة المتسلسلة، محققاً زيادة في معدل إنتاجية البيانات (Throughput) بمقدار 6.4 أضعاف مقارنة بالنماذج التقليدية المعادلة له في الحجم، دون أي تراجع في جودة المخرجات. بل إن إصدار 8B يتفوق على نموذج Qwen3-8B بنسبة 1.2% في متوسط اختبارات الأداء القياسية للذكاء الاصطناعي.

التحليل التقني

يكمن السر وراء هذا الإنجاز في إعادة صياغة معمارية التوليد باستخدام "نماذج لغة الانتشار" (Diffusion Language Models) من خلال حزمة تدريب مبتكرة تُعرف باسم Efficient-DLM (وفقاً للورقة البحثية Fu et al., arXiv:2512.14067). بدلاً من بناء النموذج من الصفر، يقوم هذا الإطار بتحويل نماذج التوليد المتسلسل المدربة مسبقاً (Pretrained AR Models) إلى نماذج انتشار عبر عمليات تدريب مستمرة (Continued Pretraining)، مما يحافظ على المعرفة اللغوية الهائلة المخزنة في النموذج الأصلي. وتعتمد الآلية التقنية لـ Nemotron-Labs Diffusion على المفاهيم الهندسية التالية:

الانتشار الماص (Absorbing Diffusion): على عكس نماذج انتشار الصور التي تطبق تشويشاً مستمراً (Gaussian Noise)، تستخدم نماذج النصوص خوارزمية حجب الرموز الماصة، حيث يتم استبدال الكلمات تدريجياً برمز خاص [MASK]، ويتعلم النموذج إلغاء هذا الحجب وتوقع الرموز المخفية في جميع المواضع في وقت واحد.
التوليد على مستوى الكتلة (Block-Level Generation): يعمل النموذج على معالجة النص في كتل ثابتة بطول 32 رمزاً. في كل خطوة معالجة، يتم تعبئة الكتلة برمز الحجب، ثم تمريرها دفعة واحدة لتوقع جميع الرموز الـ 32 بالتوازي. يتم قبول الرموز التي تتجاوز عتبة الثقة البالغة 0.9، في حين يُعاد حجب الرموز ذات الثقة المنخفضة لتكرار تنقيتها.
الانتباه المعتمد على الكتل (Block-wise Attention): لضمان التوافق مع ذاكرة التخزين المؤقت للمفاتيح والقيم (KV Cache)، يحافظ التصميم على خاصية السببية بين الكتل المختلفة، في حين يسمح بالانتباه ثنائي الاتجاه (Fully Bidirectional) داخل الكتلة الواحدة المكونة من 32 رمزاً.
الحجب المعتمد على الموقع (Position-Dependent Masking): لمعالجة عدم التطابق بين نمط التدريب والتشغيل الفعلي، يتم تطبيق معدلات حجب أعلى على الرموز المتأخرة في السلسلة مقارنة بالرموز المبكرة التي تم تأكيدها بالفعل خلال مرحلة الاستدلال.

تم تدريب نموذج Nemotron-Labs Diffusion على 1.3 تريليون رمز من مجموعات بيانات NVIDIA Nemotron Pretraining، متبوعة بعمليات ضبط دقيق (SFT) على 45 مليار رمز مخصص، معتمدة على دالة خسارة مشتركة تجمع بين خسارة التنبؤ المتسلسل وخسارة التنبؤ العشوائي المتوازي بنسبة توازن تعادل 0.2 إلى 0.3 لصالح المحافظة على قدرات التوليد السببي.

السياق وتأثير السوق

يتيح النموذج للمطورين مرونة تشغيلية فريدة عبر توفير ثلاثة أنماط معالجة مختلفة ضمن نفس ملف الأوزان (Checkpoint)، ويتم تفعيلها برمجياً عبر منصات الاستضافة مثل SGLang (من خلال طلب السحب PR #25803) دون الحاجة لتغيير كود التطبيق المطور:

نمط التوليد المتسلسل (Autoregressive Mode): للتوافق الرجعي الكامل وإجراء اختبارات المقارنة (A/B testing).
نمط المعالجة السريعة (FastDiffuser): يحقق سرعة توليد أعلى بمقدار 2.6 ضعفاً عبر تكرار حلقات فك الحجب والتنقية لعدد خطوات يتراوح بين 10 إلى 20 خطوة لكل كتلة من الرموز.
نمط المضاربة الذاتية (Self-Speculation): يعمل فيه النموذج كمسوّد (Drafter) ومراجع (Verifier) في آن واحد. تولد رأس الانتشار المقترحات بالتوازي، ثم يتحقق رأس التوليد السببي منها بسرعة فائقة، مما يمنح المطورين استجابة خالية من الخسائر (Lossless) وبسرعة هائلة تصل إلى 865 رمزاً في الثانية على شريحة NVIDIA B200 الفردية، وهو ما يعادل 6.4 أضعاف سرعة المعالجة التقليدية.

يظهر تفوق هذه المعمارية بشكل جلي في مهام "ملء الفراغات في المنتصف" (Fill-in-the-Middle) وكتابة الشيفرات البرمجية المتداخلة. في النماذج المتسلسلة التقليدية، تنهار الدقة كلما اتسعت الفجوة البرمجية المطلوب ملؤها لأن النموذج لا يمكنه النظر إلى الأسطر البرمجية التالية أثناء كتابة السطر الحالي. في المقابل، يستطيع نموذج DLM قراءة السياقين الأمامي والخلفي بالتزامن وبشكل أصلي كامل، مما يجعله المحرك المثالي لمساعدي البرمجة الذكية والوكلاء البرمجيين (Coding Agents).

رؤية Glitch4Techs

تأتي هذه القفزة البرمجية لإنفيديا لتعالج أزمة هيكلية عميقة كشفت عنها ورقة بحثية حديثة نُشرت مؤخراً (Papotti et al., arXiv:2605.06445) حصدت تفاعلاً واسعاً في الأوساط التقنية. تشير الدراسة إلى أن وكلاء البرمجة القائمين على المعالجة المتسلسلة التقليدية يفقدون ما يصل إلى 30 نقطة مئوية من معدل نجاح الاختبارات البرمجية بمجرد تراكم القيود المعمارية والبرمجية في المشاريع المعقدة وتطوير قواعد البيانات. يرجع السبب الرئيسي في ذلك إلى عجز النماذج المتسلسلة عن تعديل القرارات البرمجية الخاطئة التي اتخذتها في بداية الملفات، مما يؤدي إلى تراكم الأخطاء برمجياً وتدمير منطق العمل بالكامل. بفضل هندسة DLM، تملك نماذج الانتشار القدرة على إجراء مراجعات فورية للكتل النصية والبرمجية قبل تأكيد كتابتها نهائياً. وإذا تم دمج محرك فحص قيود خارجي (Constraint Oracle) أثناء خطوات فك الحجب، يمكن للنموذج تلافي الأخطاء الهيكلية عبر إعادة حجب الرموز المخالفة وتصحيحها فوراً دون الحاجة لإعادة توليد الملف البرمجي بالكامل. رغم هذه المزايا الهائلة، لا تزال هناك عقبات تحول دون هيمنة DLMs المطلقة على المدى القصير. بالنسبة للمهام ذات الاستجابات القصيرة جداً (أقل من 64 رمزاً) وبحجم دفعة تشغيلية أحادية (Batch Size 1)، تلتهم خطوات فك التشويش والتكرار جزءاً كبيراً من تفوق السرعة، مما يجعل النماذج المتسلسلة التقليدية منافساً قوياً في مهام المحادثات الفورية شديدة البساطة. ومع ذلك، تؤكد خطوة إنفيديا أن هندسة معالجة اللغات تدخل مرحلة انتقالية حاسمة نحو التوازي الكامل والتحرر من سجن "الرمز تلو الرمز".

نموذج Nemotron-Labs من إنفيديا ينهي عصر توليد النصوص رمِزاً برمز

مقدمة تحليلية

التحليل التقني

السياق وتأثير السوق

رؤية Glitch4Techs

كن أول من يعرف بمستقبل التقنية

مقالات قد تهمك

OpenAI تُطلق GPT-Live: محادثة صوتية سلسة تكسر حواجز التفاعل البشري

Grok 4.5 من SpaceX ينطلق بنصف التكلفة: هل يزلزل OpenAI و Anthropic؟

Prime Intellect تجمع 130 مليون دولار لتمكين الشركات من بناء وكلاء AI

Anthropic تُطلق Claude Cowork للويب والجوال: المستخدمون يتجاهلون البرمجة