ذاكرة Optane المهجورة تعيد الحياة لنماذج الذكاء الاصطناعي المليارية على الأجهزة المكتبية

"نجح مستخدم في تشغيل نموذج الذكاء الاصطناعي العملاق Kimi K2.5 بتريليون بارامتر على جهاز مكتبي باستخدام ذاكرة Intel Optane المتوقفة وبطاقة RTX 3060. التجربة حققت سرعة 4 رموز في الثانية، مما يفتح آفاقاً جديدة لتشغيل أضخم النماذج محلياً بتكلفة منخفضة."
مقدمة تحليلية
في تطور مثير للاهتمام لمجتمع الذكاء الاصطناعي المحلي (Local LLM)، كشف تقرير تقني جديد من مجتمع r/LocalLLaMA عن قدرة عتاد قديم ومتوقف إنتاجه على كسر الحواجز التقليدية لتشغيل النماذج اللغوية الضخمة. القصة تبدأ من استخدام وحدات ذاكرة Intel Optane Persistent Memory، التي أعلنت إنتل وقف إنتاجها سابقاً، لتشغيل نموذج Kimi K2.5 المتطور من شركة Moonshot AI، والذي يحتوي على تريليون بارامتر (1 Trillion Parameters). هذا الإنجاز ليس مجرد تجربة تقنية عابرة، بل هو إعادة صياغة لمفهوم 'الحوسبة الفائقة المنزلية' باستخدام قطع هاردوير يمكن الحصول عليها بأسعار معقولة من سوق الأجهزة المستعملة.
تكمن الأهمية الاستراتيجية لهذا الخبر في كسر احتكار البطاقات الرسومية باهظة الثمن (مثل H100 أو A100) لتشغيل النماذج العملاقة. فبينما تتسابق الشركات لشراء وحدات معالجة الرسومات بآلاف الدولارات، أثبت أحد المستخدمين أن دمج بطاقة RTX 3060 متوسطة المدى مع سعة هائلة من ذاكرة Optane يمكن أن يقدم نتائج ملموسة، وهو ما يفتح الباب أمام الباحثين والمطورين المستقلين لامتلاك قدرات استدلال (Inference) كانت مقتصرة سابقاً على مراكز البيانات الكبرى.
التحليل التقني
البناء التقني لهذا النظام يعتمد على هندسة ذكية تجمع بين أنواع مختلفة من الذاكرة والتعامل مع أوزان النماذج بطريقة انتقائية. الجهاز المستخدم يعتمد على معالج Intel Xeon Gold 6246، مدعوماً ببطاقة RTX 3060 بذاكرة 12 جيجابايت، و192 جيجابايت من ذاكرة DDR4 ECC RDIMMs. ولكن السر الحقيقي يكمن في إضافة 6 وحدات من Intel Optane DCPMM بسعة 128 جيجابايت لكل منها، ليصل إجمالي سعة ذاكرة Optane إلى 768 جيجابايت.
آلية عمل Memory Mode
تم تشغيل ذاكرة Optane في وضع 'Memory Mode'، حيث يتعامل نظام التشغيل مع هذه الذاكرة كأنها ذاكرة وصول عشوائي (RAM) أساسية، بينما تعمل ذاكرة DDR4 التقليدية كطبقة تخزين مؤقت (Cache) سريعة أمامها. هذا الإعداد يسمح للنظام بالحصول على مساحة عنونة ضخمة تصل إلى ما يقرب من 1 تيرابايت من الذاكرة، مما يوفر المساحة الكافية لتحميل أوزان نموذج Kimi K2.5 الملياري.
توزيع الأحمال عبر llama.cpp
استخدم المطور برمجية llama.cpp مع مجموعة من الأعلام (Flags) التقنية المحددة لتحقيق هذا الأداء:
- استخدام
--override-tensorلتجاوز أنواع مخازن التنسور الافتراضية. - تفعيل خيار
--cpu-moeأو-cmoe، وهو أمر حيوي لنماذج 'خليط الخبراء' (Mixture of Experts)، حيث يتم إبقاء أوزان الخبراء على المعالج والذاكرة العشوائية (Optane في هذه الحالة) بينما يتم نقل الأجزاء الأكثر استخداماً للـ GPU. - استخدام
-ngl autoلتوزيع طبقات النموذج تلقائياً بين المعالج الرسومي والذاكرة المركزية.
النتيجة كانت سرعة استدلال تصل إلى 4 رموز في الثانية (4 tokens per second). ورغم أن هذا الرقم قد يبدو ضئيلاً مقارنة بالحلول السحابية، إلا أنه إنجاز مذهل بالنظر إلى حجم النموذج (1 تريليون بارامتر) وتشغيله على جهاز مكتبي محلي. يعود الفضل في ذلك إلى معمارية Kimi K2.5 التي تفعل 32 مليار بارامتر فقط في كل عملية استدلال، مما يقلل من ضغط النقل بين الذاكرة والمعالج.
السياق وتأثير السوق
توقف Intel عن إنتاج سلسلة Optane كان بمثابة نهاية حقبة في عالم التخزين والذاكرة، ولكن حاجتنا اليوم لمساحات هائلة من الذاكرة لتشغيل نماذج الذكاء الاصطناعي أعادت الطلب على هذه التقنية في الأسواق الثانوية. إن Intel Optane PMem 100 Series، التي أُطلقت في الربع الثاني من عام 2019، توفر كثافة ذاكرة لا يمكن لمقابس DDR4 التقليدية الوصول إليها بسهولة وبتكلفة منخفضة.
من ناحية أخرى، تبرز Moonshot AI كلاعب قوي في سوق النماذج مفتوحة المصدر (أو المتاحة للاستخدام المحلي) عبر نموذج Kimi K2.5. تأكيد الشركة على أن النموذج يدعم تقنيات تكميم (Quantization) متطورة مثل Native Int4 ساهم بشكل مباشر في نجاح هذه التجربة، حيث يقلل التكميم من حجم النموذج دون فقدان كبير في جودة النتائج، مما يجعله مثالياً للتشغيل على أنظمة الذاكرة المشتركة مثل نظام Optane المذكور.
رؤية Glitch4Techs
في Glitch4Techs، نرى أن هذه التجربة تسلط الضوء على فجوة كبيرة في سوق العتاد الحالي. الشركات تتجه لإنتاج وحدات GPU بذاكرة محدودة (مثل 16 أو 24 جيجابايت) لإجبار المستخدمين على الانتقال للفئات الاحترافية. لكن تجربة Optane تثبت أن 'الذاكرة الضخمة والبطيئة' قد تكون أكثر نفعاً للمستخدم العادي من 'الذاكرة الصغيرة فائقة السرعة' عندما يتعلق الأمر بالنماذج المليارية.
ومع ذلك، هناك تحديات أمنية وتقنية يجب مراعاتها؛ فاستخدام عتاد قديم (Legacy Hardware) مع برمجيات حديثة جداً قد يؤدي إلى عدم استقرار في النظام أو ثغرات في إدارة الذاكرة. كما أن سرعة 4 رموز في الثانية، رغم أنها كافية للقراءة البشرية المباشرة، إلا أنها غير صالحة للتطبيقات التي تتطلب استجابة فورية. التوصية الحقيقية هنا هي للمطورين الذين يرغبون في 'دراسة' وفهم سلوك النماذج الكبيرة محلياً بتكلفة زهيدة، بدلاً من الاعتماد الكلي على واجهات برمجة التطبيقات (APIs) التي قد تثير مخاوف تتعلق بخصوصية البيانات.
ختاماً، إن Intel Optane قد تكون ماتت تجارياً، لكنها ولدت من جديد كـ 'العمود الفقري' لمحطات عمل الذكاء الاصطناعي الاقتصادية، مما يثبت أن الابتكار لا يأتي دائماً من أحدث القطع، بل من الاستخدام الأذكى لما هو متاح.
كن أول من يعرف بمستقبل التقنية
أهم الأخبار والتحليلات التقنية مباشرة في بريدك.