الذكاء الاصطناعي والتطوير

ليه ما المفروض تستخدم الموديلات المحلية للذكاء الاصطناعي: الحقيقة المرة

6 دقائق للقراءة٤ مارس ٢٠٢٦

في الأيام الفاتت دي، لاحظت منشورات وفيديوهات كتيرة بتقول "ممكن توفر 200 دولار شهرياً في Claude Code لو استخدمت الموديلات المحلية"، لكن خليني أقول ليك الحقيقة الصريحة اللي الفيديوهات دي ما بتجيب سيرتها.

أولاً: معظم البوستات دي بتنصحك تستخدم موديلات صغيرة زي Qwen2.5 بحجم 3B أو 7B. المشكلة إن الموديلات دي، حتى لو عملت ليها ضغط (Quantization) عشان تصغر مساحتها، بتفضل تاخد من 4 لـ 10 جيجابايت في الهارد. وده معناه إنك محتاج على الأقل نفس المساحة دي كـ VRAM في كرت الشاشة بتاعك عشان تقدر تشغلها بسرعة معقولة.

لو عندك VRAM كفاية تشغلها، مبروك عليك — لكن للأسف دي ما المشكلة الأساسية حقتك.

ثانياً: لما تشغل الموديلات دي في جهازك (سواء ديسكتوب أو لابتوب)، إنت بتخصص ليها كل موارد الجهاز. الموديلات دي (لما تكون شغالة وبتولد في الكلمات أو الـ tokens*) استهلاكها للطاقة بشبه تماماً تعدين العملات الرقمية. عشان كدا لازم تكون موصل الشاحن طوالي، وجهازك حيبقى بطيء شديد. عمليات الـ build حتكون أبطأ، والـ dev server حيبقى أبطأ برضو. وبصراحة كده، لو جهازك إمكانياته عادية، تجربة البرمجة حقتك حتبقى كابوس عديل كده.

ثالثاً: لما تستخدم موديل بحجم 3 أو 7 أو حتى 32 مليار بارامتر، أداءه ما بجي قريب من الموديلات الكبيرة المستخدمة في Claude Code. ما بتقدر أصلاً تقارن جودة المخرجات دي بجودة Claude Opus أو Sonnet — ديل عالمين مختلفين تماماً.

لما زول يقول ليك "ممكن توفر 200 دولار في الشهر لو استخدمت موديل محلي"، هو ما بقول ليك إنت بتدفع شنو بدل الـ 200 دولار دي. إنت في الواقع بتاخد موديل جودته أقل بمراحل، ومخرجات ضعيفة شديد عشان توفر القروش دي.

حرفياً إنت بتصرف كهربتك، وبتسخن جهازك، وبتبطئ الكمبيوتر بتاعك — خصوصاً لو لابتوب — وفي النهاية بتحصل على tokens أقل في الثانية. إنت كده بتخلي تجربتك كمطور أسوأ، ودي الطريقة الغلط عشان توفر بيها قروشك.

طيب، شنو هي البدائل المتاحة؟

في بدائل كتيرة جداً ممكن تستخدمها بدل ما تدفع مئات الدولارات شهرياً. Claude بيقدم خطة Pro بـ 20 دولار؛ ممكن تستخدمها في Claude Code، وهي كافية جداً للاستخدام العادي. لو المبلغ ده لسه غالي عليك أو ما داير تدفع ولا قرش عشان تستخدم الذكاء الاصطناعي، ممكن تجرب حاجة تانية زي إنك تشغل Claude Code عن طريق Ollama. أداة Ollama بتوفر موديلات سحابية (cloud models) مجانية كتيرة، زي موديل MiniMax M-2.5 المجاني بالكامل. ممكن تشغلو طوالي بالأمر ده: تم النسخ!. الموديل ده مجاني تماماً وبديك Limits ممتازة، ومتقدم بمراحل بكتير على أي حاجة ممكن تشغلها في لابتوب اقتصادي أو جهاز شخصي عادي. حتى لو كان معاك MacBook Pro بـ 128 جيجارام (وده أحسن سيناريو للـ consumer)، ما حتقدر تشغل الموديل ده براك لأنو مساحتو 457 جيجابايت في الهارد، ومحتاج على الأقل نفس المساحة دي من الذاكرة الفاضية عشان بس يشتغل ويتحمل.

كمان في بدائل رخيصة لمنافسة Anthropic، زي استخدام موديلات GLM بخطتهم البتكلف 10 دولار بس وبتديك وصول لـ GLM 5، واللي هو في نفس مستوى Claude Opus 4.5 وقريب جداً من أحدث التقنيات (state-of-the-art). وممكن كمان تجرب Kimi K2.5 من Moonshot، سعرو مناسب وقدراتو عالية شديد. صحي هو ما بنفس قوة الموديلات الرائدة، لكنو بصنف ضمن الموديلات الممتازة في السوق.

وفي أنظمة (Ecosystems) تانية فيها مجتمعات كبيرة، زي Opencode، اللي بتوفر موديلات مجانية طوالي زي MiniMax M2.5 عشان تجربها متى ما حبيت. وكمان بقدموا عرض ممتاز بـ 10 دولار بخليك تستخدم أقوى 3 موديلات مفتوحة المصدر (Kimi K2.5 و GLM5 و MiniMax M2.5)، وبتديك إمكانية إنك تربط موديلات ذكاء اصطناعي من شركات تانية زي موديلات GPT (عن طريق الـ API أو اشتراك ChatGPT)، أو موديلات Gemini، أو حتى موديلات Claude نفسها عبر الـ API، وغيرها.

وعلى كلٍ، استخدام موديل صغير في اللابتوب بتاعك ما بعتبر أصلاً بديل لموديلات Claude لأنو ما بنافسها من الأساس.

عشان كده، ليه الخليك تحاول أصلاً وتشغل موديلات محلية صغيرة لو عندك كمبيوتر أو لابتوب إمكانياتو محدودة؟ إنت ممكن تشغلها عشان تجرب بس، وتاخد فكرة عن عالم الذكاء الاصطناعي عشان تفهم:

  • شنو الفرق بين الموديل والتاني؟
  • أحجام الموديلات دي كم؟
  • يعني شنو بارامترات (parameters)؟
  • وإيه هو الـ Quantization وكيف بشتغل؟

ممكن تنزل الموديلات دي وتلعب بيها ساكت. المفروض تستخدمها عشان تبحث وتفهم الذكاء الاصطناعي ده شنو والبرامج دي بتشتغل كيف، عشان تاخد فكرة حقيقية. لكن ما المفروض تعتمد عليها عشان تستبدل بيها الموديلات الكبيرة، لأن ديل عالمين ومجالين مفصولين تماماً.

أحسن طريقة عشان تعرف الفرق بين الموديلات الكبيرة والصغيرة، هي إنك تستخدم الموديلات الصغيرة عشان تشوف براك البون الشاسع في الجودة والمخرجات. ممكن تكون فاكر إن كل الموديلات زي بعض، لكن عمرك ما حتستوعب الفرق المهول ده إلا إذا جربت الموديلات الصغيرة دي.

ثمن الخصوصية

الخصوصية (Privacy) موضوع حساس شديد لو إنت شغال ببيانات مهمة، أو معلومات شركة، أو بيانات حكومية. في الحالة دي، الموديلات السحابية دي بتبقى خيار غير مطروح نهائياً.

عشان كده لازم نتكلم عن ثمن الخصوصية الحقيقي.

واضح طبعاً إننا ما حنقدر نعتمد على موديلات صغيرة شديد في الشغل بتاعنا ده، لأنو مافي فايدة للخصوصية لو الأداة نفسها ما قادرة تنجز الغرض المطلوب، صاح؟ خلونا نكون صريحين: لو ما بتقدر تتحمل تكلفة تشغيل موديلات حقيقية وعملية، أحسن طريقة تحافظ بيها على خصوصيتك هي إنك تكتب الكود بيدك. يا إما كدا، يا إما حتلقى نفسك شغال زي جليس الأطفال (babysitter) لموديل ذكاء اصطناعي ما عارف حتى كيف يستخدم الأدوات العندو ويكتب كود صاح.

لو إنت فعلاً مهتم بالخصوصية، لازم تستثمر في الـ Hardware اللي بشغل الـ inference ده عندك. الخصوصية بتكلف أكتر من 200 دولار في الشهر بكتير. هي بتكلف آلاف الدولارات عشان تجيب معدات بتخليك تقدر تواكب الموديلات القوية في السوق.

عشان تقدر تشغيل موديل زي GLM5 أو MiniMax M2.5 براك، لازم تشتري أنظمة بتاعت سيرفرات (Enterprise-grade) بتكلف آلاف الدولارات. أيوة هي بتدفع مرة واحدة ومافيها اشتراك شهري، لكن هو ده الثمن الحقيقي للخصوصية. لكن بصراحة ما ممكن نكون جادين ونقول إنك عشان تحمي خصوصيتك حتشغل موديل محلي شغال بـ 10 جيجا رام بس؟ ده كلام ما منطقي، وأي زول بقول ليك إن الحل ده بينفع معاك، هو ببيع ليك الوهم ساي، وما بستخدم أصلاً الأدوات البنصحك بيها دي.