APFlow All field notesكل الملاحظات
Book a callاحجز مكالمة
Open-weight modelsنماذج مفتوحة الأوزان Self-hostingالاستضافة الذاتية Benchmarksقياسات الأداء

The high tier of open-weight models, June 2026الفئة العليا من النماذج مفتوحة الأوزان، يونيو 2026

The best models you can run on your own servers are now six points behind the proprietary frontier. We map the high tier, what it costs to run, and how to choose for an enterprise deployment.أفضل النماذج التي يمكن تشغيلها على خوادمكم الخاصة صارت على بعد ست نقاط فقط من أفضل النماذج المغلقة. نعرض هنا أقوى النماذج المفتوحة، وتكلفة تشغيلها، وكيف تختارون المناسب لشركتكم.

APFlow
Field notesملاحظات ميدانية · June 2026يونيو ٢٠٢٦ · 8 min read٨ دقائق
Server racks with status lights in a dark data centre
Photo: Tyler, Unsplash
TL;DR
  • ·DeepSeek V4 Pro leads open-weight models at a score of 87 versus 93 for the best proprietary model. The gap has never been smaller.يتصدر DeepSeek V4 Pro النماذج المفتوحة بدرجة 87 مقابل 93 لأفضل نموذج مغلق. الفرق لم يكن يوماً أصغر من هذا.
  • ·The high tier is deep: Kimi K2.6, GLM-5.1, Qwen3.5, and Google's new Gemma 4 each bring different strengths, sizes, and licences.الخيارات القوية كثيرة: Kimi K2.6 وGLM-5.1 وQwen3.5 وGemma 4 الجديد من Google، ولكل منها قوة وحجم وترخيص مختلف.
  • ·Hardware decides more than benchmarks: a 24B to 31B model runs on one GPU, while the 397B+ flagships want 4 to 8 H100s. Match the model to the workflow, not the leaderboard.الأجهزة تحسم أكثر من الاختبارات: نموذج بحجم 24B إلى 31B يعمل على معالج رسومي واحد، بينما النماذج العملاقة فوق 397B تحتاج 4 إلى 8 معالجات H100. اختاروا النموذج حسب شغلكم، لا حسب لوحة النتائج.

For years the case for self-hosting AI came with an asterisk: you kept your data, but you gave up the frontier. In June 2026 that asterisk has nearly vanished. The strongest open-weight models now sit a single benchmark tier below the best proprietary systems, and several of them are realistic to run inside an enterprise network. Here is the current map, with numbers.لسنوات كان تشغيل الذكاء الاصطناعي على خوادمك الخاصة يعني شيئاً واحداً: تحمي بياناتك لكنك تتنازل عن الأفضل. في يونيو 2026 لم يعد هذا صحيحاً تقريباً. أقوى النماذج المفتوحة صارت قريبة جداً من أفضل الأنظمة المغلقة، وبعضها يمكن تشغيله فعلاً داخل شبكة الشركة. هذه هي الصورة الحالية، بالأرقام.

The high tier, measuredالفئة العليا، بالقياس

Composite leaderboards average performance across knowledge, reasoning, coding, and instruction following. On BenchLM's June 2026 index, the open-weight high tier looks like this: DeepSeek V4 Pro at the top with a 1M-token context window, Moonshot's Kimi K2.6 close behind, Zhipu's GLM-5.1, then Alibaba's Qwen3.5 reasoning flagship. The proprietary frontier on the same scale, the GPT-5.5 and Gemini 3.5 generation, scores 93. Six points is the entire price of owning your stack.لوحات النتائج المركبة تحسب متوسط الأداء في المعرفة والتفكير والبرمجة وتنفيذ التعليمات. على مؤشر BenchLM ليونيو 2026، الترتيب هكذا: DeepSeek V4 Pro في القمة بذاكرة سياق تتسع لمليون رمز، يليه Kimi K2.6 من Moonshot، ثم GLM-5.1 من Zhipu، ثم Qwen3.5 من Alibaba. أما قمة النماذج المغلقة على المقياس نفسه، جيل GPT-5.5 وGemini 3.5، فتسجل 93. ست نقاط فقط هي ثمن امتلاككم للنظام كاملاً.

Open-weight high tier vs proprietary frontier, June 2026الفئة العليا مفتوحة الأوزان مقابل صدارة النماذج المغلقة، يونيو 2026
BenchLM composite scoreالدرجة المركبة على BenchLM · higher is betterالأعلى أفضل
Proprietary frontier (GPT-5.5 / Gemini 3.5 gen) · cloud only, referenceسحابي فقط، للمقارنة 93
DeepSeek V4 Pro (Max) · 1M contextسياق مليون رمز 87
Kimi K2.6 · 256K contextسياق 256 ألف رمز 84
GLM-5.1 · 203K contextسياق 203 آلاف رمز 83
Qwen3.5 397B (Reasoning) · 128K contextسياق 128 ألف رمز 77
Qwen3.6-27B · runs on far less hardwareيعمل على عتاد أقل بكثير 75
Source:المصدر: BenchLM open-source LLM rankings, June 2026

Specialists push further. MiniMax M3, released this month, tops the open-weight SWE-Bench Pro coding benchmark at 59%. Kimi K2 Thinking reaches 99.1% on AIME 2025 math with tool use. Llama 4 Scout holds the long-context crown at ten million tokens. The pattern of 2026: open weights are not one model, they are a deep bench you pick from per workload.النماذج المتخصصة تذهب أبعد. MiniMax M3 الصادر هذا الشهر هو الأول في اختبار البرمجة SWE-Bench Pro بين النماذج المفتوحة بنسبة 59%. وKimi K2 Thinking يحقق 99.1% في رياضيات AIME 2025 مع استخدام الأدوات. وLlama 4 Scout يملك أطول ذاكرة سياق: عشرة ملايين رمز. هذا هو نمط 2026: النماذج المفتوحة ليست نموذجاً واحداً، بل مجموعة واسعة تختارون منها حسب الحاجة.

The small giants: Gemma 4 and GPT-OSSالعمالقة الصغار: Gemma 4 وGPT-OSS

Two Western releases matter for teams that cannot rack eight GPUs. Google's Gemma 4 (April 2026) is the surprise of the year: the 31B dense model ranks third among all open models on the Chatbot Arena leaderboard (1452 Elo) and posts 89.2% on AIME 2026 math and 80% on LiveCodeBench v6, numbers that embarrass models twenty times its size. It runs on a single high-end GPU. OpenAI's GPT-OSS line (120B and 20B, Apache 2.0) remains the company's current open-weight offering: the 120B model delivers o4-mini-class reasoning on one 80 GB GPU, and the 20B runs on a 16 GB machine. For most enterprise document and copilot workloads, this tier is where deployments actually land.إصداران غربيان يهمان الفرق التي لا تستطيع شراء ثمانية معالجات رسومية. Gemma 4 من Google (أبريل 2026) هو مفاجأة السنة: نسخة 31B تحتل المركز الثالث بين كل النماذج المفتوحة على لوحة Chatbot Arena بدرجة 1452، وتحقق 89.2% في رياضيات AIME 2026 و80% في برمجة LiveCodeBench v6، وهي أرقام تحرج نماذج أكبر منها بعشرين مرة. وتعمل على معالج رسومي واحد متقدم. أما سلسلة GPT-OSS من OpenAI (بحجمي 120B و20B وبترخيص Apache 2.0 الحر) فهي ما زالت أحدث نماذجها المفتوحة: نسخة 120B تعطي قدرة تفكير قريبة من o4-mini على معالج واحد بذاكرة 80 جيجابايت، ونسخة 20B تعمل على جهاز بذاكرة 16 جيجابايت فقط. لمعظم أعمال الشركات في المستندات والمساعدين، هذه الفئة هي التي تُنشر فعلاً.

6 pts
The gap between the best open-weight model (DeepSeek V4 Pro, 87) and the proprietary leader (93) on BenchLM's composite index, the narrowest it has ever been.الفرق بين أفضل نموذج مفتوح (DeepSeek V4 Pro بدرجة 87) وأفضل نموذج مغلق (93) على مؤشر BenchLM. هذا أصغر فرق في التاريخ.

What it costs to runكم تبلغ تكلفة التشغيل

Hardware, not licence fees, is the budget line. Three realistic tiers: a 24B to 31B model (Gemma 4, Mistral Small 4, Qwen3.6-27B) runs quantised on a single high-end GPU and covers most document and copilot workloads. Mid-size mixture-of-experts models give near-flagship quality on a modest node. The 397B+ flagships want 4 to 8 H100-class GPUs, roughly $2,000 to $5,000 per month in cloud GPU terms, or a one-time on-prem purchase that amortises quickly at enterprise volumes. For most regulated back offices, the single-GPU tier already clears the quality bar.الأجهزة، لا رسوم الترخيص، هي ما يكلف المال. هناك ثلاث فئات واقعية. الأولى: نموذج بين 24B و31B (مثل Gemma 4 أو Mistral Small 4 أو Qwen3.6-27B) يعمل على معالج رسومي واحد متقدم ويكفي لمعظم أعمال المستندات والمساعدين. الثانية: نماذج متوسطة تعطي جودة قريبة من القمة على جهاز متواضع. الثالثة: النماذج العملاقة فوق 397B وتحتاج 4 إلى 8 معالجات من فئة H100، أي نحو 2,000 إلى 5,000 دولار شهرياً بأسعار السحابة، أو شراء أجهزة لمرة واحدة تسترد تكلفتها بسرعة مع حجم عمل كبير. لمعظم الشركات المنظمة، الفئة الأولى تكفي وتزيد.

Licences: read before you deployالتراخيص: اقرأوا قبل النشر

Open weights does not mean one licence. Mistral ships Apache 2.0, as permissive as it gets. Meta's Llama licence restricts commercial use above 700 million monthly users, irrelevant for most enterprises but worth knowing. Several Chinese labs use custom licences with their own terms. None of this blocks a typical enterprise deployment, but legal review of the specific licence belongs in the scoping phase, not after go-live.النماذج المفتوحة لا تعني ترخيصاً واحداً للجميع. Mistral وGPT-OSS يصدران بترخيص Apache 2.0، وهو الأسهل والأكثر حرية. ترخيص Llama من Meta يمنع الاستخدام التجاري فوق 700 مليون مستخدم شهرياً، وهو شرط لا يمس معظم الشركات لكن يجب معرفته. وبعض المختبرات الصينية تستخدم تراخيص خاصة لها شروطها. لا شيء من هذا يمنع شركة عادية من النشر، لكن مراجعة الترخيص مع القانونيين يجب أن تتم في البداية، لا بعد إطلاق المشروع.

How to choose in practiceكيف تختارون عملياً

Stay model-agnostic. Different workloads favour different families: Arabic document extraction suits one model, reconciliation logic another, and copilots over internal data a third. Because the weights live on your own GPUs, swapping models is a configuration change, not a migration. The leaderboard will look different in six months. Your architecture should not have to.لا تربطوا أنفسكم بنموذج واحد. كل عمل يناسبه نموذج مختلف: قراءة المستندات العربية تناسبها عائلة، ومطابقة السجلات عائلة أخرى، والمساعد فوق بياناتكم الداخلية عائلة ثالثة. ولأن النموذج يعمل على أجهزتكم، فتغييره مجرد تعديل في الإعدادات، لا مشروع جديد. لوحة النتائج ستتغير بعد ستة أشهر. نظامكم لا يجب أن يتغير معها.

The takeawayالخلاصة

Self-hosting no longer trades capability for control. The high tier of open-weight models is one step from the frontier, runs inside your network, and costs hardware rather than per-token fees. If a regulator decides where your data lives, this is the architecture that lets you ship anyway.تشغيل النماذج على خوادمكم لم يعد تنازلاً عن الجودة مقابل التحكم. أفضل النماذج المفتوحة على خطوة واحدة من القمة، وتعمل داخل شبكتكم، وتكلفتها أجهزة تشترونها مرة واحدة لا رسوم على كل استخدام. إذا كان القانون يحدد أين تبقى بياناتكم، فهذه هي الطريقة التي تنجزون بها مشروعكم رغم ذلك.

Shareشارك

Put one workflow into production.ضعوا عمليةً واحدة في الإنتاج.

A 15-minute call, then a real assessment of what an agent can run on your own servers.مكالمة من ١٥ دقيقة، ثم تقييم حقيقي لما يستطيع الوكيل تشغيله على خوادمكم.

Book a scoping call →احجز مكالمة تقييم ←
Keep readingتابع القراءة