- ·أربعة نماذج عربية المنشأ صارت مهمة: Jais من الإمارات، وALLaM من السعودية، وFanar من قطر، وFalcon-H1 Arabic من أبوظبي. وكل منها ينشر أوزاناً مفتوحة يمكنكم تنزيلها وتشغيلها بأنفسكم.
- ·والنماذج العامة القوية تتعامل مع العربية جيداً أيضاً. فـ Qwen وLlama يتصدران لوحات الصدارة العربية المفتوحة وسهلا الاستضافة الذاتية. وأفضل خيار يعتمد على مهمتكم وعتادكم، لا على رقم واحد لافت.
- ·والاختبارات المرجعية قائمة مختصرة لا حكم نهائي. راجعوا لوحات الصدارة العربية الحية، ثم شغّلوا الأفضل اثنين أو ثلاثة على مستنداتكم وقيسوا هناك، مع قراءة المخرجات بعين متحدث أصلي.
تريدون مساعداً يقرأ ويكتب عربية حقيقية: الفصحى للمستندات، واللهجات التي يكتبها عملاؤكم فعلاً، والتشكيل والكتابة من اليمين إلى اليسار التي تُربك معظم النماذج. وكثير من الأدوات تدّعي العربية وتقدّم طبقة ترجمة رقيقة. والخبر الجيد في ٢٠٢٦ أن عدة نماذج عربية حقيقية صارت تُنشَر بأوزان مفتوحة، فيمكنكم تشغيلها على خوادمكم والحكم عليها ببياناتكم.
العربية مشكلة قائمة بذاتها، لا مجرد إعداد
العربية ذات صرف غني، ولهجات كثيرة بعيدة عن المعيار المكتوب، وتشكيل اختياري يغيّر المعنى، وكتابة من اليمين إلى اليسار. والنموذج المدرَّب على الإنجليزية غالباً وقليل من العربية يبدو فصيحاً ثم يخطئ المقصود. والفجوة نفسها تظهر عند قراءة المستندات العربية الممسوحة، وهي تحدٍّ قائم بذاته في لماذا يفشل التعرف الضوئي على الحروف العربية.
النماذج العربية المنشأ مفتوحة الأوزان
استثمرت دول الخليج بقوة في نماذج تضع العربية أولاً، والمهم منها ينشر أوزاناً مفتوحة يمكنكم استضافتها بأنفسكم. وهذه الأربعة هي الأسماء التي ينبغي معرفتها.
النماذج العامة القوية
بعض النماذج العامة متعددة اللغات تتعامل مع العربية جيداً وسهلة الاستضافة الذاتية جداً. فـ Qwen من Alibaba أساس عربي قوي ويتصدّر فئة النماذج المُدرَّبة مسبقاً على لوحة الصدارة العربية المفتوحة. وLlama 3.3 بحجم ٧٠ مليار معامل من Meta يحتل القمة عبر الفئات. وGemma من Google خيار أخفّ وقادر. وهي ليست عربية أولاً، لكنها مدعومة على نطاق واسع، وكيفية تشغيل أيٍّ منها داخلياً مشروحة في استضافة النماذج مفتوحة الأوزان ذاتياً.
كيف تقارنون بينها بإنصاف
تساعد لوحتا صدارة عامتان. لوحة الصدارة العربية المفتوحة ترتّب النماذج المفتوحة على طيف من المهام العربية، وAraGen من Inception وجامعة محمد بن زايد للذكاء الاصطناعي تقيس توليد النص العربي تحديداً. عاملوهما كقائمة مختصرة للبداية لا حكماً نهائياً: فالترتيب، الذي روجِع في منتصف ٢٠٢٦، يتغير كل بضعة أسابيع مع وصول نماذج جديدة. ولوحة الصدارة لا تخبركم كيف يعمل النموذج على عقودكم ومطالباتكم وتذاكر دعمكم.
كيف تختارون الأنسب
- 1 اضبطوا الحجم على عتادكم
اختاروا نماذج تناسب المعالجات الرسومية التي لديكم أو تنوون شراءها. فالنموذج من ٧ إلى ٢٧ مليار معامل يعمل على معالج رسومي حديث واحد، أما ٧٠ ملياراً فيحتاج أكثر. والجانب العملي لتشغيل النماذج محلياً في تشغيل نماذج الذكاء الاصطناعي محلياً. - 2 اختصروا القائمة من لوحات الصدارة
استخدموا لوحة الصدارة العربية المفتوحة وAraGen لاختيار مرشحَين أو ثلاثة. ولا تدعوهما يتوّجان لكم فائزاً واحداً. - 3 اختبروا على بياناتكم
شغّلوا القائمة المختصرة على عينة من مستنداتكم ومهامكم العربية الحقيقية. واقرؤوا المخرجات مع متحدث أصلي، فالجواب الخاطئ الفصيح هو الفخّ. - 4 قيسوا ما يهمّكم
الدقة في مهمتكم، والتعامل مع لهجتكم، والسرعة عند حجمكم، أهمّ من نتيجة اختبار عامة. - 5 أبقوه داخلياً
شغّلوا الفائز على بنية تتحكمون بها كي لا تغادر بياناتكم العربية شبكتكم أبداً. وتُوازَن المفاضلات في الذكاء الاصطناعي المحلي مقابل السحابي.
ميدان النماذج العربية المفتوحة يتحرك بسرعة. تصدّر Falcon-H1 Arabic لوحة الصدارة المفتوحة في مطلع ٢٠٢٦، وتواصل ALLaM وFanar إصدار أحجام جديدة، وتتحسّن النماذج العامة كل بضعة أشهر. والنموذج الذي يفوز لكم هو الذي يحقق أفضل نتيجة على بياناتكم العربية، مُشغَّلاً على عتاد تتحكمون به. راجعوا لوحات الصدارة قبل الالتزام، ونفّذوا تجربة مُقاسة أولاً.