واقع التعرف الضوئي على النصوص العربية في 2026: ما الذي ينجح فعلاً

TL;DR

·محركات OCR القديمة مثل Tesseract وEasyOCR تخطئ في قراءة نصف الحروف العربية تقريباً. النماذج الذكية الجديدة تقلل هذا الخطأ بنسبة 60% أو أكثر.
·في KITAB-Bench، أشهر اختبار منشور لقياس OCR العربي، تتقدم النماذج السحابية. أما أحدث النماذج مثل Gemini 3.5 Flash وGPT-5.5 فلا توجد لها نتائج عربية منشورة بعد.
·للمستندات التي لا يُسمح لها بالخروج من شبكتكم، النماذج المستضافة ذاتياً تحقق الالتزام بالقانون وتكلفتها أقل بكثير لكل صفحة من الخدمات السحابية.

كل مشروع رقمنة في منطقتنا يبدأ من المشكلة نفسها: مستند عربي ممسوح ضوئياً لا تستطيع البرمجيات قراءته. تقنية التعرف الضوئي على الحروف (OCR) موجودة منذ عشرات السنين، لكنها كانت تفشل في العربية كثيراً حتى صارت الأتمتة بلا فائدة. تغير هذا عندما بُنيت التقنية من جديد على النماذج الذكية التي تفهم الصورة واللغة معاً. في هذا المقال نشرح كيف يعمل الجيل الجديد، وماذا تقول الاختبارات، وما الذي يمكنكم تشغيله داخل شبكتكم اليوم.

كيف يعمل OCR فعلاً، بالأمس واليوم

يعمل OCR القديم خطوة بخطوة على مستوى البكسل. يحول المحرك الصفحة إلى أبيض وأسود، ثم يجد السطور، ثم يقص كل سطر إلى حروف منفصلة، ثم يقارن شكل كل حرف بأشكال محفوظة عنده. هكذا يعمل Tesseract وEasyOCR. هذه الطريقة سريعة ورخيصة، وتكفي للنص الإنجليزي المطبوع الواضح. لكنها تفشل عندما يصعب فصل الحروف: في الخطوط المتصلة، أو المسح السيئ، أو الأختام، أو الجداول، أو خط اليد.

أما OCR الحديث فيتخطى مرحلة قص الحروف تماماً. النموذج البصري اللغوي (VLM) ينظر إلى الصفحة كلها كما ينظر إليها الإنسان: يفهم الصورة والتنسيق والسياق، ثم يكتب النص مباشرة. ولأن النموذج يعرف اللغة، فهو يقرأ الكلمة غير الواضحة من جملتها، ويحافظ على ترتيب الجداول، ويخرج النتيجة منسقة بصيغة Markdown أو JSON بدل حروف متناثرة. المقابل هو الحاجة إلى معالج رسومي GPU.

لماذا العربية أصعب الخطوط الشائعة

حروف العربية متصلة بطبيعتها، ويتغير شكل الحرف حسب مكانه في الكلمة. أضف إلى ذلك التشكيل، والنقاط التي تفرق بين حروف متشابهة، والكتابة من اليمين إلى اليسار مع أرقام تكتب من اليسار، وتنوع الخطوط من النسخ إلى الرقعة. كل هذا يجعل المحركات القديمة التي تقص الحروف تقف عاجزة. المشكلة ليست في الإعدادات، بل في طريقة العمل نفسها. ولهذا استفادت العربية من النماذج الذكية الجديدة أكثر من أي لغة أخرى تقريباً.

ماذا تقول قياسات الأداء في 2026

أهم اختبار لقياس فهم المستندات العربية هو KITAB-Bench من جامعة محمد بن زايد للذكاء الاصطناعي: 8,809 عينات في تسعة مجالات، من خط اليد إلى الجداول والرسوم. المقياس الأساسي هو معدل الخطأ في الحروف (CER)، أي كم حرفاً يقرؤه المحرك خطأ. النتيجة المنشورة واضحة: النماذج الذكية تتفوق على المحركات القديمة بنحو 60% في معدل الخطأ، والمحركات القديمة تخطئ في نصف ما تقرأ تقريباً.

معدل الخطأ في الحروف العربية، لوحة KITAB-Bench الحية (فحصت في 12 يونيو 2026)

نسبة CER % · الأقل أفضل

Gemini 2.0 Flash · أحدث نموذج من Google له نتائج عربية منشورة 13

AIN-7B · أوزان مفتوحة، عربي أولاً، يعمل على خوادمكم 20

GPT-4o · أحدث نموذج من OpenAI له نتائج عربية منشورة 31

Azure OCR · خدمة OCR تجارية 52

Tesseract · محرك قديم 54

EasyOCR · محرك قديم 58

المصدر: KITAB-Bench live leaderboard, checked June 12, 2026

فحصنا لوحة KITAB-Bench الحية في 12 يونيو 2026، يوم كتابة هذا المقال. ثلاثة أمور تحفظ صدق الرسم. الأول: الاختبارات تتأخر عن إصدارات النماذج. أحدث النماذج اليوم هي جيل Gemini 3.5 Flash وGPT-5.5، ولا توجد لها نتائج عربية منشورة في أي مكان بعد، فكل عمود سحابي في الرسم يمثل أحدث نموذج مقاس من شركته. نتوقع أن يقرأ الجيل الجديد العربية أفضل، لكن لا تصدقوا رقماً محدداً قبل ظهوره في لوحة علنية. الثاني: النماذج المفتوحة العامة مثل Qwen2.5-VL ما زالت خلف أفضل النماذج السحابية في العربية. الثالث: النجم هو AIN-7B: نموذج مفتوح صمم للعربية أولاً ويعمل على خوادمكم، واقترب فعلاً من أفضل نتيجة سحابية.

الخيارات مفتوحة المصدر القابلة للاستضافة الذاتية

ثلاث مجموعات تهم العربية اليوم. الأولى Qari-OCR: نموذج مبني على Qwen2-VL ومخصص للعربية، نسبة خطئه في الحروف 6.1% فقط وفي الكلمات 16% على اختباره للنص العربي المطبوع. هذا أفضل رقم بين النماذج المفتوحة، وينافس الخدمات التجارية على الخطوط المعروفة. الثانية AIN: نموذج من جامعة محمد بن زايد صُمم للعربية أولاً، ونسبة خطئه في الكلمات نحو 28% على KITAB-Bench، أي قريب من النماذج السحابية الكبيرة. الثالثة هي النماذج الصغيرة المتخصصة في المستندات مثل GLM-OCR وPaddleOCR-VL: تتصدر اختبار OmniDocBench متعدد اللغات (94.6 و94.5) بحجم أقل من مليار معامل، أي تعمل على معالج رسومي واحد عادي.

6.1%

نسبة خطأ نموذج Qari-OCR v0.2 في قراءة حروف النص العربي المطبوع، وهي الأفضل بين النماذج المفتوحة. قبل سنتين كانت المحركات المفتوحة تخطئ في نحو 50%.

الواجهات السحابية تقرأ جيداً. لكن ليست هذه المسألة كلها.

إذا كانت مستنداتكم منشورات عامة، استخدموا أي خدمة تقرأ أفضل. لكن ما تحتاج الشركات إلى أتمتته فعلاً هو العقود والبيانات الجمركية وملفات الالتزام وسجلات العملاء. في أغلب القطاعات المنظمة في الشرق الأوسط وشمال أفريقيا، ممنوع أن تمر هذه المستندات عبر خدمة سحابية عامة. قواعد بقاء البيانات داخل البلد تحدد الحل قبل أي حديث عن الدقة. السؤال العملي في 2026 لم يعد "ما أفضل OCR؟" بل "ما أفضل OCR يعمل داخل شبكتي؟"، وجواب العربية أصبح جيداً فعلاً.

~167x

الفرق التقديري في التكلفة لكل صفحة بين OCR مستضاف ذاتياً والخدمات السحابية التجارية عند الأحجام الكبيرة. مع ملايين الصفحات شهرياً، تصبح فاتورة الخدمة السحابية أكبر من المشروع نفسه.

كيف تبدو منظومة عربية في بيئة الإنتاج

1 الاستلام والفرز
تصل المستندات من الماسحات الضوئية أو البريد أو نظام ERP لديكم. مصنّف يوجّه كل صفحة: عربية مطبوعة، كتابة يدوية، جداول، أو محتوى ثنائي اللغة.
2 الاستخلاص بنموذج VLM على معالجاتكم
نموذج مفتوح متخصص مثل Qari-OCR أو نسخة مضبوطة من Qwen يقرأ الصفحة ويحولها إلى حقول منظمة. لا يغادر أي شيء الشبكة.
3 التحقق مقابل أنظمتكم
تُقارن القيم المستخلصة مع البيانات الرئيسية: أسماء الموردين، الأرقام الضريبية، المجاميع. أي تعارض يُعلَّم للمراجعة ولا يُخمَّن.
4 اعتماد بشري وسجل تدقيق كامل
مراجع يعتمد الاستخلاصات منخفضة الثقة قبل أي ترحيل. كل قراءة ومطابقة واعتماد يُسجَّل في سجل التدقيق.

هذه الخطوات الأربع هي الفرق بين تجربة عرض ونظام حقيقي يعمل. لم تعد قراءة النص هي الحلقة الأضعف. النجاح أو التعثر يحدث في الهندسة المحيطة بها: التحقق من البيانات، وتوجيه المستندات، وموافقة الإنسان.

من أين تبدأون

اختاروا نوع مستند واحد كثير العدد وكثير المتاعب، مثل البيانات الجمركية أو عقود الموردين، وجربوا عليه تجربة مقاسة بمستنداتكم الحقيقية. الدقة على مستنداتكم أنتم، لا أرقام الاختبارات، هي المقياس الوحيد المهم.