- ·Traditional OCR engines (Tesseract, EasyOCR) misread roughly half of Arabic characters on real documents. Vision-language models cut that error by 60% or more.محركات OCR القديمة مثل Tesseract وEasyOCR تخطئ في قراءة نصف الحروف العربية تقريباً. النماذج الذكية الجديدة تقلل هذا الخطأ بنسبة 60% أو أكثر.
- ·On KITAB-Bench, the leading published Arabic OCR benchmark, cloud models lead. The newest frontier models (Gemini 3.5 Flash, GPT-5.5) have no published Arabic OCR scores yet.في KITAB-Bench، أشهر اختبار منشور لقياس OCR العربي، تتقدم النماذج السحابية. أما أحدث النماذج مثل Gemini 3.5 Flash وGPT-5.5 فلا توجد لها نتائج عربية منشورة بعد.
- ·For regulated documents that cannot leave your network, a self-hosted VLM pipeline is both compliant and dramatically cheaper per page than cloud APIs.للمستندات التي لا يُسمح لها بالخروج من شبكتكم، النماذج المستضافة ذاتياً تحقق الالتزام بالقانون وتكلفتها أقل بكثير لكل صفحة من الخدمات السحابية.
Every digitisation project in the region starts at the same place: a scanned Arabic document that software cannot read. Optical character recognition has existed for decades, yet until very recently it failed Arabic at rates that made automation pointless. That changed when OCR was rebuilt around vision-language models. This note explains how the new generation works, what the benchmarks actually say, and what you can run inside your own network today.كل مشروع رقمنة في منطقتنا يبدأ من المشكلة نفسها: مستند عربي ممسوح ضوئياً لا تستطيع البرمجيات قراءته. تقنية التعرف الضوئي على الحروف (OCR) موجودة منذ عشرات السنين، لكنها كانت تفشل في العربية كثيراً حتى صارت الأتمتة بلا فائدة. تغير هذا عندما بُنيت التقنية من جديد على النماذج الذكية التي تفهم الصورة واللغة معاً. في هذا المقال نشرح كيف يعمل الجيل الجديد، وماذا تقول الاختبارات، وما الذي يمكنكم تشغيله داخل شبكتكم اليوم.
How OCR actually works, then and nowكيف يعمل OCR فعلاً، بالأمس واليوم
Classical OCR is a pixel pipeline. The engine binarises the page, finds lines, segments each line into characters, and matches every character shape against trained patterns. Tesseract and EasyOCR work this way. The approach is fast and cheap, and for clean printed English it is fine. It collapses the moment segmentation gets hard: cursive scripts, noisy scans, stamps, tables, or handwriting.يعمل OCR القديم خطوة بخطوة على مستوى البكسل. يحول المحرك الصفحة إلى أبيض وأسود، ثم يجد السطور، ثم يقص كل سطر إلى حروف منفصلة، ثم يقارن شكل كل حرف بأشكال محفوظة عنده. هكذا يعمل Tesseract وEasyOCR. هذه الطريقة سريعة ورخيصة، وتكفي للنص الإنجليزي المطبوع الواضح. لكنها تفشل عندما يصعب فصل الحروف: في الخطوط المتصلة، أو المسح السيئ، أو الأختام، أو الجداول، أو خط اليد.
Modern OCR skips segmentation entirely. A vision-language model (VLM) looks at the whole page the way a person does: it encodes the image, attends to layout and context, and generates the text directly. Because the model carries language knowledge, it reads a smudged word from context, keeps table cells aligned, and outputs structured Markdown or JSON rather than a raw character stream. The cost is compute: VLM OCR wants a GPU.أما OCR الحديث فيتخطى مرحلة قص الحروف تماماً. النموذج البصري اللغوي (VLM) ينظر إلى الصفحة كلها كما ينظر إليها الإنسان: يفهم الصورة والتنسيق والسياق، ثم يكتب النص مباشرة. ولأن النموذج يعرف اللغة، فهو يقرأ الكلمة غير الواضحة من جملتها، ويحافظ على ترتيب الجداول، ويخرج النتيجة منسقة بصيغة Markdown أو JSON بدل حروف متناثرة. المقابل هو الحاجة إلى معالج رسومي GPU.
Why Arabic is the hardest mainstream scriptلماذا العربية أصعب الخطوط الشائعة
Arabic is cursive by design: letters connect and change shape depending on position in the word. Add optional diacritics, dots that distinguish otherwise identical letters, right-to-left flow with embedded left-to-right numbers, and a wide range of fonts from Naskh to Ruqaa, and segmentation-based engines simply run out of road. This is not a tuning problem. It is an architectural mismatch, and it is why the jump to VLMs helps Arabic more than almost any other language.حروف العربية متصلة بطبيعتها، ويتغير شكل الحرف حسب مكانه في الكلمة. أضف إلى ذلك التشكيل، والنقاط التي تفرق بين حروف متشابهة، والكتابة من اليمين إلى اليسار مع أرقام تكتب من اليسار، وتنوع الخطوط من النسخ إلى الرقعة. كل هذا يجعل المحركات القديمة التي تقص الحروف تقف عاجزة. المشكلة ليست في الإعدادات، بل في طريقة العمل نفسها. ولهذا استفادت العربية من النماذج الذكية الجديدة أكثر من أي لغة أخرى تقريباً.
What the benchmarks say in 2026ماذا تقول قياسات الأداء في 2026
The reference benchmark for Arabic document understanding is KITAB-Bench (MBZUAI): 8,809 samples across nine domains, from handwriting to tables to charts. The headline metric is character error rate (CER), the share of characters the engine gets wrong. The published evaluation is blunt: vision-language models beat traditional OCR engines by around 60% on error rate, and the classical engines misread roughly half of everything.أهم اختبار لقياس فهم المستندات العربية هو KITAB-Bench من جامعة محمد بن زايد للذكاء الاصطناعي: 8,809 عينات في تسعة مجالات، من خط اليد إلى الجداول والرسوم. المقياس الأساسي هو معدل الخطأ في الحروف (CER)، أي كم حرفاً يقرؤه المحرك خطأ. النتيجة المنشورة واضحة: النماذج الذكية تتفوق على المحركات القديمة بنحو 60% في معدل الخطأ، والمحركات القديمة تخطئ في نصف ما تقرأ تقريباً.
We checked the live KITAB-Bench leaderboard on June 12, 2026, the day this post was written. Three things keep the chart honest. First, benchmarks lag releases: the current frontier is the Gemini 3.5 Flash and GPT-5.5 generation, and neither has published Arabic OCR scores anywhere yet, so each cloud bar shows that vendor's newest measured model. Expect the new generation to read Arabic better, but treat any specific claim as unverified until it appears on a public leaderboard. Second, general-purpose open VLMs like Qwen2.5-VL still trail the best cloud models on Arabic. Third, the standout is AIN-7B: an open, Arabic-first model you can self-host, already within reach of the best cloud score.فحصنا لوحة KITAB-Bench الحية في 12 يونيو 2026، يوم كتابة هذا المقال. ثلاثة أمور تحفظ صدق الرسم. الأول: الاختبارات تتأخر عن إصدارات النماذج. أحدث النماذج اليوم هي جيل Gemini 3.5 Flash وGPT-5.5، ولا توجد لها نتائج عربية منشورة في أي مكان بعد، فكل عمود سحابي في الرسم يمثل أحدث نموذج مقاس من شركته. نتوقع أن يقرأ الجيل الجديد العربية أفضل، لكن لا تصدقوا رقماً محدداً قبل ظهوره في لوحة علنية. الثاني: النماذج المفتوحة العامة مثل Qwen2.5-VL ما زالت خلف أفضل النماذج السحابية في العربية. الثالث: النجم هو AIN-7B: نموذج مفتوح صمم للعربية أولاً ويعمل على خوادمكم، واقترب فعلاً من أفضل نتيجة سحابية.
The open-source options you can self-hostالخيارات مفتوحة المصدر القابلة للاستضافة الذاتية
Three families matter for Arabic today. Qari-OCR, a Qwen2-VL fine-tune built for Arabic, reports a 6.1% CER and 16% WER on its printed-Arabic evaluation set, state of the art among open models and competitive with commercial OCR APIs on standard fonts. AIN, MBZUAI's Arabic-first multimodal model, posts a word error rate around 28% on KITAB-Bench, in the same band as the leading cloud models. And the new wave of compact document specialists, GLM-OCR and PaddleOCR-VL, top the multilingual OmniDocBench leaderboard (94.6 and 94.5 overall) at under one billion parameters, small enough to run on a single modest GPU.ثلاث مجموعات تهم العربية اليوم. الأولى Qari-OCR: نموذج مبني على Qwen2-VL ومخصص للعربية، نسبة خطئه في الحروف 6.1% فقط وفي الكلمات 16% على اختباره للنص العربي المطبوع. هذا أفضل رقم بين النماذج المفتوحة، وينافس الخدمات التجارية على الخطوط المعروفة. الثانية AIN: نموذج من جامعة محمد بن زايد صُمم للعربية أولاً، ونسبة خطئه في الكلمات نحو 28% على KITAB-Bench، أي قريب من النماذج السحابية الكبيرة. الثالثة هي النماذج الصغيرة المتخصصة في المستندات مثل GLM-OCR وPaddleOCR-VL: تتصدر اختبار OmniDocBench متعدد اللغات (94.6 و94.5) بحجم أقل من مليار معامل، أي تعمل على معالج رسومي واحد عادي.
Cloud APIs read well. That is not the whole question.الواجهات السحابية تقرأ جيداً. لكن ليست هذه المسألة كلها.
If your documents are public brochures, use whatever reads best. But the documents enterprises actually need to automate are contracts, customs declarations, compliance filings, and customer records. In most regulated MENA sectors those cannot transit a public cloud API, full stop. Data residency rules decide the architecture before accuracy enters the conversation. The practical question in 2026 is no longer "which OCR is best" but "which OCR is best inside my network", and for Arabic the answer has become genuinely good.إذا كانت مستنداتكم منشورات عامة، استخدموا أي خدمة تقرأ أفضل. لكن ما تحتاج الشركات إلى أتمتته فعلاً هو العقود والبيانات الجمركية وملفات الالتزام وسجلات العملاء. في أغلب القطاعات المنظمة في الشرق الأوسط وشمال أفريقيا، ممنوع أن تمر هذه المستندات عبر خدمة سحابية عامة. قواعد بقاء البيانات داخل البلد تحدد الحل قبل أي حديث عن الدقة. السؤال العملي في 2026 لم يعد "ما أفضل OCR؟" بل "ما أفضل OCR يعمل داخل شبكتي؟"، وجواب العربية أصبح جيداً فعلاً.
What a production Arabic pipeline looks likeكيف تبدو منظومة عربية في بيئة الإنتاج
- 1 Intake and triageالاستلام والفرز
Documents arrive from scanners, email, or your ERP. A classifier routes each page: printed Arabic, handwriting, tables, mixed bilingual.تصل المستندات من الماسحات الضوئية أو البريد أو نظام ERP لديكم. مصنّف يوجّه كل صفحة: عربية مطبوعة، كتابة يدوية، جداول، أو محتوى ثنائي اللغة. - 2 VLM extraction on your GPUsالاستخلاص بنموذج VLM على معالجاتكم
A specialised open model (Qari-OCR or a tuned Qwen) reads the page into structured fields. Nothing leaves the network.نموذج مفتوح متخصص مثل Qari-OCR أو نسخة مضبوطة من Qwen يقرأ الصفحة ويحولها إلى حقول منظمة. لا يغادر أي شيء الشبكة. - 3 Validation against your systemsالتحقق مقابل أنظمتكم
Extracted values are cross-checked against master data: supplier names, tax numbers, totals. Disagreements get flagged, not guessed.تُقارن القيم المستخلصة مع البيانات الرئيسية: أسماء الموردين، الأرقام الضريبية، المجاميع. أي تعارض يُعلَّم للمراجعة ولا يُخمَّن. - 4 Human sign-off, full audit trailاعتماد بشري وسجل تدقيق كامل
A reviewer approves low-confidence extractions before anything posts. Every read, match, and approval lands in the audit trail.مراجع يعتمد الاستخلاصات منخفضة الثقة قبل أي ترحيل. كل قراءة ومطابقة واعتماد يُسجَّل في سجل التدقيق.
That four-step shape is what separates demos from production systems. The OCR layer is no longer the weak link. The engineering around it, validation, routing, and human gates, is where document projects succeed or stall.هذه الخطوات الأربع هي الفرق بين تجربة عرض ونظام حقيقي يعمل. لم تعد قراءة النص هي الحلقة الأضعف. النجاح أو التعثر يحدث في الهندسة المحيطة بها: التحقق من البيانات، وتوجيه المستندات، وموافقة الإنسان.
Pick one document type with volume and pain, customs declarations or supplier contracts are typical, and run a measured pilot on your own scans. Accuracy on your documents, not benchmark numbers, is the only metric that matters.اختاروا نوع مستند واحد كثير العدد وكثير المتاعب، مثل البيانات الجمركية أو عقود الموردين، وجربوا عليه تجربة مقاسة بمستنداتكم الحقيقية. الدقة على مستنداتكم أنتم، لا أرقام الاختبارات، هي المقياس الوحيد المهم.