- ·الأبجدية العربية ليست المشكلة. المشكلة في الحروف المتصلة والتشكيل واتجاه الأرقام.
- ·التنسيقات ثنائية الاتجاه هي القاتل الحقيقي: محرك تجاري من الطراز الأول سجّل ٧١٪ على مستندات خليجية حقيقية.
- ·ثلاثة تغييرات في خط المعالجة رفعت الدقة من ٧١٪ إلى ٩٩٫٢٪.
- ·كل شيء يعمل محليًا على خوادم العميل. وهذا القيد أجبرنا على بناء خطٍّ أفضل.
المستند الضريبي الخليجي النموذجي فوضى طباعية صغيرة. اسم المورّد يجري من اليمين إلى اليسار بالعربية، والبنود ثنائية اللغة، ورقم التسجيل يسير من اليسار إلى اليمين، والمجاميع في جدول تنقلب اتجاهات أعمدته في منتصف الصفحة. بالنسبة للإنسان، الأمر بديهي. أما لمعظم محركات القراءة الآلية، فهو ضجيج.
تعلّمنا هذا بالطريقة الصعبة. اعتمد خط معالجتنا الأول على واجهة قراءة آلية تجارية من الطراز الأول، من النوع الذي يتصدّر اختبارات الإنجليزية. على الإيصالات الإنجليزية النظيفة كان أداؤه مثاليًا. وعلى أول دفعة من المستندات الخليجية الحقيقية، أعاد دقة ٧١٪ على مستوى الحقول. وبالنسبة للمكتب الخلفي، ٧١٪ ليست «تعمل في الغالب»: تعني أن واحدًا من كل ثلاثة مستندات تقريبًا يحتاج إلى إعادة إدخال يدوي، وهذا يُلغي الغرض كله.
المشكلة ليست في الأبجدية
من المغري الافتراض أن العربية صعبة لأن حروفها مختلفة، لكن الأمر ليس كذلك. الأبجدية صغيرة، ٢٨ حرفًا أساسيًا. الصعوبة أن كل حرف يغيّر شكله حسب موضعه في الكلمة، والحروف المتجاورة تندمج في روابط تتشارك الخطوط. تعتمد القراءة الآلية للإنجليزية بشدة على الفجوات بين الحروف، والعربية تمنحها فجوات أقل بكثير.
الاتجاه المختلط هو ما يكسرها فعلًا
حتى حين تُقرأ الحروف بشكل صحيح، يدمّرها التخطيط. المستندات الخليجية جداول ثنائية الاتجاه. عمود الوصف يجري من اليمين إلى اليسار، وعمودا الكمية والسعر من اليسار إلى اليمين، وعلى المحرّك أن يحدّد ترتيب القراءة قبل أن يحدّد ما الذي ينتمي إلى أي صف. أخطئ في الترتيب فتحصل على ما هو أسوأ من الهراء: رقم معقول مُلصق بالحقل الخطأ.
الرقم الخاطئ الذي يبدو صحيحًا أغلى من غياب الرقم تمامًا.
ما الذي غيّرناه فعليًا
- 1 تجزئة واعية بالتخطيط أولًا.
قبل أي تعرّف على النص، يرسم نموذج رؤية خريطة للصفحة إلى مناطق حسب الاتجاه، فيُحدَّد ترتيب القراءة من الهندسة، لا تخمينًا من الحروف. - 2 محرّك تعرّف عربي أولًا.
صقلنا نموذجًا مفتوحًا على مئات الآلاف من قصاصات المستندات الحقيقية: روابط، وأختام، ومسوحات منخفضة التباين، وكتابات يدوية في الهوامش، بدلًا من النصوص الاصطناعية النظيفة. - 3 الأرقام يجب أن تتطابق.
يُراجَع كل رقم مستخرَج مقابل حساب المستند نفسه. وأي رقم لا يتوازن يُعلَّم، ولا يُرحَّل بصمت أبدًا.
لماذا جعلها التشغيل المحلي أصعب، وأفضل
كان بإمكاننا إطلاق واجهة سحابية واعتبار الأمر منتهيًا، لكن الفرق في المنطقة لا تستطيع إرسال هذه البيانات إلى طرف ثالث، فكان على خط المعالجة بأكمله أن يعمل على معالِجات العميل نفسه. وذلك القيد فرض انضباطًا حسّن الدقة: كان على كل نموذج أن يكون صغيرًا بما يكفي للعمل محليًا، فكان على كل طبقة أن تستحقّ مكانها. والنتيجة تقرأ المستند العربي بدقة موظّف بشري متأنٍّ، ولا تغادر المبنى أبدًا.