شغّل نماذج الذكاء الاصطناعي على جهازك: دليل بسيط جداً

TL;DR

·Ollama هو أسهل طريقة لتشغيل النماذج المفتوحة على جهازك. تثبيت واحد، وأمر واحد لكل نموذج، وواجهة برمجية جاهزة على المنفذ 11434.
·الذاكرة تحدد كل شيء: نموذج Gemma 4 E2B يعمل على 8 جيجابايت، وGPT-OSS 20B يحتاج معالج رسومي بذاكرة 16 جيجابايت، والنماذج العملاقة تحتاج خوادم.
·لقراءة المستندات العربية، Qari-OCR v0.3 هو أحدث نموذج مفتوح مدرب على العربية. حجمه 2B فقط فيعمل على معالج رسومي متواضع، وترسل له أول مستند بسكربت Python قصير.

تشغيل نموذج ذكاء اصطناعي على جهازك يبدو مشروعاً صعباً للمتخصصين. لكنه ليس كذلك. في 2026 صارت الأدوات بسيطة فعلاً: مثبّت واحد، وأمر واحد لتحميل النموذج، وواجهة برمجية محلية يستدعيها برنامجك. هذا الدليل يأخذك من جهاز فارغ إلى نموذج يعمل ومجرب، ثم إلى قراءة أول مستند عربي. لا شيء هنا يحتاج السحابة، ولا شيء يخرج من جهازك.

أولاً: كم ذاكرة في جهازك؟

رقم واحد يحدد أي نموذج تستطيع تشغيله: الذاكرة. في حاسوب فيه بطاقة رسومية، المقصود ذاكرة البطاقة (VRAM). وفي أجهزة Mac الحديثة الذاكرة مشتركة، فالمهم هو الذاكرة الكلية. ابحث عن نموذجك في البطاقات التالية، وتأكد أنه يناسب جهازك، واحفظ أمره. هذه أحدث الإصدارات حتى يونيو 2026: عائلة Gemma 4 من Google (صدرت في أبريل 2026)، ونماذج GPT-OSS المفتوحة من OpenAI، وQari-OCR v0.3 للمستندات العربية.

Gemma 4 E2B

الذاكرة 4 GB VRAM / 8 GB RAM

حجم التحميل 7.2 GB

ollama run gemma4:e2b

يعمل على أي جهاز تقريباً، حتى Raspberry Pi 5.

Gemma 4 E4B

الذاكرة 6 GB VRAM / 12 GB RAM

حجم التحميل 9.6 GB

ollama run gemma4:e4b

الخيار الأنسب للحواسيب المحمولة العادية.

Gemma 4 26B (MoE)

الذاكرة 16 GB VRAM

حجم التحميل 18 GB

ollama run gemma4:26b

جودة قريبة من القمة؛ يستخدم 3.8B معامل فقط لكل رمز.

Gemma 4 31B

الذاكرة 20 GB VRAM

حجم التحميل 20 GB

ollama run gemma4:31b

أقوى نسخة من Gemma؛ الثالث بين النماذج المفتوحة على Chatbot Arena.

GPT-OSS 20B

الذاكرة 16 GB VRAM / RAM

حجم التحميل 13 GB

ollama run gpt-oss:20b

نموذج OpenAI المفتوح؛ قدرة تفكير قريبة من o3-mini.

GPT-OSS 120B

الذاكرة 80 GB GPU

حجم التحميل 60+ GB

ollama run gpt-oss:120b

لأجهزة الخوادم فقط؛ قدرة تفكير قريبة من o4-mini.

Qari-OCR v0.3 (Arabic OCR)

الذاكرة ~6 GB VRAM (8-bit)

حجم التحميل ~5 GB

NAMAA-Space/Qari-OCR-v0.3-VL-2B-Instruct

أحدث OCR عربي مفتوح؛ شرح تشغيله في القسم الأخير.

الخطوة 1: ثبّت Ollama

Ollama أداة مجانية تحمّل النماذج المفتوحة وتشغلها وتقدمها لبرامجك دون أي إعداد. على macOS وWindows حمّل المثبّت من ollama.com وشغله. وعلى Linux يكفي سطر واحد في الطرفية. تحتاج الإصدار 0.22 أو أحدث ليعمل Gemma 4.

التثبيت على Linux

curl -fsSL https://ollama.com/install.sh | sh

# check it worked
ollama --version

الخطوة 2: حمّل نموذجك الأول وشغله

اختر النموذج المناسب لذاكرتك من البطاقات السابقة. للحاسوب المحمول العادي ابدأ بـ Gemma 4 E4B. أول تشغيل يحمّل النموذج (9.6 جيجابايت، فاصبر دقائق)، ثم تفتح لك محادثة في الطرفية مباشرة.

التحميل والمحادثة

ollama run gemma4:e4b

>>> اشرح لي ما هو النموذج اللغوي في ثلاث جمل.
# the model answers in Arabic, locally, with no internet needed

الخطوة 3: جربه من برنامجك

يفتح Ollama تلقائياً واجهة برمجية على المنفذ 11434. أي لغة برمجة ترسل طلب HTTP تستطيع الآن استخدام نموذجك المحلي. هنا يتحول الأمر من لعبة إلى أداة حقيقية: برامجك وأدواتك الداخلية تستدعيه كما تستدعي أي خدمة سحابية، لكن البيانات لا تغادر الجهاز أبداً.

استدعاء الواجهة المحلية

curl http://localhost:11434/api/generate -d '{
  "model": "gemma4:e4b",
  "prompt": "Summarise this contract clause in one sentence: ...",
  "stream": false
}'

الخطوة 4: جهز OCR العربي واقرأ أول مستند

للمستندات تحتاج نموذجاً مدرباً على العربية خصيصاً. أحدث نموذج مفتوح هو Qari-OCR v0.3 (نشرته NAMAA-Space على Hugging Face)، وهو مبني على Qwen2-VL-2B ومدرب ليحفظ بنية المستند: العناوين والجداول والتنسيق تبقى في النتيجة. نسخته السابقة تملك أفضل دقة عربية منشورة بين النماذج المفتوحة (خطأ 6.1% في الحروف)، والنسخة الجديدة أضافت فهم البنية. وبحجم 2B يعمل على معالج رسومي واحد متواضع. نصيحة من صفحة النموذج: استخدم دقة 8-bit لا 4-bit، لأن قراءة الحروف تحتاج التفاصيل الدقيقة.

تثبيت الأدوات

python3 -m venv ocr && source ocr/bin/activate
pip install torch transformers accelerate qwen-vl-utils pillow

قراءة مستند (أول تشغيل يحمّل النموذج)

from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info

MODEL = "NAMAA-Space/Qari-OCR-v0.3-VL-2B-Instruct"
model = Qwen2VLForConditionalGeneration.from_pretrained(MODEL, device_map="auto")
processor = AutoProcessor.from_pretrained(MODEL)

messages = [{"role": "user", "content": [
    {"type": "image", "image": "invoice-page1.jpg"},
    {"type": "text", "text": "اقرأ النص في هذه الصورة."},
]}]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
images, _ = process_vision_info(messages)
inputs = processor(text=[text], images=images, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=2000)
print(processor.batch_decode(out[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)[0])

جرّبه على فاتورة ممسوحة أو صفحة عقد أو بيان جمركي. النتيجة هي نص الصفحة بالعربية مع بنيتها. ومن هنا يكبر المشروع بالنمط نفسه: استبدل صورة التجربة بمجلد كامل من المستندات، ومرر النتيجة إلى خطوة تحقق، فتحصل على الهيكل الأساسي لنظام مستندات حقيقي.

من الحاسوب المحمول إلى بيئة الإنتاج

كل ما سبق يعمل على جهاز واحد. ونقله إلى خادم ينجو من إعادة التشغيل خطوة قصيرة مستقلة، نشرحها في نشر الوكلاء على خادم. أما نظام بيئة الإنتاج فيضيف ما يجعله موثوقاً: التحقق من البيانات مقابل سجلاتكم، وموافقة الإنسان قبل أي خطوة مهمة، وسجل تدقيق كامل. النماذج هي 20% السهلة من المشروع. والهندسة المحيطة بها هي 80% الباقية.