شرح عملي الاستضافة الذاتية البداية

شغّل نماذج الذكاء الاصطناعي على جهازك: دليل بسيط جداً

من الصفر إلى ذكاء اصطناعي يعمل على جهازك في أقل من ساعة: ثبّت Ollama، اختر نموذجاً يناسب ذاكرة جهازك، جربه، استدعه من برنامجك، ثم اقرأ أول مستند عربي بتقنية OCR. كل الأوامر موجودة هنا.

APFlow
المدونة · يونيو ٢٠٢٦ · ١٠ دقائق
A monitor showing code in a dark room
Photo: Fernando Hernandez, Unsplash
TL;DR
  • ·Ollama هو أسهل طريقة لتشغيل النماذج المفتوحة على جهازك. تثبيت واحد، وأمر واحد لكل نموذج، وواجهة برمجية جاهزة على المنفذ 11434.
  • ·الذاكرة تحدد كل شيء: نموذج Gemma 4 E2B يعمل على 8 جيجابايت، وGPT-OSS 20B يحتاج معالج رسومي بذاكرة 16 جيجابايت، والنماذج العملاقة تحتاج خوادم.
  • ·لقراءة المستندات العربية، Qari-OCR v0.3 هو أحدث نموذج مفتوح مدرب على العربية. حجمه 2B فقط فيعمل على معالج رسومي متواضع، وترسل له أول مستند بسكربت Python قصير.

تشغيل نموذج ذكاء اصطناعي على جهازك يبدو مشروعاً صعباً للمتخصصين. لكنه ليس كذلك. في 2026 صارت الأدوات بسيطة فعلاً: مثبّت واحد، وأمر واحد لتحميل النموذج، وواجهة برمجية محلية يستدعيها برنامجك. هذا الدليل يأخذك من جهاز فارغ إلى نموذج يعمل ومجرب، ثم إلى قراءة أول مستند عربي. لا شيء هنا يحتاج السحابة، ولا شيء يخرج من جهازك.

أولاً: كم ذاكرة في جهازك؟

رقم واحد يحدد أي نموذج تستطيع تشغيله: الذاكرة. في حاسوب فيه بطاقة رسومية، المقصود ذاكرة البطاقة (VRAM). وفي أجهزة Mac الحديثة الذاكرة مشتركة، فالمهم هو الذاكرة الكلية. ابحث عن نموذجك في البطاقات التالية، وتأكد أنه يناسب جهازك، واحفظ أمره. هذه أحدث الإصدارات حتى يونيو 2026: عائلة Gemma 4 من Google (صدرت في أبريل 2026)، ونماذج GPT-OSS المفتوحة من OpenAI، وQari-OCR v0.3 للمستندات العربية.

Gemma 4 E2B
الذاكرة 4 GB VRAM / 8 GB RAM
حجم التحميل 7.2 GB
ollama run gemma4:e2b
يعمل على أي جهاز تقريباً، حتى Raspberry Pi 5.
Gemma 4 E4B
الذاكرة 6 GB VRAM / 12 GB RAM
حجم التحميل 9.6 GB
ollama run gemma4:e4b
الخيار الأنسب للحواسيب المحمولة العادية.
Gemma 4 26B (MoE)
الذاكرة 16 GB VRAM
حجم التحميل 18 GB
ollama run gemma4:26b
جودة قريبة من القمة؛ يستخدم 3.8B معامل فقط لكل رمز.
Gemma 4 31B
الذاكرة 20 GB VRAM
حجم التحميل 20 GB
ollama run gemma4:31b
أقوى نسخة من Gemma؛ الثالث بين النماذج المفتوحة على Chatbot Arena.
GPT-OSS 20B
الذاكرة 16 GB VRAM / RAM
حجم التحميل 13 GB
ollama run gpt-oss:20b
نموذج OpenAI المفتوح؛ قدرة تفكير قريبة من o3-mini.
GPT-OSS 120B
الذاكرة 80 GB GPU
حجم التحميل 60+ GB
ollama run gpt-oss:120b
لأجهزة الخوادم فقط؛ قدرة تفكير قريبة من o4-mini.
Qari-OCR v0.3 (Arabic OCR)
الذاكرة ~6 GB VRAM (8-bit)
حجم التحميل ~5 GB
NAMAA-Space/Qari-OCR-v0.3-VL-2B-Instruct
أحدث OCR عربي مفتوح؛ شرح تشغيله في القسم الأخير.

الخطوة 1: ثبّت Ollama

Ollama أداة مجانية تحمّل النماذج المفتوحة وتشغلها وتقدمها لبرامجك دون أي إعداد. على macOS وWindows حمّل المثبّت من ollama.com وشغله. وعلى Linux يكفي سطر واحد في الطرفية. تحتاج الإصدار 0.22 أو أحدث ليعمل Gemma 4.

التثبيت على Linux
curl -fsSL https://ollama.com/install.sh | sh

# check it worked
ollama --version

الخطوة 2: حمّل نموذجك الأول وشغله

اختر النموذج المناسب لذاكرتك من البطاقات السابقة. للحاسوب المحمول العادي ابدأ بـ Gemma 4 E4B. أول تشغيل يحمّل النموذج (9.6 جيجابايت، فاصبر دقائق)، ثم تفتح لك محادثة في الطرفية مباشرة.

التحميل والمحادثة
ollama run gemma4:e4b

>>> اشرح لي ما هو النموذج اللغوي في ثلاث جمل.
# the model answers in Arabic, locally, with no internet needed

الخطوة 3: جربه من برنامجك

يفتح Ollama تلقائياً واجهة برمجية على المنفذ 11434. أي لغة برمجة ترسل طلب HTTP تستطيع الآن استخدام نموذجك المحلي. هنا يتحول الأمر من لعبة إلى أداة حقيقية: برامجك وأدواتك الداخلية تستدعيه كما تستدعي أي خدمة سحابية، لكن البيانات لا تغادر الجهاز أبداً.

استدعاء الواجهة المحلية
curl http://localhost:11434/api/generate -d '{
  "model": "gemma4:e4b",
  "prompt": "Summarise this contract clause in one sentence: ...",
  "stream": false
}'

الخطوة 4: جهز OCR العربي واقرأ أول مستند

للمستندات تحتاج نموذجاً مدرباً على العربية خصيصاً. أحدث نموذج مفتوح هو Qari-OCR v0.3 (نشرته NAMAA-Space على Hugging Face)، وهو مبني على Qwen2-VL-2B ومدرب ليحفظ بنية المستند: العناوين والجداول والتنسيق تبقى في النتيجة. نسخته السابقة تملك أفضل دقة عربية منشورة بين النماذج المفتوحة (خطأ 6.1% في الحروف)، والنسخة الجديدة أضافت فهم البنية. وبحجم 2B يعمل على معالج رسومي واحد متواضع. نصيحة من صفحة النموذج: استخدم دقة 8-bit لا 4-bit، لأن قراءة الحروف تحتاج التفاصيل الدقيقة.

تثبيت الأدوات
python3 -m venv ocr && source ocr/bin/activate
pip install torch transformers accelerate qwen-vl-utils pillow
قراءة مستند (أول تشغيل يحمّل النموذج)
from transformers import Qwen2VLForConditionalGeneration, AutoProcessor
from qwen_vl_utils import process_vision_info

MODEL = "NAMAA-Space/Qari-OCR-v0.3-VL-2B-Instruct"
model = Qwen2VLForConditionalGeneration.from_pretrained(MODEL, device_map="auto")
processor = AutoProcessor.from_pretrained(MODEL)

messages = [{"role": "user", "content": [
    {"type": "image", "image": "invoice-page1.jpg"},
    {"type": "text", "text": "اقرأ النص في هذه الصورة."},
]}]

text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
images, _ = process_vision_info(messages)
inputs = processor(text=[text], images=images, return_tensors="pt").to(model.device)
out = model.generate(**inputs, max_new_tokens=2000)
print(processor.batch_decode(out[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)[0])

جرّبه على فاتورة ممسوحة أو صفحة عقد أو بيان جمركي. النتيجة هي نص الصفحة بالعربية مع بنيتها. ومن هنا يكبر المشروع بالنمط نفسه: استبدل صورة التجربة بمجلد كامل من المستندات، ومرر النتيجة إلى خطوة تحقق، فتحصل على الهيكل الأساسي لنظام مستندات حقيقي.

من الحاسوب المحمول إلى بيئة الإنتاج

كل ما سبق يعمل على جهاز واحد. ونقله إلى خادم ينجو من إعادة التشغيل خطوة قصيرة مستقلة، نشرحها في نشر الوكلاء على خادم. أما نظام بيئة الإنتاج فيضيف ما يجعله موثوقاً: التحقق من البيانات مقابل سجلاتكم، وموافقة الإنسان قبل أي خطوة مهمة، وسجل تدقيق كامل. النماذج هي 20% السهلة من المشروع. والهندسة المحيطة بها هي 80% الباقية.

شارك

ضعوا عمليةً واحدة في الإنتاج.

مكالمة من ١٥ دقيقة، ثم تقييم حقيقي لما يستطيع الوكيل تشغيله على خوادمكم.

احجز مكالمة تقييم ←
تابع القراءة