llama.cpp + Ollama: GGUF Serving + Modelfile + System Prompt Versioning
llama.cpp + Ollama — CPU/Apple Silicon/edge için altın standart. GGUF format, Ollama'nın Modelfile sistemi (system prompt + tools versioning), Ollama API, OpenAI-uyumlu endpoint. RTX 4090'da Q4_K_M Llama 8B Ollama'da 95 tok/s (vLLM AWQ 175'in altında ama 'set up zero' faktörüyle production-ready).
Şükrü Yusuf KAYA
24 dakikalık okuma
Ortabash
# === Ollama Modelfile — TR custom assistant ===# Dosya: TurkceAsistan.Modelfile FROM llama3.1:8b-instruct-q4_K_M # base PARAMETER temperature 0.7PARAMETER top_p 0.9PARAMETER num_ctx 8192PARAMETER repeat_penalty 1.05 SYSTEM """Sen 'Yıldız' adında bir Türk AI asistanısın.- Cevapların doğal Türkçe olsun.- Belirsizlik durumunda 'bilmiyorum' demeyi tercih et.- Karşındaki kişinin yaşı ve uzmanlık seviyesini göz önünde bulundur.- Karmaşık konuları örneklerle açıkla.""" TEMPLATE """<|start_header_id|>system<|end_header_id|>{{ .System }}<|eot_id|><|start_header_id|>user<|end_header_id|>{{ .Prompt }}<|eot_id|><|start_header_id|>assistant<|end_header_id|>""" # Build + serve# ollama create yildiz -f TurkceAsistan.Modelfile# ollama run yildiz # API (OpenAI-uyumlu)curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "yildiz", "messages": [{"role": "user", "content": "İstanbul nüfusu?"}] }'Ollama Modelfile + serving
1. RTX 4090 + Q4_K_M Llama 8B (Ollama)#
| Workload | tok/s |
|---|---|
| Batch=1 generation | 95 |
| Batch=4 parallel | 240 |
| Streaming first-token | 180 ms TTFT |
Karşılaştırma: vLLM AWQ int4 (batch=1) 175 tok/s — Ollama daha yavaş. Ama Ollama'nın "sıfır setup" + Modelfile'ın system prompt versioning'i bazı use-case'lerde tercih.
Cookbook'un kuralı:
- High-throughput API → vLLM / SGLang / TGI
- Single-user lokal chat → Ollama (UX + Modelfile)
- Apple Silicon → Ollama veya MLX-LM
✅ Teslim
- Kendi TR Modelfile'ını yaz. 2) Ollama API ile test. 3) Sonraki ders: 15.7 — MLX-LM Apple Silicon.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations