Pixtral 12B + Pixtral Large: Mistral Multimodal — Resolution-Free + Apache 2.0
Pixtral 12B (Mistral Nemo 12B + 400M ViT) + Pixtral Large (124B) — Mistral'in açık multimodal'ı. Apache 2.0, resolution-free, EU AI Act-compliance friendly. 7-32 image per context, 128K context. RTX 4090'da Pixtral 12B QLoRA marjinal (~22 GB).
Şükrü Yusuf KAYA
22 dakikalık okuma
İleri1. Pixtral Spec#
| Model | Total | Vision | LLM Base | Context | Lisans |
|---|---|---|---|---|---|
| Pixtral 12B | 12B + 400M ViT | Pixtral ViT 400M | Mistral Nemo 12B | 128K | Apache 2.0 |
| Pixtral Large | 124B | Pixtral ViT 1B | Mistral Large 2 123B | 128K | Mistral Research |
Apache 2.0 önemli: EU AI Act + commercial production için en esnek lisans.
# Pixtral 12B basic FT from transformers import LlavaForConditionalGeneration, AutoProcessor model = LlavaForConditionalGeneration.from_pretrained( "mistral-community/pixtral-12b", quantization_config=bnb_4bit, torch_dtype="bfloat16", ) # LoRA + Visual instruction tune workflow Qwen 2.5-VL ile aynı
✅ Teslim
- Pixtral 12B AWQ inference test (vLLM). 2) Mini visual SFT. 3) Sonraki ders: 6.6 — InternVL2.5 / Idefics3 / Phi-4-Multimodal.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations