InternVL2.5 + Idefics3 + Phi-4-Multimodal: Karşılaştırmalı Arch Tour
Daha az popüler ama önemli VLM'ler: InternVL2.5 (Shanghai AI Lab, 8B-78B), Idefics3 (HuggingFace), Phi-4-Multimodal (Microsoft, 5.4B vision+text). Her birinin mimari + FT pattern karşılaştırması. Niş use-case (medical/document/scientific) için hangisi parlıyor.
Şükrü Yusuf KAYA
24 dakikalık okuma
İleri1. Karşılaştırmalı Tablo#
| Model | Vision | LLM | Strength | Niş |
|---|---|---|---|---|
| InternVL2.5 8B | InternViT-300M | InternLM2.5 7B | OCR + chart | document VLM |
| InternVL2.5 78B | InternViT-6B | InternLM2.5 70B | flagship quality | research |
| Idefics3 8B | SigLIP | Llama 3.1 8B | strong reasoning | general |
| Phi-4-Multimodal | SigLIP | Phi-4-mini 3.8B | math + science | scientific |
Phi-4-Multimodal trick: LoRA-style adapter for vision (image projector LoRA only on top of base Phi-4-mini). Small adapter (~150M) → vision capability eklenir.
InternVL2.5 trick: Tile-based dynamic resolution. Yüksek-res image'i 448×448 tile'lara böler + global thumbnail.
✅ Teslim
- InternVL2.5 8B'yi document VLM domain'inde test et. 2) Phi-4-Multimodal'ı scientific paper Q&A için dene. 3) Sonraki ders: 6.7 — Vision Tower Freeze Stratejileri.
Yorumlar & Soru-Cevap
(0)Yorum yazmak için giriş yap.
Yorumlar yükleniyor...
İlgili İçerikler
Part 0 — Engineering Foundations
Fine-Tuning Cookbook'a Hoş Geldin: Sistematik, Stage Taksonomisi ve Reproducibility Kontratı
Öğrenmeye BaşlaPart 0 — Engineering Foundations
Reproducibility Stack: Seeds, cuDNN Flags ve Deterministic CUDA — 'Sende Niye Çalışıyor Bende Çalışmıyor' Sorununu Bitir
Öğrenmeye BaşlaPart 0 — Engineering Foundations