# Vektör Veritabanı Nedir? Anlamsal Arama ve Embedding Rehberi > Source: https://sukruyusufkaya.com/blog/vektor-veritabani-nedir > Updated: 2026-07-05T16:09:33.029Z > Type: blog > Category: yapay-zeka **TLDR:** Vektör veritabanı nedir? Vektör veritabanı, metin, görsel veya sesin anlamını temsil eden sayısal vektörleri (embedding) saklayan ve bir sorguya anlamca en yakın kayıtları hızla bulan özel bir veritabanı türüdür. Bu rehber: net tanım, nasıl çalışır, benzerlik araması ve HNSW indeksi, Qdrant gibi araçlar, RAG ile ilişkisi, klasik veritabanıyla farkı, KVKK ve sık sorulan sorular. Vektör veritabanı nedir? Vektör veritabanı (vector database), metin, görsel veya sesin anlamını temsil eden yüksek boyutlu sayısal vektörleri (embedding, anlam vektörü) saklayan ve bir sorguya anlamca en yakın kayıtları hızla bulan özel bir veritabanı türüdür. Klasik veritabanları tam eşleşme ararken, vektör veritabanı kelimeler farklı olsa bile anlamca yakın olanı getirir. Yapay zeka çağının verisi artık yalnızca satır ve sütunlardan ibaret değil; metinlerin, görsellerin ve seslerin anlamı da sorgulanabilir hâle geldi. Bu anlamı saklayıp aramanın altyapısı vektör veritabanıdır. Bu rehber vektör veritabanı nedir, nasıl çalışır, benzerlik araması ve HNSW indeksi neden önemli, RAG ile ilişkisi nedir ve klasik veritabanından farkı ne sorularını uzman-uygulayıcı gözüyle yanıtlıyor. ## Embedding Nedir ve Vektör Veritabanıyla İlişkisi Ne? Vektör veritabanını anlamak için önce embedding'i (anlam vektörü) anlamak gerekir. Embedding, bir metni, görseli veya sesi — anlamını koruyacak biçimde — bir sayı dizisine, yani bir vektöre çeviren yöntemdir. Bu vektör tipik olarak yüzlerce hatta binlerce boyutludur ve anlamca benzer içerikler bu çok boyutlu uzayda birbirine yakın konumlanır. "İade politikası" ile "para iadesi koşulları" farklı kelimeler olsa da vektör uzayında yan yana düşer. İşte vektör veritabanının görevi tam burada başlar: bu embedding'leri saklamak ve bir sorgu geldiğinde ona anlamca en yakın olanları bulmak. Kritik ayrım şudur — vektör veritabanı embedding üretmez; onu bir embedding modeli (örneğin OpenAI, Google veya Hugging Face üzerindeki açık modeller) üretir. Vektör veritabanı ise bu hazır vektörleri alır, indeksler ve ışık hızında arar. Yani embedding kalitesi ne kadar iyiyse, vektör veritabanının döndürdüğü sonuçlar da o kadar isabetli olur. ## Vektör Veritabanı Nasıl Çalışır? Bir vektör veritabanının yaşam döngüsü iki fazdan oluşur: yazma (indeksleme) ve okuma (arama). Yazma fazında verileriniz embedding'e çevrilir ve indekslenerek saklanır; okuma fazında ise gelen sorgu aynı biçimde vektöre çevrilir ve anlamca en yakın kayıtlar getirilir. Bu akışın kalbinde bir kavram vardır: yakınlık. Vektör veritabanı, iki vektörün ne kadar benzer olduğunu genellikle kosinüs benzerliği ya da Öklid uzaklığı gibi bir metrikle ölçer. Sorgu vektörüne en küçük uzaklıktaki kayıtlar, anlamca en ilgili sonuçlardır. Böylece arama, kelime eşleşmesine değil, anlam yakınlığına dayanır. ## Benzerlik Araması ve HNSW İndeksi Neden Önemli? Bir vektör veritabanının değeri, benzerlik aramasını ölçekte hızlı yapabilmesinden gelir. Naif yaklaşım, sorgu vektörünü veritabanındaki her vektörle tek tek karşılaştırmaktır; ama milyonlarca kayıtta bu, her sorguda saniyeler süren, kabul edilemez bir maliyettir. Çözüm, yaklaşık en yakın komşu (ANN — Approximate Nearest Neighbor) algoritmalarıdır: küçük bir doğruluk ödünü karşılığında aramayı milisaniyelere indirirler. Bu algoritmaların en yaygını HNSW'dir (Hierarchical Navigable Small World). HNSW, vektörleri çok katmanlı bir "gezinilebilir küçük dünya" grafı olarak düzenler; arama, üst katmanda kabaca doğru bölgeye atlar, sonra alt katmanlarda inceltir. Böylece tüm veriyi taramadan, hedefe hızla yaklaşır. HNSW'nin sunduğu ayarlanabilir denge — hız mı yoksa doğruluk mu önce gelsin — üretim sistemlerinde onu fiili standart hâline getirmiştir. Bir vektör veritabanının performansı büyük ölçüde bu indeksin kalitesiyle belirlenir. ### Benzerlik Nasıl Ölçülür? Uzaklık Metrikleri Vektör veritabanının "en yakın kaydı bul" derken neyi ölçtüğü, sonuç kalitesini doğrudan etkiler. İki vektörün ne kadar benzer olduğu, bir uzaklık (veya benzerlik) metriğiyle hesaplanır ve doğru metriği seçmek, embedding modelinin nasıl eğitildiğine bağlıdır. Üç metrik yaygındır: kosinüs benzerliği, iç çarpım (dot product) ve Öklid (L2) uzaklığı. Kosinüs benzerliği, iki vektör arasındaki açıya bakar; büyüklüğü değil, yönü önemser. Metin embedding'lerinde en sık tercih edilen budur, çünkü bir belgenin uzunluğu değil, anlamının yönü aranır. İç çarpım, hem yönü hem büyüklüğü hesaba katar ve bazı öneri sistemlerinde işe yarar. Öklid uzaklığı ise vektörler arasındaki düz çizgi mesafesini ölçer. Buradaki pratik kural nettir: embedding modeliniz hangi metrikle eğitildiyse, vektör veritabanınızda da onu kullanmalısınız; yanlış metrik seçimi, kusursuz bir indekste bile isabetsiz benzerlik araması demektir. ## Vektör Veritabanı ile Klasik Veritabanı Arasındaki Fark Nedir? En sık karıştırılan nokta budur: vektör veritabanı, ilişkisel (SQL) bir veritabanının yerini almaz; farklı bir soruyu yanıtlar. Klasik veritabanı "hangi kayıt bu değere tam olarak eşit?" sorusunu, vektör veritabanı ise "hangi kayıt buna anlamca en yakın?" sorusunu çözer. Pratikte ikisi rakip değil, tamamlayıcıdır. Modern sistemler çoğu zaman ilişkisel veritabanını "gerçeğin kaynağı" olarak tutar, anlamsal aramayı ise vektör veritabanına devreder. PostgreSQL kullanan ekipler bu ikisini pgvector eklentisiyle tek yerde birleştirebilir; böylece hem SQL sorgusu hem benzerlik araması aynı altyapıda çalışır. Kavramın temeli için büyük veri nedir ve algoritma nedir rehberlerine göz atabilirsiniz. ## Hangi Vektör Veritabanları Var? Qdrant, pgvector ve Diğerleri Ekosistem hızla olgunlaştı ve bugün her ölçeğe uygun bir seçenek var. Öne çıkan araçlar şunlardır: - **Qdrant:** Rust ile yazılmış, yüksek performanslı ve gelişmiş meta veri filtrelemesi sunan popüler bir açık kaynak vektör veritabanı; kendi sunucunuzda veya bulutta çalıştırılabilir. - **pgvector:** PostgreSQL için bir eklenti; mevcut SQL veritabanınıza vektör arama yeteneği ekler. "Zaten Postgres kullanıyorum" diyen ekipler için en düşük sürtünmeli başlangıç. - **Milvus:** Büyük ölçekli, dağıtık dağıtımlar için tasarlanmış açık kaynak bir vektör veritabanı. - **Weaviate:** Şema ve modül desteğiyle gelen, anlamsal arama odaklı açık kaynak bir seçenek. - **Pinecone:** Yönetilen (managed) bir bulut servisi; altyapıyı kendiniz işletmek istemiyorsanız operasyonel yükü azaltır. Doğru seçim tek bir "en iyi" ürün değildir; ölçek, gecikme hedefi, maliyet, KVKK/veri konumu gereksinimi ve ekibin mevcut altyapısına göre değişir. Küçük bir pilotta pgvector fazlasıyla yeterken, milyarlarca vektöre ölçeklenen bir sistemde Qdrant veya Milvus gibi özel çözümler öne çıkar. Ürün adından çok, embedding kalitesi ve indeks ayarı sonucu belirler. ## Vektör Veritabanı ve RAG İlişkisi Vektör veritabanının bugünkü popülaritesinin ardındaki asıl itici güç RAG'dir (Retrieval-Augmented Generation, bilgi getirimiyle üretim). RAG, bir dil modelini yanıt üretmeden önce dış belgelerle besleyen mimaridir ve bu belgeleri bulan getirme (retrieval) katmanının kalbinde vektör veritabanı yer alır. Akış şöyledir: kurumun belgeleri parçalara bölünür, her parça embedding'e çevrilir ve vektör veritabanına yazılır. Kullanıcı soru sorduğunda soru da vektöre çevrilir ve vektör veritabanı, benzerlik araması ile en ilgili parçaları getirir; model yanıtı bu parçalara dayanarak yazar. Yani RAG'in doğruluğu, büyük ölçüde vektör veritabanının doğru parçayı getirmesine bağlıdır — yanlış getirme, en iyi modeli bile yanıltır. Bu mimarinin bütününü RAG nedir rehberinde, kurumsal uygulamasını ise kurumsal RAG sistemleri çözümünde ayrıntılı ele alıyoruz. RAG'i çalıştıran dil modelinin temeli için LLM nedir yazısına da bakabilirsiniz. ## Kurumsal Kullanım Alanları ve KVKK Vektör veritabanı yalnızca RAG için değildir; anlam temelli her problemde işe yarar. Kurumsal senaryolarda en yaygın kullanım alanları şunlardır: doğal dilde kurumsal doküman arama, benzer ürün/içerik önerisi, müşteri destek biletlerinin anlamsal eşleştirilmesi, tekrar eden kayıtların (deduplication) yakalanması ve görüntü işleme ile görsel benzerlik araması. Türkiye bağlamında kritik bir nokta vardır: embedding'ler orijinal metnin anlamını taşıdığı için kişisel veri içerebilir. Bir müşteri e-postasının embedding'i, o e-postanın anlamsal izini taşır. Bu yüzden vektör veritabanı da KVKK kapsamındadır ve baştan tasarlanmalıdır: kimin hangi kayda erişebileceğini belirleyen erişim kontrolü, meta veriyle filtreleme, silme talepleri için izlenebilirlik ve verinin yurt içinde konumlandırılması. Erişim kontrolü olmayan bir vektör veritabanı, tüm kurumsal bilgiyi ayrım gözetmeksizin açan bir kapıya dönüşebilir. Embedding'ler "geri döndürülemez" sanılır ama bu tam doğru değildir. Yeterli erişimle, bir embedding'den orijinal metnin bir kısmını yeniden inşa etmek (embedding inversion) mümkün olabilir. Bu nedenle embedding'leri "anonim veri" varsaymak yanlıştır; kişisel veri içeren vektörler de en az kaynak metin kadar korunmalıdır. ## Vektör Veritabanının Sınırları ve Yaygın Hatalar Vektör veritabanı güçlüdür ama her problemi çözmez; en sık hatalar onu yanlış yere koymaktan doğar: - **Her şeyi vektöre çevirmek:** Tam eşleşme, tarih aralığı veya sayısal filtre gereken sorgular için vektör araması gereksizdir; bu işler ilişkisel veritabanına aittir. En iyi sistemler ikisini birleştirir (hibrit arama). - **Zayıf embedding:** Vektör veritabanı ne kadar hızlı olursa olsun, kötü bir embedding modeli alakasız sonuçlar döndürür. Kalite modelden değil, önce embedding'den gelir. - **İndeks ayarını ihmal etmek:** HNSW gibi indekslerin hız/doğruluk parametreleri vardır; varsayılanlarla bırakmak ya yavaş ya isabetsiz arama demektir. - **Meta veriyi atlamak:** Yalnız benzerliğe güvenip erişim, tarih veya kategori filtresini es geçmek, hem yanlış hem de KVKK açısından riskli sonuçlar getirir. Özetle vektör veritabanı, doğru probleme uygulandığında ve iyi bir embedding ile beslendiğinde güçlüdür; yanlış yere konduğunda ise gereksiz karmaşıklık üretir. Ölçmeden ölçeklemeye geçmemek, en sağlam kuraldır. ## Sıkça Sorulan Sorular ### Vektör veritabanı ile klasik veritabanı arasındaki fark nedir? Klasik veritabanı tam eşleşme veya sıralama ile çalışır; "WHERE ad = 'Ahmet'" gibi kesin sorgular yapar. Vektör veritabanı ise anlamsal yakınlık arar: bir sorguya anlamca en yakın kayıtları, kelimeler birebir aynı olmasa bile bulur. İlki kesin veriye, ikincisi anlama dayanır. ### Vektör veritabanı embedding olmadan çalışır mı? Hayır. Vektör veritabanı vektörleri saklar ve arar ama vektörleri kendisi üretmez. Metni veya görseli anlamsal vektöre çeviren şey bir embedding modelidir. Önce embedding çıkarılır, sonra bu vektörler veritabanına yazılır; embedding kalitesi arama kalitesini doğrudan belirler. ### HNSW nedir ve neden önemlidir? HNSW (Hierarchical Navigable Small World), vektör veritabanlarında en yaygın kullanılan yaklaşık en yakın komşu indeksidir. Vektörleri çok katmanlı bir graf olarak düzenler ve milyonlarca kayıtta tek tek karşılaştırma yapmadan milisaniyeler içinde en yakın komşuları bulur. Hız ile doğruluk arasında ayarlanabilir bir denge sunar. ### RAG için vektör veritabanı şart mı? Pratikte evet. RAG'in getirme aşaması, soruya anlamca en yakın belge parçalarını bulmaya dayanır ve bunu ölçekli biçimde yapmanın yolu vektör veritabanıdır. Küçük veri kümelerinde bellek içi arama yeterli olabilir, ama üretim ölçeğinde vektör veritabanı standart bileşendir. ### Hangi vektör veritabanını seçmeliyim? Tek doğru cevap yoktur; seçim ölçek, gecikme hedefi, maliyet ve mevcut altyapıya bağlıdır. PostgreSQL kullanan bir ekip pgvector ile başlayabilir; yüksek ölçek ve düşük gecikme gerekiyorsa Qdrant, Milvus veya Weaviate düşünülür. Önemli olan ürün adı değil, doğru embedding ve indeks kurgusudur. ### Vektör veritabanında KVKK nasıl ele alınır? Embedding'ler orijinal metnin anlamını taşıdığı için kişisel veri içerebilir; bu yüzden vektör veritabanı da KVKK kapsamındadır. Erişim kontrolü, meta veriyle filtreleme, silme talepleri için kayıt izlenebilirliği ve verinin yurt içi konumlandırılması baştan planlanmalıdır. ## Özetle: Vektör Veritabanı Nedir? Özetle vektör veritabanı nedir sorusunun cevabı şudur: verinin anlamını temsil eden embedding'leri saklayan ve bir sorguya anlamca en yakın kayıtları benzerlik araması ile bulan özel bir veritabanı türü. HNSW gibi yaklaşık en yakın komşu indeksleri sayesinde milyonlarca vektörde milisaniyeler içinde arama yapar; klasik veritabanının tam eşleşmesini değil, anlam yakınlığını çözer. RAG ve anlamsal arama sistemlerinin temel bileşenidir. Temeli pekiştirmek için RAG nedir ve yapay zeka nedir rehberlerine göz atabilir, kurumsal bir anlamsal arama veya RAG sistemi için yapay zeka danışmanlığı ile başlayabilir, öğrenme yolculuğunuz için öğrenme merkezine bakabilirsiniz.