İçeriğe geç

Prompt Compression ve Long-Context Optimizasyonu

Uzun bağlam ve uzun prompt'ları sıkıştırma teknikleri: LLMLingua, summarization-first, structured pruning.

Şükrü Yusuf KAYA
9 dakikalık okuma
İleri

Prompt Compression

Prompt ne kadar uzun, o kadar pahalı + yavaş + lost-in-the-middle riski. Sıkıştırma teknikleri:
Token-level compression. ~%50 reduction, kalite kaybı minimal.
from llmlingua import PromptCompressor pc = PromptCompressor(model_name="microsoft/llmlingua-2-xlm-roberta-large-meetingbank") result = pc.compress_prompt( long_prompt, target_token=2000, use_sentence_level_filter=True ) print(f"Original: {result['origin_tokens']}") print(f"Compressed: {result['compressed_tokens']}") print(result['compressed_prompt'])
Pratik: Production'da bu 3 tekniği birleştir. 5K → 1.5K token sıkıştırma rutindir.

Yorumlar & Soru-Cevap

(0)
Yorum yazmak için giriş yap.
Yorumlar yükleniyor...

İlgili İçerikler