Tokenizasyon (Tokenization): Büyük Dil Modellerinin (LLM) Veri İşleme Mimarisi
Doğal Dil İşleme (NLP) ve Büyük Dil Modelleri (Large Language Models - LLM) bağlamında Token, metinsel (tekstüel) verinin modelin nöral ağları tarafından işlenebilecek en küçük anlamsal atom yapılarına (sub-word birimlerine) ayrıştırılmış halidir. Yapay zeka sistemleri metinleri karakter veya kelime tabanlı değil, uyguladıkları algoritmik tokenizasyon yönergelerine göre işler. Bu mimari, modellerin hem bağlamı (context) anlamlandırma kapasitesini hem de API altyapısındaki hesaplama işlem gücünü (compute) ve maliyetini doğrudan tayin eder.
Linguistik Asimetri ve Tokenizasyon
Mevcut tokenizasyon algoritmaları (örneğin OpenAI'ın tiktoken/cl100k_base kodlayıcısı) yoğunlukla İngilizce korpuslar üzerinde eğitildiklerinden, İngilizce metinlerde 1 token yaklaşık 4 karakteri (veya 0.75 kelimeyi) temsil edebilir. Ancak Türkçe gibi sondan eklemeli (agglutinative) dillerde morfolojik yapı gereği kelimeler daha fazla sub-word'e (alt parçaya) ayrılır. Bu yapısal asimetri, Türkçe promptların işlem hacminin (token count) artmasına ve birim maliyette dezavantaja neden olur.
Bağlam Penceresi (Context Window) Sınırları
Bağlam penceresi, modelin tek bir çıkarım (inference) sürecinde hafızasında tutabileceği ve işleyebileceği maksimum token hacmini (Input + Output toplamı) ifade eder. GPT-4o serisinde bu limit 128K token seviyesindeyken, Gemini 1.5 Pro mimarisinde Retrieval-Augmented Generation (RAG) olmadan tek seferde 2 Milyon tokene (yaklaşık 1.5 milyon kelime) kadar veri ingest edilebilir (veri beslemesi yapılabilir).
API Entegrasyonlarında Bütçe Optimizasyonu Yönergeleri
Üretken yapay zeka (Generative AI) modellerini uygulamalara entegre eden geliştiriciler için token hesaplaması, DevOps ve FinOps süreçlerinin temelidir:
- Girdi (Input) ve Çıktı (Output) Asimetrisi: Nöral ağların metin üretimi (generation) süreci, otoregresif bir mekanizmayla çalıştığı için, her yeni token tahmini ciddi işlem gücü gerektirir. Bu sebeple Output (Completion) tokenları, Input (Prompt) tokenlarına kıyasla genellikle 3-4 kat daha yüksek fiyattan ücretlendirilir.
- Prompt Mühendisliği ile Maliyet Tasarrufu: İstek (prompt) kurgusunda gereksiz kelimelerden (stop words) arındırılmış yalın komutlar kullanmak, API faturalarında binlerce dolarlık arbitraj yaratabilir.
- Model Hiyerarşisi Seçimi: Daha az karmaşık (rutin OCR, veri sınıflandırma) görevler için GPT-4o yerine GPT-4o Mini veya Claude Haiku gibi hafifletilmiş modeller konumlandırmak, sonuç kalitesinden feragat etmeksizin %90'a varan maliyet tasarrufu sağlar.
Geliştiriciler İçin Teknik Not: Deterministik Tokenizasyon
Hesaplama aracımız logaritmik yaklaşımlar kullanarak istatistiksel bir token hacmi sunar (heuristics). Canlı (Production) API ortamlarında kesin maliyet faturalandırması için Python'daki tiktoken kütüphanesi kullanılmalı ve modelin nativ Byte-Pair Encoding (BPE) sözlüğü (vocabulary) baz alınarak deterministik bir token analizi yürütülmelidir.
Sıkça Sorulan Sorular
1 Token kaç karakterdir?
Standart bir kabul olarak İngilizce'de 1 token yaklaşık 4 karakterdir. Türkçe'de bu sayı 3-3.5 karaktere kadar düşebilir.
Output tokenları neden daha pahalı?
Yapay zeka modelleri metni üretirken her bir adımı tahmin ederek oluşturduğu için 'Yazma' (Output) işlemi 'Okuma' (Input) işlemine göre daha fazla işlemci gücü gerektirir.
Türkçe karakterler daha fazla mı token harcar?
Evet, 'ğ, ü, ş, i, ö, ç' gibi karakterler bazı eski tokenizer sistemlerinde birden fazla token olarak sayılabilir, bu da Türkçe promptların biraz daha maliyetli olmasına yol açabilir.