LLM, yani Large Language Model (Büyük Dil Modeli), insan dilini anlayan ve üretebilen yapay zeka sistemleridir. ChatGPT, Claude, Gemini gibi araçlar LLM teknolojisine dayanır.
Bir LLM'in temel yeteneği şudur: Kendisinden önce gelen kelimelere bakarak, sonra gelmesi en olası kelimeyi tahmin etmek. Örneğin "Hava çok sıcak, bir bardak soğuk…" diye başlayan bir cümleden sonra "su" veya "limonata" kelimelerinin gelmesi yüksek olasılıktır.
Peki bir bilgisayar, milyarlarca kelime arasından nasıl "en olası" kelimeyi seçiyor? Bu soru, LLM'in nasıl çalıştığını anlamanın anahtarıdır.
Bu derste, bir LLM'in içinde neler döndüğünü adım adım keşfedeceğiz: Metinleri nasıl sayıya dönüştürüyor, anlamları nasıl öğreniyor ve nasıl yanıt üretiyor?
Bilgisayarlar yalnızca sayılarla çalışabilir. Dolayısıyla LLM'e bir metin verdiğinizde, ilk yapılması gereken şey metni token adı verilen parçalara bölmek ve her parçayı bir sayıya çevirmektir. Bu işleme tokenization denir.
Bir token, genellikle bir kelime veya kelimenin bir parçasıdır. Örneğin:
Türkçe gibi dillerde ekler çok kullanıldığı için, bir kelime birden fazla token'a bölünebilir: "kitaplarımızdan" → ["kitap", "lar", "ımız", "dan"]
Çünkü her kelimeyi ayrı bir birim olarak ele almak yerine, parçalara ayırarak model hem yeni kelimeler türetebilir, hem de daha az hafıza kullanır. LLM'ler genellikle 30.000-100.000 farklı token tanır.
Sonuç olarak: "Bugün hava güzel" → [1234, 567, 89] gibi bir sayı dizisine dönüşür. Artık LLM, bu sayı dizisi üzerinde matematiksel işlemler yapabilir.
Token ID'leri (512, 8234 gibi) sadece etiketlerdir; aralarında hiçbir anlam ilişkisi yoktur. Örneğin "kedi" token'ı 100, "köpek" token'ı 101 olsa bile, bilgisayar bunların benzer hayvanlar olduğunu bilemez.
LLM'in anlamları öğrenebilmesi için, her token'ı embedding adı verilen çok boyutlu bir vektöre (sayı listesine) dönüştürür. Örneğin:
Bu vektörler çok özel bir özelliğe sahiptir: Anlamca benzer kelimeler, matematiksel olarak yakın vektörlere sahiptir. "Kedi" ve "köpek" vektörleri birbirine yakınken, "kedi" ve "ağaç" vektörleri uzaktır.
Embedding'ler, modelin eğitimi sırasında milyonlarca cümle okuyarak öğrenilir. Model, hangi kelimelerin birlikte geçtiğini, hangi bağlamlarda kullanıldığını görür ve vektörleri buna göre ayarlar.
Örneğin "kedi" ve "sevimli" kelimeleri sık sık yan yana geçiyorsa, vektörleri birbirine yaklaşır. Sonuçta ortaya çıkan yapı, anlamsal bir harita gibidir: Her kelime, anlam uzayında bir noktadır.
Embedding sayesinde LLM, "Bu cümlede hayvan geçiyor" veya "Bu kelime olumlu bir duygu taşıyor" gibi soyut bilgileri sayısal olarak işleyebilir.
Bir cümledeki kelimelerin anlamı, çevrelerindeki diğer kelimelere bağlıdır. Örneğin:
Aynı kelime, farklı bağlamlarda farklı anlamlara gelir. LLM'in bu farkı anlaması için kelimelerin birbirine bakması gerekir. İşte burada Attention (Dikkat) Mekanizması devreye girer.
Attention, bir token'ın cümledeki diğer tüm token'lara bakmasını ve "Hangisi benim anlamımı en çok etkiliyor?" sorusunu sormasını sağlar.
Örneğin "Denizde yüz" cümlesinde "yüz" kelimesi "denizde" kelimesine yüksek dikkat verir; bu bağlamda "yüz" embedding'i "yüzmek" anlamına kayar.
LLM'ler, bu attention işlemini onlarca katman boyunca ve birden fazla "kafa" (attention head) ile tekrarlar. Böylece hem yakın kelimeler arasındaki, hem de cümlenin başı-sonu arasındaki uzak ilişkileri yakalayabilir.
Attention mekanizması, LLM'lerin neden "derin anlama" yeteneğine sahip olduğunun sırrıdır.
Bir LLM, attention ve embedding işlemlerini onlarca, hatta yüzlerce kez tekrarlar. Her tekrara bir katman (layer) denir ve tüm bu katmanların oluşturduğu yapıya Transformer adı verilir.
Her katman şu adımları gerçekleştirir:
Her katman, bir önceki katmanın çıktısını alır ve daha soyut, daha yüksek seviyeli bir temsil üretir:
Örneğin GPT-4 gibi büyük modeller, 100'den fazla katmana sahiptir. Her katman, bir öncekinden daha zengin bir anlam temsili oluşturur.
Transformer mimarisi, LLM'lerin "derin" olmasını sağlar—yalnızca kelime eşleştirme değil, mantık yürütme, çıkarım yapma gibi yetenekler buradan gelir.
Onlarca katmandan geçtikten sonra, model her token için zenginleştirilmiş bir vektöre sahip olur. Şimdi asıl soru: "Bir sonraki token ne olmalı?"
LLM, son katmanın çıktısını alır ve tüm token sözlüğü (30.000-100.000 token) üzerinden bir olasılık dağılımı hesaplar:
Bu hesaplama, softmax adı verilen bir matematiksel fonksiyonla yapılır. Softmax, ham sayısal puanları 0-1 arasında olasılıklara çevirir ve toplamları %100 olur.
Model, en yüksek olasılıklı kelimeyi doğrudan seçmez. Bunun yerine:
Örneğin temperature yüksekse, model %18 olasılıklı "limonata" kelimesini de seçebilir ve böylece daha özgün, çeşitli yanıtlar üretir.
Seçilen token, cümleye eklenir ve tüm süreç tekrar başlar: Yeni cümle tekrar model içinden geçer, bir sonraki token tahmin edilir… Bu döngü, cümle sonu token'ı (örn. nokta) gelene kadar devam eder.
Bir LLM, yukarıdaki tüm mekanizmaları (embedding, attention, transformer katmanları) içerir, ama ilk başta hiçbir şey bilmez. Parametre değerleri rastgeledir. Eğitim süreci, bu parametreleri doğru ayarlar.
LLM'ler, milyarlarca kelimelik metin üzerinde eğitilir (kitaplar, makaleler, web siteleri). Eğitim sırasında model:
Örneğin model "Hava çok sıcak, bir bardak…" gördüğünde "kitap" tahmini yaparsa, hata çok yüksektir. Model, bir dahaki sefere "su" veya "limonata" gibi daha mantıklı token'ları seçmesi için ağırlıklarını günceller.
Milyarlarca örnek gördükten sonra, model:
Eğitim, LLM'in tüm "bilgeliği"nin kaynağıdır. Model, internet ve kitaplardaki milyonlarca cümleyi sindirerek dil, mantık ve genel kültürü öğrenir.
Milyarlarca kelime üzerinde eğitilen bir LLM, dil yapısını iyi bilir ama her zaman yararlı, doğru veya güvenli yanıtlar üretmez. Bu yüzden modeller, ek bir aşamadan geçer: Fine-tuning (ince ayar).
Fine-tuning, modeli belirli bir göreve veya davranışa özelleştirmektir. İki yaygın yöntem vardır:
Sonuç: Model, yalnızca dil bilgisi değil, yararlılık, doğruluk, nezaket, güvenlik gibi insan tercihlerini de öğrenir.
ChatGPT gibi asistanların neden "yardımcı" ve "kibar" davrandığının sebebi RLHF'tir. Temel eğitim dil yapısını, fine-tuning ise davranış şeklini öğretir.
Bir kullanıcı "LLM nedir?" diye sorduğunda, arka planda şunlar olur:
LLM'ler, insan dilinin istatistiksel desenlerini öğrenen, muazzam ölçekli matematiksel sistemlerdir. Basitçe söylemek gerekirse: Bir sonraki kelimeyi tahmin etmeyi öğrenerek, dil, mantık ve bilgiyi modellerler.