LLM Nasıl Çalışır?

LLM Nasıl Çalışır?

Güncellenme Tarihi:

July 16, 2026

LLM, yani Large Language Model (Büyük Dil Modeli), insan dilini anlayan ve üretebilen yapay zeka sistemleridir. ChatGPT, Claude, Gemini gibi araçlar LLM teknolojisine dayanır.

Bir LLM'in temel yeteneği şudur: Kendisinden önce gelen kelimelere bakarak, sonra gelmesi en olası kelimeyi tahmin etmek. Örneğin "Hava çok sıcak, bir bardak soğuk…" diye başlayan bir cümleden sonra "su" veya "limonata" kelimelerinin gelmesi yüksek olasılıktır.

Peki bir bilgisayar, milyarlarca kelime arasından nasıl "en olası" kelimeyi seçiyor? Bu soru, LLM'in nasıl çalıştığını anlamanın anahtarıdır.

Bu derste, bir LLM'in içinde neler döndüğünü adım adım keşfedeceğiz: Metinleri nasıl sayıya dönüştürüyor, anlamları nasıl öğreniyor ve nasıl yanıt üretiyor?

Bilgisayarlar Kelime Bilmez

Bilgisayarlar yalnızca sayılarla çalışabilir. Dolayısıyla LLM'e bir metin verdiğinizde, ilk yapılması gereken şey metni token adı verilen parçalara bölmek ve her parçayı bir sayıya çevirmektir. Bu işleme tokenization denir.

Bir token, genellikle bir kelime veya kelimenin bir parçasıdır. Örneğin:

"Merhaba dünya" → ["Mer", "haba", " dün", "ya"]
Her token → benzersiz bir sayı ID'sine eşlenir (örn. "Mer"=512, "haba"=8234)

Türkçe gibi dillerde ekler çok kullanıldığı için, bir kelime birden fazla token'a bölünebilir: "kitaplarımızdan" → ["kitap", "lar", "ımız", "dan"]

Neden Böyle Yapılır?

Çünkü her kelimeyi ayrı bir birim olarak ele almak yerine, parçalara ayırarak model hem yeni kelimeler türetebilir, hem de daha az hafıza kullanır. LLM'ler genellikle 30.000-100.000 farklı token tanır.

Sonuç olarak: "Bugün hava güzel" → [1234, 567, 89] gibi bir sayı dizisine dönüşür. Artık LLM, bu sayı dizisi üzerinde matematiksel işlemler yapabilir.

Sayıların Kendisi Yetmez

Token ID'leri (512, 8234 gibi) sadece etiketlerdir; aralarında hiçbir anlam ilişkisi yoktur. Örneğin "kedi" token'ı 100, "köpek" token'ı 101 olsa bile, bilgisayar bunların benzer hayvanlar olduğunu bilemez.

LLM'in anlamları öğrenebilmesi için, her token'ı embedding adı verilen çok boyutlu bir vektöre (sayı listesine) dönüştürür. Örneğin:

"kedi" → [0.2, -0.5, 0.8, 0.1, …] (binlerce sayı)
"köpek" → [0.3, -0.4, 0.7, 0.2, …]

Bu vektörler çok özel bir özelliğe sahiptir: Anlamca benzer kelimeler, matematiksel olarak yakın vektörlere sahiptir. "Kedi" ve "köpek" vektörleri birbirine yakınken, "kedi" ve "ağaç" vektörleri uzaktır.

Nasıl Öğrenilir?

Embedding'ler, modelin eğitimi sırasında milyonlarca cümle okuyarak öğrenilir. Model, hangi kelimelerin birlikte geçtiğini, hangi bağlamlarda kullanıldığını görür ve vektörleri buna göre ayarlar.

Örneğin "kedi" ve "sevimli" kelimeleri sık sık yan yana geçiyorsa, vektörleri birbirine yaklaşır. Sonuçta ortaya çıkan yapı, anlamsal bir harita gibidir: Her kelime, anlam uzayında bir noktadır.

Embedding sayesinde LLM, "Bu cümlede hayvan geçiyor" veya "Bu kelime olumlu bir duygu taşıyor" gibi soyut bilgileri sayısal olarak işleyebilir.

Her Kelime Tek Başına Değildir

Bir cümledeki kelimelerin anlamı, çevrelerindeki diğer kelimelere bağlıdır. Örneğin:

Yüzümü yıkadım. → Burada "yüz" = surat.
Denizde uzun süre yüzdüm. → Burada "yüz" = yüzmek.

Aynı kelime, farklı bağlamlarda farklı anlamlara gelir. LLM'in bu farkı anlaması için kelimelerin birbirine bakması gerekir. İşte burada Attention (Dikkat) Mekanizması devreye girer.

Attention Nasıl Çalışır?

Attention, bir token'ın cümledeki diğer tüm token'lara bakmasını ve "Hangisi benim anlamımı en çok etkiliyor?" sorusunu sormasını sağlar.

Sorgu: Şu anki kelime "Ben kimim?" diye sorar.
Anahtar: Diğer kelimeler "Biz şu özelliklere sahibiz" der.
Puan: Her kelime çifti arasında bir benzerlik puanı hesaplanır.
Ağırlıklı Toplam: Yüksek puan alan kelimeler, şu anki kelimenin anlamını daha çok etkiler.

Örneğin "Denizde yüz" cümlesinde "yüz" kelimesi "denizde" kelimesine yüksek dikkat verir; bu bağlamda "yüz" embedding'i "yüzmek" anlamına kayar.

LLM'ler, bu attention işlemini onlarca katman boyunca ve birden fazla "kafa" (attention head) ile tekrarlar. Böylece hem yakın kelimeler arasındaki, hem de cümlenin başı-sonu arasındaki uzak ilişkileri yakalayabilir.

Attention mekanizması, LLM'lerin neden "derin anlama" yeteneğine sahip olduğunun sırrıdır.

Tek Bir Adım Yetmez

Bir LLM, attention ve embedding işlemlerini onlarca, hatta yüzlerce kez tekrarlar. Her tekrara bir katman (layer) denir ve tüm bu katmanların oluşturduğu yapıya Transformer adı verilir.

Her katman şu adımları gerçekleştirir:

Multi-Head Attention: Token'lar birbirine bakar, ilişkiler kurulur (birden fazla "bakış açısı" ile).
Feed-Forward Ağ: Her token'ın vektörü, doğrusal olmayan matematiksel dönüşümlerden geçer. Bu, modelin karmaşık desenleri öğrenmesini sağlar.
Normalizasyon ve Rezidüel Bağlantılar: Eğitimi stabil tutmak için ara işlemler.

Her katman, bir önceki katmanın çıktısını alır ve daha soyut, daha yüksek seviyeli bir temsil üretir:

İlk katmanlar: Gramer, kelime yapısı, basit bağlamlar
Orta katmanlar: Cümle yapısı, kim-kime-ne yaptı ilişkileri
Son katmanlar: Anlam, mantık, çıkarım

Örneğin GPT-4 gibi büyük modeller, 100'den fazla katmana sahiptir. Her katman, bir öncekinden daha zengin bir anlam temsili oluşturur.

Transformer mimarisi, LLM'lerin "derin" olmasını sağlar—yalnızca kelime eşleştirme değil, mantık yürütme, çıkarım yapma gibi yetenekler buradan gelir.

Tüm İşlemlerden Sonra: Karar Zamanı

Onlarca katmandan geçtikten sonra, model her token için zenginleştirilmiş bir vektöre sahip olur. Şimdi asıl soru: "Bir sonraki token ne olmalı?"

LLM, son katmanın çıktısını alır ve tüm token sözlüğü (30.000-100.000 token) üzerinden bir olasılık dağılımı hesaplar:

"su" → %35 olasılık
"limonata" → %18 olasılık
"çay" → %12 olasılık
"kitap" → %0.01 olasılık

Bu hesaplama, softmax adı verilen bir matematiksel fonksiyonla yapılır. Softmax, ham sayısal puanları 0-1 arasında olasılıklara çevirir ve toplamları %100 olur.

Kelime Nasıl Seçilir?

Model, en yüksek olasılıklı kelimeyi doğrudan seçmez. Bunun yerine:

Temperature (sıcaklık): Rastgelelik derecesi. Düşük temperature → tahmin edilebilir, yüksek → yaratıcı.
Top-p / Top-k: En olası birkaç aday arasından rastgele seçim.

Örneğin temperature yüksekse, model %18 olasılıklı "limonata" kelimesini de seçebilir ve böylece daha özgün, çeşitli yanıtlar üretir.

Seçilen token, cümleye eklenir ve tüm süreç tekrar başlar: Yeni cümle tekrar model içinden geçer, bir sonraki token tahmin edilir… Bu döngü, cümle sonu token'ı (örn. nokta) gelene kadar devam eder.

Modeli Akıllı Yapan Şey: Eğitim

Bir LLM, yukarıdaki tüm mekanizmaları (embedding, attention, transformer katmanları) içerir, ama ilk başta hiçbir şey bilmez. Parametre değerleri rastgeledir. Eğitim süreci, bu parametreleri doğru ayarlar.

Eğitim Nasıl Çalışır?

LLM'ler, milyarlarca kelimelik metin üzerinde eğitilir (kitaplar, makaleler, web siteleri). Eğitim sırasında model:

Bir sonraki kelimeyi tahmin etmeye çalışır.
Yanlış tahmin ederse: Hata hesaplanır.
Backpropagation: Hata, tüm katmanlar boyunca geriye yayılır ve parametreler (ağırlıklar) küçük adımlarla düzeltilir.
Bu süreç milyonlarca kez tekrar edilir.

Örneğin model "Hava çok sıcak, bir bardak…" gördüğünde "kitap" tahmini yaparsa, hata çok yüksektir. Model, bir dahaki sefere "su" veya "limonata" gibi daha mantıklı token'ları seçmesi için ağırlıklarını günceller.

Sonuç: Dil Modellemesi Yeteneği

Milyarlarca örnek gördükten sonra, model:

Dil bilgisi kurallarını öğrenir ("gitti" sonrası fiil değil isim gelir)
Genel bilgi biriktir ("Paris Fransa'nın başkentidir")
Mantık yürütme becerileri kazanır ("Eğer yağmur yağıyorsa, zemin ıslanır")

Eğitim, LLM'in tüm "bilgeliği"nin kaynağıdır. Model, internet ve kitaplardaki milyonlarca cümleyi sindirerek dil, mantık ve genel kültürü öğrenir.

Temel Eğitimden Sonra: İyileştirme

Milyarlarca kelime üzerinde eğitilen bir LLM, dil yapısını iyi bilir ama her zaman yararlı, doğru veya güvenli yanıtlar üretmez. Bu yüzden modeller, ek bir aşamadan geçer: Fine-tuning (ince ayar).

Fine-Tuning Nedir?

Fine-tuning, modeli belirli bir göreve veya davranışa özelleştirmektir. İki yaygın yöntem vardır:

Supervised Fine-Tuning: İnsan uzmanlar, binlerce örnek soru-cevap çifti oluşturur (örn. "LLM nedir?" → kaliteli bir açıklama). Model bu örnekler üzerinde ek eğitim alır.
RLHF (Reinforcement Learning from Human Feedback): Model birkaç farklı yanıt üretir, insanlar hangisinin daha iyi olduğunu işaretler. Model, beğenilen yanıtları daha sık üretmeyi öğrenir.

RLHF Adımları

Model bir soruya birden fazla yanıt üretir.
İnsanlar yanıtları sıralar (en iyiden en kötüye).
Bir ödül modeli eğitilir: Hangi yanıt türleri beğeniliyor?
LLM, ödül modelinden yüksek puan almak için optimize edilir.

Sonuç: Model, yalnızca dil bilgisi değil, yararlılık, doğruluk, nezaket, güvenlik gibi insan tercihlerini de öğrenir.

ChatGPT gibi asistanların neden "yardımcı" ve "kibar" davrandığının sebebi RLHF'tir. Temel eğitim dil yapısını, fine-tuning ise davranış şeklini öğretir.

Tüm Süreci Bir Arada Görelim

Bir kullanıcı "LLM nedir?" diye sorduğunda, arka planda şunlar olur:

Tokenization: Soru token'lara bölünür ve sayılara çevrilir.
Embedding: Her token, anlamsal vektöre dönüşür.
Transformer Katmanları: Token'lar onlarca katmandan geçer; her katmanda attention mekanizması ile birbirlerine bakar, ilişkiler kurulur, daha derin temsiller oluşur.
Çıktı Katmanı: Son katmandan çıkan vektör, tüm token sözlüğü üzerinden olasılık dağılımı üretir.
Token Seçimi: En olası (veya temperature parametresine göre yaratıcı) token seçilir ve yanıta eklenir.
Tekrar: Yeni token eklenir, tüm süreç tekrarlanır… Cümle tamamlanana kadar.

Neden Bu Kadar Güçlü?

Ölçek: Milyarlarca parametre, trilyonlarca token eğitim verisi.
Attention: Uzak ve yakın bağlamsal ilişkileri eşzamanlı işleyebilme.
Transfer Learning: Bir kez genel dil öğrendikten sonra, birçok farklı göreve (çeviri, özetleme, kod yazma) uyarlanabilme.

Sınırlamalar

Gerçeği değil, olasılığı modeller: Bazen mantıklı görünen ama yanlış bilgiler üretebilir (hallucination).
Güncel bilgiye erişim yok: Eğitim verilerindeki tarih sonrası olayları bilmez (eklentiler olmadıkça).
Anlama mı, taklit mi?: Gerçekten "anlıyor" mu, yoksa çok iyi bir istatistiksel model mi? Felsefi bir tartışma.

LLM'ler, insan dilinin istatistiksel desenlerini öğrenen, muazzam ölçekli matematiksel sistemlerdir. Basitçe söylemek gerekirse: Bir sonraki kelimeyi tahmin etmeyi öğrenerek, dil, mantık ve bilgiyi modellerler.