LLM Dünyasına Giriş - Transformer Mimarisi
Transformer Katmanları Nasıl Çalışır?
Giriş
Transformer mimarisi, 2017 yılında Ashish Vaswani ve ekibinin “Attention is All You Need” makalesiyle tanıtıldı. Bu yapı, RNN ve LSTM gibi sıralı modellerin yavaşlığını ve uzun bağımlılıkları öğrenmedeki zorluklarını ortadan kaldırarak doğal dil işleme (NLP) alanında devrim yarattı. Günümüzde GPT, BERT, T5 ve benzeri tüm büyük dil modelleri bu mimariyi temel alır.
Transformer’ın Temel Mantığı
Transformer, dizilerdeki (örneğin cümledeki kelimeler) öğeleri eşzamanlı olarak işler. Bu, onu RNN’lerden çok daha hızlı yapar.
Ana yenilik, attention (dikkat) mekanizmasıdır: her kelime, diğer tüm kelimelere bakarak “hangi kelimelere daha çok dikkat etmeliyim?” sorusuna cevap verir.
Bu sayede model, cümledeki anlam ilişkilerini (bağlam, özne, nesne, zaman, duygusal ton vb.) öğrenir. Bir kelimeyi işlerken diğer kelimelerle arasındaki ilişkileri değerlendirir.
Mimari Yapı
Bir önceki yazıda bahsettiğimiz gibi Transformer iki ana bileşenden oluşur:
🧩 Encoder
Girdi dizisini işler.
Her kelimeye embedding uygulanır.
Ardından positional encoding eklenir (kelimenin cümledeki konum bilgisini taşır).
Self-Attention katmanları ile her kelimenin diğerleriyle ilişkisi hesaplanır.
Sonuçlar Feed Forward Network (FFN) katmanına aktarılır.
🧠 Decoder
Encoder çıktısını alır.
Kendi önceki çıktılarıyla masked self-attention uygular (geleceği görmez).
Encoder’dan gelen bilgiyle encoder-decoder attention kurar.
Son katmanda olasılıksal çıktı üretir (örneğin bir sonraki kelime).
Embedding Katmanı
Embedding katmanı, kelimeleri veya token’ları sayılara çevirir. Model kelimeleri doğrudan anlayamaz; bu yüzden her kelime, anlamını temsil eden bir vektör hâline getirilir.
“Merhaba” → [0.25, 0.71, -0.33, ...]
“Dünya” → [0.30, 0.65, -0.40, ...]
Bu vektörler eğitim sırasında model tarafından öğrenilir.
Embedding katmanından sonra, model bu kelimelere positional encoding ekleyerek sıralama bilgisini dahil eder.
Positional Encoding
Transformer sıralı çalışmadığı için, modelin kelimelerin cümledeki yerini bilmesi gerekir.
Bu yüzden her kelimeye, pozisyon bilgisini temsil eden bir vektör eklenir (örneğin “merhaba” 1. kelime, “dünya” 2. kelime gibi).
Bu pozisyon bilgisi, sinüs ve kosinüs fonksiyonlarının birleşimiyle üretilir.
Bu sayede model, kelimelerin yerini ve sıralarını ayırt eder, anlamı doğru şekilde çıkarır.
Self-Attention Katmanı
Transformer’ın en kritik kısmıdır.
Self-Attention, her kelimenin (token’ın) aynı cümledeki diğer kelimelerle olan ilişkisini bulmaya çalışır. Hem encoder’da hem decoder’da yer alır.
Birden fazla self-attention işlemi bir araya geldiğinde Multi-Head Attention katmanı oluşur. Bu, modelin farklı ilişki türlerini aynı anda öğrenmesini sağlar (örneğin anlam, zaman, bağlam).
Örnek bir LLM modelinin katmanlarını görebilmek için şu görselleştirme sitesine bakabilirsiniz.
Self-Attention katmanında embedding’den gelen veri üzerinde bazı matris işlemleri yapılır ve üç ana vektör hesaplanır:
Q (Query): “Ben kime dikkat etmeliyim?” — yani hangi kelimeler benim için önemli.
K (Key): “Bana dikkat edilmeli mi?” — yani diğer kelimeler için ne kadar önemliyim.
V (Value): “Benim anlamım nedir?” — yani kelimenin asıl bilgisini taşır.
Kısaca:
👉 Q soruyu sorar,
👉 K cevabı belirler,
👉 V bilgiyi taşır.
Bu üçü birlikte çalışarak modelin kelimeler arasındaki ilişkileri anlamasını sağlar.
Tüm bu işlemler — Q, K, V oluşturma → skor hesaplama → softmax → ağırlıklı ortalama — Self-Attention katmanının içinde gerçekleşir.
Bağlamsal İlişki Örneği
Örneğin “kedi” ve “balık” kelimelerini ele alalım:
“Kedi” ve “balık” önce embedding ile sayısal vektörlere dönüştürülür.
Ardından Self-Attention katmanı bu iki kelime arasındaki ilişkiyi inceler.
Q ve K çarpımıyla “kedi balıkla ilişkili mi?” sorusuna cevap bulur.
Eğer bu ilişki yüksekse, model “kedi”nin anlamını “balık”tan gelen bilgiyle günceller.
Böylece model bu iki kelimenin bağlamsal ilişkisini öğrenmiş olur.
Bu dikkat hesaplamaları sırasında model, öğrenilmiş ağırlık matrislerinden yararlanır.
✅ Kısa Özet
Embedding: Kelimeleri sayılara çevirir.
Positional Encoding: Sıra bilgisini ekler.
Self-Attention: Kelimeler arasındaki ilişkileri bulur.
Decoder: Öğrenilen bilgilere göre yanıt üretir.
🍏 Sonuç
Transformer mimarisi, derin öğrenme tarihinde bir dönüm noktası olmuştur.
RNN ve LSTM modellerinin sıralı yapısına göre çok daha hızlı ve verimli çalışarak dilin bağlamsal yapısını çözmeyi başarmıştır.
Self-Attention mekanizması sayesinde model, cümledeki her kelimenin diğerleriyle olan ilişkisini anlayabilir.
Bu sayede metinleri, anlamı kaybetmeden paralel biçimde işler.
Günümüzde GPT, BERT, T5 gibi dev modellerin başarısının temelinde Transformer yapısı vardır.
Kısacası Transformer, sadece bir mimari değil, modern yapay zekânın dil anlama yeteneğinin çekirdeğidir.
Kaynaklar:
Yeni bilgiler geldikçe makaleyi güncellemeye devam edeceğim. Serinin devamını kaçırmamak için abone olmayı veya beni takip etmeyi unutma! Yapay zeka dünyasında vektör veritabanları, fine tuning, RAG, AI agents, MCP ve Huggingface üzerine paylaşımlar yapmaya devam edeceğim.





