🎯 Gelişmiş · Ders 1

Girdiden Çıktıya

Bir metin parçası yapay zekaya girdiğinde gerçekte ne olur? Token'lardan olasılık dağılımlarına uzanan yolculuk.

Bir kelimeyi işlemek ile onu anlamak arasındaki fark nedir?

2023 yılında New York'lu avukat Steven Schwartz, bir dava dilekçesinde altı farklı emsal karar olduğunu ileri sürdü. Hâkim, bu kararların gerçek olup olmadığını sorguladığında ortaya çıkan tablo çarpıcıydı: tüm kararlar ChatGPT tarafından üretilmişti ve hiçbiri mahkeme kayıtlarında mevcut değildi. Schwartz sonradan "yapay zekanın gerçekleri doğrulamak için başvurulabilecek bir veritabanı olduğunu düşündüm" dedi. Federal mahkeme 5.000 dolar para cezasına hükmetti. Bu olay, bir dil modelinin nasıl çalıştığını —yani girdiden çıktıya giden sürecin istatistiksel doğasını— anlamanın ne denli kritik olduğunu tüm dünyaya gösterdi.

Token: Dilin En Küçük Birimi

Büyük dil modelleri (BDM), metni doğrudan harf harf işlemez. Bunun yerine metni token adı verilen parçalara böler. Token, bir harf, bir hece, bir kelime ya da sık kullanılan bir kelime öbeği olabilir. GPT-4 için "İstanbul" kelimesi tek bir token iken "alışveriş merkezi" iki veya üç token'a bölünebilir. Tokenizasyon, modelin söz dağarcığını yönetilebilir bir boyuta indirger —tipik olarak 50.000 ile 100.000 arasındaki bir token sözlüğü kullanılır.

Girdiniz token'lara bölündükten sonra her token, yüksek boyutlu bir vektöre —sayısal bir koordinat kümesine— dönüştürülür. Bu işleme gömme (embedding) denir. Benzer anlamlı kelimeler bu uzayda birbirine yakın konumlanır: "kral" ile "kraliçe" arasındaki vektör mesafesi, "kral" ile "otomobil" arasındakinden çok daha küçüktür.

Temel Kavram

Tokenizasyon deterministiktir — aynı girdi her zaman aynı token dizisini üretir. Ancak bu token dizisinden üretilen çıktı, sıcaklık (temperature) parametresi nedeniyle stokastiktir (rastlantısaldır). Bu ikisi arasındaki ayrım, Schwartz davasını anlamak için kritiktir.

İşleme Hattı: Adım Adım

Bir BDM'nin girdi-çıktı hattı kabaca şu aşamalardan oluşur:

Tokenizasyon: Ham metin, token kimliklerine (integer sayılara) dönüştürülür.
Gömme katmanı: Her token kimliği, yüksek boyutlu bir vektöre eşlenir (GPT-4 için 12.288 boyut).
Transformatör blokları: Dikkat (attention) mekanizması aracılığıyla token'lar birbirleriyle ilişkilendirilir; bağlam oluşturulur.
Çıkış katmanı (logit): Model, sözlükteki her token için bir ham skor (logit) üretir.
Softmax: Ham skorlar olasılık dağılımına dönüştürülür; toplamları 1'dir.
Örnekleme: Sıcaklık parametresine göre bir token seçilir ve bu süreç tekrarlanır.

Schwartz davası bu hattın son adımını gözler önüne serer: model, daha önce gördüğü binlerce hukuki belgeye dayanarak istatistiksel olarak "makul" görünen bir karar adı üretir. Ancak bu olasılık yüksekliği, gerçekliği garanti etmez.

Çıktı: Anlamın Değil, Olasılığın Ürünü

Burada kavranması gereken en önemli nokta şudur: BDM'ler dünyayı "anlamaz". Model, "bu sonraki token için en yüksek olasılıklı seçenek hangisi?" sorusunu tekrar tekrar yanıtlar. Eğer eğitim verilerindeki hukuki metinlerde "Baskın v. Devlet" gibi yapılar sıkça görüldüyse, model bu yapıyı güven içinde üretir —böyle bir kararın var olup olmadığını bilmeden.

Sonuç

Model çıktısı, doğruluğun değil istatistiksel tutarlılığın ölçüsüdür. Bu ayrım, yapay zekayı araç olarak kullanan her profesyonelin içselleştirmesi gereken temel ilkedir.

Ders 1 Testi

Girdiden çıktıya işleme sürecini ne kadar kavradınız?

1. Bir büyük dil modelinde "token" nedir?

✓ Doğru! Token, metni sayısal işleme uygun hâle getiren en küçük birimdir. Aynı metin her seferinde aynı token'lara bölünür.

✗ Yanlış. Token, modelin metni işlediği temel birimdir: bir harf, bir hece ya da bir kelime olabilir. Zaman birimiyle ilgisi yoktur.

2. Avukat Schwartz davasında ChatGPT'nin ürettiği emsal kararlarla ilgili temel sorun neydi?

✓ Kesinlikle! Bu "halüsinasyon" olgusunun klasik bir örneğidir. Model, gerçekliği değil olasılığı optimize eder.

✗ Yanlış. Model, hiç var olmayan emsal kararlar üretti. Bu, BDM'lerin gerçekliği değil istatistiksel tutarlılığı optimize ettiğinin somut kanıtıdır.

3. Gömme (embedding) işleminin temel amacı nedir?

✓ Doğru! Gömme, token'ları matematiksel uzayda konumlandırır; benzer anlamlı kelimeler bu uzayda birbirine yakın yer alır.

✗ Yanlış. Gömme, her token'ı sayısal bir vektöre dönüştürür; böylece model token'lar arasındaki anlamsal ilişkileri matematiksel olarak işleyebilir.

Lab 1: Token ve İşleme Hattı

Yapay zeka asistanıyla tokenizasyon ve gömme kavramlarını keşfedin.

Görev

Bu laboratuvarda bir BDM'nin girdi işleme hattını —tokenizasyon, gömme ve softmax aşamalarını— asistanla tartışacaksınız.

Asistanın açılış sorusunu yanıtlayın.
"İstanbul" ve "alışveriş merkezi" gibi Türkçe kelimelerin nasıl token'lara ayrıldığını sorun.
Gömme uzayında hangi kelimelerin birbirine yakın konumlandığını araştırın.

Öneri: "Bir cümledeki kelimeler token'lara nasıl ayrılır? Türkçe'ye özgü zorluklar var mı?"

🧠 Token ve İşleme Hattı Asistanı Modül 7 · Lab 1

🎯 Gelişmiş · Ders 2

Tahmin Oyunu

Büyük dil modelleri temelde olasılık makineleridir. Bir sonraki token'ı tahmin etmek, görünüşte basit ama son derece güçlü bir eğitim hedefidir.

Bir sonraki kelimeyi tahmin etmek, neden bu kadar güçlü bir öğrenme hedefidir?

OpenAI'nin 2020'de yayımladığı GPT-3 teknik raporu, modelin tek bir eğitim hedefiyle —bir sonraki token'ı tahmin etmek— çeviri, özetleme, kod yazma ve matematik gibi görevlerde hiç görmediği örneklerde bile başarı gösterdiğini ortaya koydu. Bu "ortaya çıkış (emergence)" fenomeni araştırmacıları şaşırttı: kimse modele bu görevleri öğretmemişti. Yalnızca 300 milyar token'lık ham metinden öğrenilmiş sonraki-token tahmini, beklenmedik yetenekler doğurmuştu. Bu bulgu, yapay zeka araştırmalarının yönünü köklü biçimde değiştirdi.

Öz-Denetimli Öğrenme

BDM'lerin eğitimi, öz-denetimli öğrenme (self-supervised learning) adı verilen bir paradigmaya dayanır. İnsanların etiketlediği veriye gerek yoktur; metin kendi içinde eğitim sinyalini barındırır. Bir cümle verildiğinde, model her adımda bir sonraki token'ı tahmin etmeye çalışır, tahminiyle gerçeği karşılaştırır ve hata oranını (kayıp fonksiyonu / loss) azaltmak için ağırlıklarını günceller.

Bu süreç trilyonlarca token üzerinde milyarlarca kez tekrarlandığında, model dilin derin yapısal örüntülerini —sözdizimi, anlamsal ilişkiler, nedensellik kalıpları— içselleştirir. GPT-3'ün 175 milyar parametresi, temelde bu tekrarlı tahmin döngüsünün bir ürünüdür.

Eğitim Hedefi

Teknik adıyla bu hedef negatif log-olabilirlik minimizasyonu'dur: model, doğru token'a atadığı olasılığı mümkün olduğunca artırmaya çalışır. Basit bir hedef, olağanüstü karmaşık bir dünya modelinin ortaya çıkmasına zemin hazırlar.

Ortaya Çıkış: Beklenmedik Yetenekler

GPT-3'ün raporundaki en çarpıcı bulgu, few-shot öğrenme'ydi: modele yalnızca birkaç örnek gösterildiğinde, görev açıklaması bile yapılmadan yeni görevleri gerçekleştirebildiği gözlemlendi. Model Fransızca-İngilizce çevirisi için eğitilmemişti; ama eğitim verisindeki çeviri örneklerinden bu kalıbı çıkarsamıştı.

Bu ortaya çıkış, model ölçeği büyüdükçe daha belirgin hâle gelir. Stanford'daki araştırmacılar, bazı yeteneklerin belirli bir parametre eşiğinde ani biçimde ortaya çıktığını —öncesinde neredeyse hiç gözlemlenmediğini— saptadı. Bu "faz geçişi" benzeri davranış, BDM araştırmalarının en aktif tartışma konularından biri olmayı sürdürmektedir.

GPT-2 (2019): Tutarlı paragraflar üretiyor, ancak çok adımlı akıl yürütmede başarısız.
GPT-3 (2020): Few-shot öğrenme ortaya çıkıyor; kod yazabiliyor.
GPT-4 (2023): Bar sınavında üst yüzde 10'a giriyor; zincir-düşünce akıl yürütmesi belirginleşiyor.

Sıcaklık: Yaratıcılık mı, Kesinlik mi?

Model bir sonraki token için olasılık dağılımı oluşturduğunda, sıcaklık (temperature) parametresi bu dağılımın ne kadar "sivri" ya da "düz" olacağını belirler. Düşük sıcaklık (≈ 0) en yüksek olasılıklı token'ı neredeyse deterministik biçimde seçer; yüksek sıcaklık (≈ 1 veya üstü) düşük olasılıklı seçeneklere de şans tanıyarak yaratıcı —ama bazen tutarsız— çıktılar üretir.

Uygulama Notu

Hukuki belge üretimi için düşük sıcaklık, yaratıcı yazarlık için yüksek sıcaklık tercih edilir. Schwartz davasında kullanılan modelin sıcaklığı yüksek tutulmuş olsaydı risk artar; düşük tutulmuş olsaydı model yine de var olmayan kararları "güvenle" üretebilirdi —çünkü sorun sıcaklıktan değil eğitim verisindeki örüntülerden kaynaklanıyordu.

Ders 2 Testi

Tahmin mekanizması ve ortaya çıkış olgusunu ne kadar anladınız?

1. GPT-3'ün "few-shot öğrenme" yeteneği nasıl ortaya çıktı?

✓ Tam olarak! Bu "ortaya çıkış" (emergence) olgusunun özüdür: model hiçbir zaman few-shot öğrenme için özel olarak eğitilmedi.

✗ Yanlış. Few-shot yeteneği, yalnızca sonraki-token tahmin hedefiyle büyük ölçekte eğitim sonucunda beklenmedik biçimde ortaya çıktı; özel bir eğitim yoktu.

2. Sıcaklık (temperature) parametresinin yüksek tutulması ne anlama gelir?

✓ Doğru! Yüksek sıcaklık, olasılık dağılımını "ısıtarak" daha az olası seçeneklere kapı aralar — yaratıcılık ile tutarlılık arasında bir denge sorunudur.

✗ Yanlış. Sıcaklık parametresi, çıkış olasılık dağılımının şeklini etkiler. Yüksek sıcaklık daha yaratıcı ama potansiyel olarak daha tutarsız çıktılar üretir.

3. Öz-denetimli öğrenme (self-supervised learning) neden büyük dil modelleri için özellikle uygun bir paradigmadır?

✓ Kesinlikle! Metin, kendi içinde sonsuz sayıda "doğru sıradaki token nedir?" sorusu barındırır — bu, insan emeğine gerek kalmadan ölçeklendirmeyi mümkün kılar.

✗ Yanlış. Öz-denetimli öğrenme, etiketlenmiş veriye gerek duymaz; metnin kendisi eğitim sinyali sağlar ve bu sayede trilyonlarca token'la ölçeklendirme mümkün olur.

Lab 2: Tahmin ve Ortaya Çıkış

Sıcaklık parametresi ve few-shot öğrenmeyi pratikte keşfedin.

Görev

Bu laboratuvarda BDM'lerin tahmin mekanizmasını ve "ortaya çıkış" olgusunu asistanla inceleyeceksiniz.

Asistanın sorusunu yanıtlayın.
Sıcaklığı düşük tutmanın hangi görevler için daha uygun olduğunu sorun.
GPT-3'ün hangi yeteneklerinin beklenmedik biçimde ortaya çıktığını araştırın.

Öneri: "Bir modelin 'öğrenmesi' ile 'ezberlemesi' arasındaki fark nedir? Sonraki-token tahmini bu ikisinden hangisine yol açar?"

🎲 Tahmin ve Ortaya Çıkış Asistanı Modül 7 · Lab 2

🎯 Gelişmiş · Ders 3

Mantık Çöktüğünde

Halüsinasyon, bağlam taşması ve dağılım kayması: BDM'lerin sistematik hata biçimlerini ve nedenlerini anlamak.

Bir model neden hiç olmayan bir gerçeği "güvenle" ifade edebilir?

2023 yılında Air Canada, bir yolcuya bilet ücretinin iade edileceğini söyleyen bir chatbot konuşmasını mahkemede savunmak zorunda kaldı. Şirket, chatbot'un "kendi başına hareket eden ayrı bir tüzel kişilik" olduğunu ve verdiği bilgilerin şirketi bağlamadığını öne sürdü. Kanada Küçük İddia Mahkemesi bu savunmayı reddetti: "Air Canada, kendi web sitesindeki chatbot'un eylemlerinden sorumludur." Mahkeme, Air Canada'nın yolcuya 812 Kanada doları ödemesine hükmetti. Bu dava, bir BDM'nin hatalı çıktısının —chatbot bir indirim politikasını yanlış aktarmıştı— gerçek hukuki ve finansal sonuçları olabileceğini gösterdi.

Halüsinasyon: Tanım ve Kökler

Halüsinasyon, bir BDM'nin olgusal olarak yanlış ama biçimsel olarak tutarlı içerik üretmesidir. Bu terim, modelin "yanılması" ya da "yalan söylemesi" anlamına gelmez —model doğru-yanlış ayrımı yapmaz; yalnızca eğitim verisindeki örüntüleri taklit eder.

Halüsinasyonun üç temel kökeni vardır:

Eğitim verisi boşlukları: Model, eğitim verisinde yer almayan olaylar veya kişiler hakkında soru aldığında, var olan benzer örüntülerden "makul" ama hatalı içerik üretir.
Olasılık optimizasyonu: Model, doğruluğu değil istatistiksel akışkanlığı optimize eder. "Güven" yalnızca yüksek olasılığı temsil eder.
RLHF yan etkileri: İnsan geri bildirimiyle güçlendirme öğrenimi (RLHF) süreci sırasında model, "belirsiz ama kabul edilebilir" yanıtları "kesin ama yanlış" yanıtlarla değiştirmeyi öğrenebilir.

Air Canada Dersi

Şirket, chatbot'un hatalı bilgi verdiği gerçeğini kabul etti. Asıl mesele sorumluluktu: mahkeme, bir kuruluşun kendi yapay zeka sisteminin çıktılarından sorumlu olduğuna hükmetti. Bu karar, yapay zeka yönetişiminde emsal teşkil etmektedir.

Bağlam Taşması ve Dağılım Kayması

Halüsinasyonun ötesinde iki önemli hata biçimi daha mevcuttur. Bağlam penceresi (context window) sınırlı olduğundan, model uzun konuşmalarda erken belirtilen bilgileri "unutabilir" ya da yanlış ilişkilendirebilir. GPT-4'ün 128.000 token'lık bağlam penceresi bile pratikte, pencerenin ortasındaki bilgilerin sonunda daha az dikkate alındığını gösteren "kayıp ortada (lost in the middle)" bulgusuna konu olmuştur.

Dağılım kayması (distribution shift) ise modelin eğitildiği veri dağılımının, çalışma zamanındaki gerçek dünyanın dağılımından farklılaşmasıdır. 2024'te piyasaya sürülen bir model, 2025'in olaylarından habersizdir; ancak bu boşluklar hakkında soru aldığında hâlâ "yetkin" görünmeye çalışır.

Çözüm 1 — Grounding (zemin oluşturma): Modeli doğrulanmış kaynaklara (veritabanı, arama motoru) bağlamak.
Çözüm 2 — RAG (Retrieval-Augmented Generation): Yanıt üretmeden önce ilgili belgeleri getirmek ve bağlama eklemek.
Çözüm 3 — Yapılandırılmış çıkış: Modelin belirsiz konularda "Bilmiyorum" demesini teşvik eden prompt mühendisliği.

Ders 3 Testi

Halüsinasyon ve hata biçimlerini ne kadar anladınız?

1. Air Canada chatbot davasında mahkemenin temel gerekçesi neydi?

✓ Doğru! Mahkeme, şirketin "chatbot kendi başına hareket ediyor" savunmasını reddetti. Yapay zeka çıktılarından kurumsal sorumluluk alanı için emsal niteliğinde bir karardır.

✗ Yanlış. Mahkeme, bir şirketin kendi yapay zeka sisteminin çıktılarından sorumlu olduğuna hükmetti — bu, yapay zeka yönetişimi açısından kritik bir emsaldir.

2. "Kayıp ortada (lost in the middle)" olgusu neyi ifade eder?

✓ Kesinlikle! Stanford araştırmacıları bu olguyu belgeledi: dikkat mekanizması, pencerenin başına ve sonuna daha yüksek ağırlık verme eğilimindedir.

✗ Yanlış. "Kayıp ortada", uzun bağlam pencerelerinde ortadaki bilgilerin dikkat mekanizmasından daha az pay alması olgusunu ifade eder.

3. RAG (Retrieval-Augmented Generation) halüsinasyonla nasıl mücadele eder?

✓ Doğru! RAG, modeli doğrulanmış kaynaklara "zemin" (ground) oluşturur: önce belgeler getirilir, sonra bu belgeler ışığında yanıt üretilir.

✗ Yanlış. RAG, yanıt üretmeden önce ilgili belgeleri getirip bağlama ekleyerek modeli gerçek bilgiye "zeminer" — model ağırlıklarını değiştirmez.

Lab 3: Halüsinasyonu Tespit Etmek

Modellerin hata üretme biçimlerini ve azaltma stratejilerini inceleyin.

Görev

Bu laboratuvarda yapay zeka halüsinasyonunun kökenlerini ve azaltma yöntemlerini asistanla keşfedeceksiniz.

Asistanın açılış sorusunu yanıtlayın.
Halüsinasyonun "RLHF yan etkileri"nden nasıl kaynaklanabileceğini sorun.
Bir kurumsal chatbot geliştiriyorsanız hangi teknik önlemleri alırsınız?

Öneri: "Bir model neden var olmayan bir bilimsel makaleyi tamamen tutarlı ve inandırıcı şekilde üretebilir?"

⚠️ Hata Analizi Asistanı Modül 7 · Lab 3

🎯 Gelişmiş · Ders 4

Bellek ve Bağlam

BDM'lerin "belleği" çalışma belleğiyle sınırlıdır. Uzun vadeli bellek illüzyonu nasıl oluşturulur?

Bağlam penceresi ile gerçek bellek arasındaki fark neden kritiktir?

2024 yılında Microsoft'un Copilot for Microsoft 365 ürünü, kurumsal müşterilere "Bing arama geçmişi ve Teams konuşmalarınızı hatırlayan" kişiselleştirilmiş bir asistan vaat etti. Ancak bağımsız araştırmacılar kısa sürede sistemin aslında bağlam penceresini yeniden dolduran bir RAG mimarisi kullandığını gösterdi: model gerçekten "hatırlamıyor", ilgili kısımları her çağrıda getiriyor ve yeniden işliyordu. Bu tespit, bellek kavramının pazarlama söylemiyle teknik gerçeklik arasındaki derin uçurumu gözler önüne serdi; kurumlar gizlilik hesaplarını ve veri saklama politikalarını buna göre yeniden değerlendirmek zorunda kaldı.

Bağlam Penceresi: Sınırlı Çalışma Belleği

Bir BDM'nin "belleği", insan belleğiyle temel bir farkı barındırır: model yalnızca aktif bağlam penceresini "görebilir". Pencerenin dışında kalan her şey, model açısından var olmaz. GPT-4 Turbo'nun 128.000 token'lık penceresi yaklaşık 300 sayfa metne karşılık gelir; bu etkileyici bir boyuttur. Ama bu, her seferinde sıfırdan oluşturulması gereken geçici bir çalışma belleğidir.

Konuşma geçmişini tutan uygulamalar (ChatGPT, Claude.ai vb.) bu sınırı, önceki mesajları her yeni isteğe ekleyerek aşar. Bu yaklaşımın iki bedeli vardır: artan hesaplama maliyeti ve pencerenin dolması halinde eski mesajların "kesilmesi".

Teknik Not

KV önbelleği (Key-Value cache), tekrar eden bağlam hesaplamalarını önbelleğe alarak hesaplama maliyetini azaltır. Ancak bu, modelin anıları "depolaması" anlamına gelmez; yalnızca hesaplamayı optimize eder.

Uzun Vadeli Bellek Mimarileri

Gerçek uzun vadeli bellek için üç farklı mimari yaklaşım kullanılmaktadır:

RAG (Retrieval-Augmented Generation): Konuşma özetleri veya kullanıcı profilleri harici bir vektör veritabanında saklanır. İlgili bilgiler her sorguda getirilip bağlama eklenir. Microsoft Copilot'un gerçekte yaptığı budur.
İnce ayar (Fine-tuning): Belirli bilgiler, ek eğitimle model ağırlıklarına "kazınır". Ancak bu pahalıdır ve tek bir kullanıcıya göre ayarlamak için pratik değildir.
Bellek modülleri (örn. MemGPT): Model, kendi bağlam penceresini bir işletim sistemi gibi yöneterek önemli bilgileri açıkça "dışarı yazar" ve geri çağırır.

Microsoft Copilot davası, bu ayrımın neden önemli olduğunu net biçimde ortaya koyar. "Hatırlıyor" demek ile "her seferinde ilgili verileri getiriyor" demek, gizlilik, güvenlik ve veri saklama politikaları açısından birbirinden çok farklı sonuçlar doğurur.

Ders 4 Testi

Bellek mimarileri ve bağlam penceresini ne kadar anladınız?

1. Microsoft Copilot'un "kişiselleştirilmiş bellek" özelliğiyle ilgili araştırmacıların ortaya koyduğu temel teknik gerçek neydi?

✓ Doğru! "Hatırlama" ile "her sorguda ilgili veriyi getirme" arasındaki bu fark, kurumsal gizlilik politikaları açısından son derece önemlidir.

✗ Yanlış. Araştırmacılar, sistemin gerçekte bir RAG mimarisi kullandığını gösterdi: model gerçek anlamda "hatırlamıyor", her sorguda verileri yeniden yüklüyordu.

2. KV önbelleği (Key-Value cache) modele ne kazandırır?

✓ Kesinlikle! KV önbelleği bir optimizasyon aracıdır; kalıcı bellek değil, hesaplama verimliliği sağlar.

✗ Yanlış. KV önbelleği tekrar eden hesaplamaları optimize eder; kalıcı bellek sağlamaz. Model yine de yalnızca aktif bağlam penceresini "görür".

3. MemGPT gibi bellek modülü mimarileri, standart BDM'lerden hangi yönden farklılaşır?

✓ Doğru! MemGPT, bağlam penceresini bir işletim sistemi gibi yönetir: önemli bilgiler açıkça dışarı yazılır ve gerektiğinde geri yüklenir.

✗ Yanlış. MemGPT ve benzeri sistemler, bağlam penceresini bir işletim sistemi gibi yönetir: önemli bilgileri açıkça dış belleğe kaydeder ve ihtiyaç duyulduğunda geri çağırır.

Lab 4: Bellek ve Bağlam Mimarisi

Bağlam penceresi sınırlılıklarını ve uzun vadeli bellek çözümlerini keşfedin.

Görev

Bu laboratuvarda bağlam penceresi sınırlılıklarını ve farklı bellek mimarilerinin avantaj ile dezavantajlarını asistanla tartışacaksınız.

Asistanın sorusunu yanıtlayın.
RAG ile ince ayar (fine-tuning) arasındaki farkı, bir banka müşteri hizmetleri uygulaması için hangisinin daha uygun olduğu bağlamında sorun.
"Modelin belleği var mı?" sorusunu teknik açıdan doğru biçimde yanıtlamayı deneyin.

Öneri: "128.000 token'lık bağlam penceresi ne kadar büyüktür? Gerçek bir kullanım senaryosunda bu sınıra ulaşmak ne kadar sürer?"

🗃️ Bellek Mimarisi Asistanı Modül 7 · Lab 4

🎯 Gelişmiş · Ders 5

Dikkat ve Transformatörler

"Attention Is All You Need" makalesi yapay zekanın seyrini değiştirdi. Dikkat mekanizması neden bu denli güçlü?

Dikkat mekanizması, bir modelin bağlamı anlamasını nasıl sağlar?

2017 yılında Google Brain'den sekiz araştırmacı —Ashish Vaswani, Noam Shazeer ve altı meslektaşı— "Attention Is All You Need" başlıklı makaleyi yayımladı. O güne dek doğal dil işlemede (NLP) hâkim olan yinelemeli sinir ağları (RNN) ve uzun-kısa vadeli bellek ağları (LSTM), uzun dizileri işlerken performans düşüşü yaşıyordu. Transformatör mimarisi bu sorunu kökten çözdü: dikkat mekanizması sayesinde her token, dizideki tüm diğer token'larla doğrudan ilişkilendirilebildi. 2023 itibarıyla makale 100.000'den fazla kez atıf almıştı. GPT, BERT, T5, LLaMA, Claude — günümüzün tüm önde gelen modelleri bu mimaride inşa edilmiştir.

Öz-Dikkat (Self-Attention): Temel Mekanizma

Öz-dikkat mekanizması şu soruyu yanıtlar: "Bu token'ı işlerken dizinin hangi diğer token'larına daha fazla dikkat etmeliyim?" Her token için üç farklı vektör hesaplanır: sorgu (Query, Q), anahtar (Key, K) ve değer (Value, V).

Bir token'ın sorgusu, tüm diğer token'ların anahtarlarıyla iç çarpım yoluyla karşılaştırılır. Benzer Q-K çiftleri yüksek dikkat skoru alır; softmax ile normalize edilir ve değer vektörlerinin ağırlıklı ortalaması alınarak zenginleştirilmiş bir temsil oluşturulur. Bu işlem tüm token'lar için eş zamanlı gerçekleşir —RNN'nin ardışık yapısının aksine paralel işleme mümkün olur.

Somut Örnek

"Banka nehrin kıyısındaydı" cümlesinde "banka" kelimesinin doğru anlamı (finans kurumu değil, nehir kıyısı anlamı) için dikkat mekanizması "nehir" token'ına yüksek ağırlık atar. Bu bağlamsal disambiguasyon, önceki mimarilerde otomatik olarak gerçekleşmiyordu.

Çok Başlı Dikkat ve Katman Derinliği

Transformatör mimarisi, çok başlı dikkat (multi-head attention) kullanır: dikkat mekanizması paralel olarak birden fazla "baş" (head) ile çalışır. Her baş farklı ilişki türlerini yakalayabilir. Bir baş sözdizimsel bağımlılıklara (özne-fiil uyumu gibi), bir diğeri anlamsal ilişkilere (eşanlamlılar gibi) odaklanabilir.

GPT-4'ün 96 katmanı ve her katmanda 96 dikkat başı bulunduğu tahmin edilmektedir. Bu derinlik, modelin giderek soyutlaşan temsiller oluşturmasını sağlar: alt katmanlar sözdizimsel örüntüleri, üst katmanlar anlamsal ve bağlamsal ilişkileri kodlar. "Attention Is All You Need" makalesinin önemi tam da burada yatar: yalnızca dikkat ve ileri besleme katmanlarıyla derin bir yetenek hiyerarşisi inşa etmek mümkündür.

Konum kodlaması (Positional encoding): Transformatörler dizileri paralel işlediğinden, token'ların sıra bilgisi ayrıca kodlanmalıdır.
Artık bağlantılar (Residual connections): Gradyanların derin ağlarda kaybolmasını önler.
Katman normalizasyonu: Eğitimi stabilize eder ve daha hızlı yakınsama sağlar.

Ders 5 Testi

Dikkat mekanizması ve transformatör mimarisini ne kadar anladınız?

1. "Attention Is All You Need" makalesi hangi temel soruna çözüm getirdi?

✓ Doğru! Transformatör, RNN'nin ardışık yapısını ortadan kaldırarak paralel işlemeye olanak tanıdı ve uzun bağlam sorununu kökten çözdü.

✗ Yanlış. Makale, RNN ve LSTM'nin uzun dizilerdeki performans düşüşü sorununu ve ardışık işleme kısıtlamasını çözmeye odaklandı.

2. Öz-dikkat mekanizmasında Q (Sorgu), K (Anahtar) ve V (Değer) vektörlerinin rolü nedir?

✓ Kesinlikle! Q-K benzerliği "nereye bak"ı belirler; V vektörleri ise "ne al"ı tanımlar. Bu üçlü mekanizma, bağlamsal anlamanın temelidir.

✗ Yanlış. Q ve K iç çarpımı dikkat ağırlıklarını belirler (hangi token'lara ne kadar dikkat edileceği); V bu ağırlıklarla ağırlıklandırılarak çıkış temsili oluşturulur.

3. Çok başlı dikkat (multi-head attention) neden tek başlı dikkatten daha güçlüdür?

✓ Doğru! Paralel baş yapısı, modelin aynı anda birden fazla ilişki türünü öğrenmesini sağlar — bu, dilin karmaşıklığını yakalamak için kritiktir.

✗ Yanlış. Çok başlı dikkat, farklı başların farklı ilişki türlerini paralel olarak öğrenmesine olanak tanır: biri sözdizimsel, diğeri anlamsal örüntüleri yakalayabilir.

Lab 5: Dikkat Mekanizması

Transformatör mimarisi ve dikkat mekanizmasını derinlemesine inceleyin.

Görev

Bu laboratuvarda dikkat mekanizmasının gerçek dünya örüntülerini nasıl yakaladığını ve transformatör mimarisinin neden bu denli ölçeklenebilir olduğunu asistanla keşfedeceksiniz.

Asistanın sorusunu yanıtlayın.
Konum kodlamasının (positional encoding) neden gerekli olduğunu ve nasıl çalıştığını sorun.
GPT ve BERT mimarilerinin dikkat mekanizmasını nasıl farklı kullandığını araştırın.

Öneri: "Bir transformatörün alt katmanları ile üst katmanları farklı bilgileri mi öğrenir? Bu nasıl araştırılabilir?"

⚡ Transformatör Mimarisi Asistanı Modül 7 · Lab 5

🎯 Gelişmiş · Ders 6

Ajanlar ve Araç Kullanımı

BDM'ler artık yalnızca metin üretmiyor: arama yapıyor, kod çalıştırıyor, API çağırıyor. Otonom karar alma yeteneği neler getirir?

Bir yapay zeka ajanı kendi kararlarını verdiğinde sorumluluk kime aittir?

2024 yılının başında, Klarna'nın yapay zeka müşteri hizmetleri ajanı aylık 35 milyon konuşmayı işliyordu ve şirket bu sistemin 700 tam zamanlı çalışana eşdeğer iş yaptığını açıkladı. Ajanın çalışma prensibi şöyleydi: kullanıcı mesajı → niyeti sınıflandır → ilgili araçları seç (ödeme sistemi API'si, sipariş veritabanı, iade modülü) → araç çıktılarını bağlama ekle → yanıt üret. Ancak Klarna aynı dönemde, ajanın karmaşık hukuki ve etik durumları insan çalışana devretme konusunda yetersiz kaldığını ve bazı durumlarda hatalı iade onayları verdiğini kabul etti. Etkililik ile güvenilirlik arasındaki denge, ajan sistemlerinin merkezi açık sorunudur.

Ajan Mimarisi: Döngüsel Akıl Yürütme

Bir yapay zeka ajanı, BDM'yi bir "beyin" olarak kullanan, araçlarla donatılmış bir sistemdir. Temel döngü şu şekilde işler: Gözlemle → Planla → Eyleme geç → Gözlemle. Bu döngü, görev tamamlanana veya bir sınıra ulaşılana kadar tekrarlanır.

ReAct (Reason + Act) çerçevesi, modelin her adımda hem düşüncesini (reasoning trace) hem de eylemini açıkça üretmesini sağlar. Bu sayede ajan davranışı izlenebilir hâle gelir; hatalar daha kolay tespit edilir.

Araç Türleri

Tipik ajan araçları: web arama, kod yorumlayıcı (Python çalıştırma), veritabanı sorgusu, harici API çağrısı, dosya okuma/yazma, e-posta gönderme. Her araç, modele ek bağlam bilgisi sağlar ve modelin yalnızca parametrelerinde kodlanmış bilgiyle sınırlı kalmasını önler.

Çok Ajanlı Sistemler ve Risk

Birden fazla ajanın iş birliği yaptığı sistemlerde (AutoGen, CrewAI gibi çerçeveler), karmaşıklık katlanarak artar. Bir ajan diğerine görev devreder; hata da aynı şekilde yayılır. Klarna örneğinde olduğu gibi, hangi kararların insan denetimine sunulacağını belirlemek —insan-döngüde (human-in-the-loop)— kritik bir tasarım kararıdır.

İstem enjeksiyonu (Prompt injection): Kötü niyetli içerik, ajanın araç çağrısı davranışını manipüle edebilir.
Geri döndürülemez eylemler: Ajan bir e-posta gönderdiyse ya da bir siparişi iptal ettiyse geri alınamaz.
Hedef sürüklenmesi (Goal drift): Uzun görevlerde ajan, başlangıçtaki hedeften sapabilir.
Minimum ayrıcalık ilkesi: Ajana yalnızca görevi için zorunlu izinler verilmelidir.

Ders 6 Testi

Ajan mimarileri ve araç kullanımını ne kadar anladınız?

1. Klarna'nın yapay zeka ajanının temel zayıflığı neydi?

✓ Doğru! Etkililik ile güvenilirlik arasındaki denge, ajan sistemlerinin tasarımında hâlâ çözülemeyen merkezi bir sorundur.

✗ Yanlış. Klarna, ajanın karmaşık durumlarda insan çalışana devretmede yetersiz kaldığını ve hatalı kararlar verdiğini kabul etti.

2. ReAct (Reason + Act) çerçevesinin ajan güvenilirliğine katkısı nedir?

✓ Kesinlikle! Düşünce izini (reasoning trace) açıkça üretmek, ajan davranışını izlenebilir ve denetlenebilir kılar.

✗ Yanlış. ReAct, her adımda açık düşünce izi üretir; bu sayede ajanın hangi adımda hata yaptığı tespit edilebilir hâle gelir.

3. "Minimum ayrıcalık ilkesi" ajan sistemlerinde ne anlama gelir?

✓ Doğru! Minimum ayrıcalık, istem enjeksiyonu veya hedef sürüklenmesi gibi risklerin potansiyel hasarını sınırlar.

✗ Yanlış. Minimum ayrıcalık ilkesi, ajana yalnızca görevi için zorunlu olan izinlerin verilmesini gerektirir; fazladan erişim riski artırır.

Lab 6: Ajan Tasarımı ve Riskleri

Ajan mimarilerini, araç kullanımını ve güvenlik açıklarını keşfedin.

Görev

Bu laboratuvarda bir yapay zeka ajanı tasarlarken karşılaşılan temel kararları ve riskleri asistanla tartışacaksınız.

Asistanın sorusunu yanıtlayın.
İstem enjeksiyonu saldırısının nasıl çalıştığını ve nasıl önlenebileceğini sorun.
Bir seyahat planlama ajanı için "insan-döngüde" eşik noktalarını tasarlayın.

Öneri: "Bir ajan görev sırasında planını değiştirirse ve bu değişiklik başlangıçta belirlenen hedeften sapıyorsa, bu nasıl tespit edilebilir?"

🤖 Ajan Tasarımı Asistanı Modül 7 · Lab 6

🎯 Gelişmiş · Ders 7

Çok Kipli Yapay Zeka

GPT-4V, Gemini ve DALL-E 3: görüntü, ses ve metin aynı modelde. Farklı kiplikler nasıl birleştirilir?

Bir model hem görmeyi hem de okumayı öğrendiğinde ne değişir?

2024 yılı Mayıs ayında OpenAI, GPT-4o'yu (o = "omni", Latince "her şey") tanıttı. Sistem, metin, ses ve görüntüyü tek bir uçtan uca modelde entegre ediyordu: önceki ChatGPT'nin ayrı transkripsiyon-metin-sentez hattının aksine ham ses doğrudan modele giriyordu. Demo gösterimlerinde model ses tonunu gerçek zamanlı olarak yorumlayabiliyor, aynı anda ekrandaki görüntüye bakıp konuşmayı sürdürebiliyor, kullanıcıya sözünü kestirmeden yanıt verebiliyordu. Ancak birkaç gün içinde bir ses modu, aktris Scarlett Johansson'ın sesiyle anımsatıcı benzerliği nedeniyle —ve johansson'ın izni alınmadan— kaldırıldı. Çok kipli yetenekler, yeni teknik güçler ve yeni etik sorumluluklarla birlikte gelir.

Kiplik Entegrasyonu: Farklı Yaklaşımlar

Çok kipli modeller (multimodal models), farklı veri türlerini nasıl entegre ettiğine göre iki temel mimariye ayrılır:

Çapraz-kiplik dikkat (Cross-modal attention): Her kiplik (metin, görüntü, ses) ayrı kodlayıcıyla işlenir; ardından dikkat mekanizması kiplikleri arasındaki ilişkileri kurar. CLIP modeli bu yaklaşımın erken örneklerinden biridir.
Yerel çok kipli model: GPT-4o gibi sistemler, farklı kiplikleri tek bir token uzayında birleştirerek işler. Görüntü "parçalara" (patch'lere) bölünür, her parça bir token olarak temsil edilir ve metin token'larıyla aynı transformatör bloğundan geçer.

GPT-4V Benchmark Bulgusu

GPT-4V'nin medikal görüntü analizinde radyologlarla karşılaştırıldığı 2023 tarihli bir çalışmada, model bazı görevlerde uzman radyologlarla kıyaslanabilir performans sergiledi. Ancak araştırmacılar modelin "akıl yürütme izinin" çoğu zaman yanlış olduğunu da belirtti: doğru yanıta yanlış nedenler üzerinden ulaşmak, klinik güvenilirlik için yeterli değildir.

Görüntü Üretimi: Difüzyon ve Transformatörler

DALL-E 3, Midjourney ve Stable Diffusion gibi görüntü üretim sistemleri farklı bir mimari kullanır: difüzyon modeli (diffusion model). Bu modeller, saf gürültüden başlayarak adım adım görüntü oluşturur. Metin koşullaması, CLIP benzeri bir kodlayıcıyla sağlanır: metin gömmeleri, hangi görüntü özelliklerinin üretileceğini yönlendirir.

GPT-4o'nun "omni" yaklaşımı bu ayrışmayı ortadan kaldırmayı hedefler: tek bir model tüm kiplikleri hem anlayabilir hem üretebilir. Ancak bu bütünleşme yeni güvenlik zorlukları da doğurur. Ses klonlama, deepfake görüntü, yanıltıcı içerik üretimi gibi riskler, her yeni kiplik eklendikçe genişler.

Scarlett Johansson davası: Onay alınmadan ses benzerliği, kimlik hakları ve veri kullanımı konusunda sektörü derinden sarstı.
Filigran (Watermarking): C2PA standardı, yapay zeka tarafından üretilen görsel içeriklere kriptografik meta veri eklemeyi hedefler.
Ses ve görüntü doğrulaması: Deepfake tespiti için özel sınıflandırıcı modeller geliştirilmektedir.

Ders 7 Testi

Çok kipli yapay zeka mimarilerini ne kadar anladınız?

1. GPT-4o'nun "omni" tasarımı önceki ses yeteneklerine göre teknik açıdan nasıl farklılaşıyordu?

✓ Doğru! Uçtan uca entegrasyon, ayrı modüller arası bilgi kaybını ortadan kaldırır ve gerçek zamanlı ses ton yorumlamasını mümkün kılar.

✗ Yanlış. GPT-4o, ham sesi doğrudan modele alarak önceki transkripsiyon-metin-sentez hattını tek bir uçtan uca sistemle değiştirdi.

2. Difüzyon modellerinde görüntü üretimi nasıl gerçekleşir?

✓ Kesinlikle! Difüzyon modelleri, geri dönüşümlü bir gürültü giderme süreciyle görüntü oluşturur; metin koşullaması her adımı yönlendirir.

✗ Yanlış. Difüzyon modelleri saf gürültüden başlar ve adım adım gürültüyü gidererek metin gömmeleriyle yönlendirilmiş bir görüntü oluşturur.

3. GPT-4V'nin medikal görüntü analizinde "doğru yanıta yanlış nedenler üzerinden ulaşması" neden klinik açıdan sorunludur?

✓ Doğru! Doğru sonuç + yanlış akıl yürütme, kırılgan bir başarıyı temsil eder. Dağılım kayması durumunda model başarısız olacaktır.

✗ Yanlış. Yanlış akıl yürütme izi, modelin benzer durumlarda aynı şekilde başarılı olamayacağını gösterir — güvenilir klinik kullanım için akıl yürütmenin de doğru olması gerekir.

Lab 7: Çok Kipli Sistemler

Görüntü, ses ve metin entegrasyonunun teknik ve etik boyutlarını keşfedin.

Görev

Bu laboratuvarda çok kipli yapay zeka sistemlerinin mimarisi, yetenekleri ve getirdiği etik zorlukları asistanla tartışacaksınız.

Asistanın sorusunu yanıtlayın.
C2PA standardının yapay zeka tarafından üretilen içerikleri nasıl işaretlediğini sorun.
Bir gazetecilik kuruluşu için çok kipli yapay zeka kullanım politikası nasıl tasarlanmalı?

Öneri: "CLIP modeli, görmediği bir nesneyi nasıl tanıyabilir? 'Sıfır-atış görüntü sınıflandırması' nasıl çalışır?"

👁️ Çok Kipli AI Asistanı Modül 7 · Lab 7

🎯 Gelişmiş · Ders 8

Yorumlanabilirlik: Kara Kutunun İçinde

Mekanik yorumlanabilirlik, süperpozisyon hipotezi ve devresel analiz: nöron ne düşünüyor?

Bir modelin neden böyle karar verdiğini anlamak mümkün müdür?

2023 yılında Anthropic'in araştırmacıları Claude modelinde tek bir nöronu inceledi. Bu nöron, "Altın Köprüsü" (Golden Gate Bridge) adı geçen bağlamlarla aktivasyon gösteriyordu. Araştırmacılar daha ileri giderek bu nöronu aşırı biçimde aktive etti: "Golden Gate Claude" adını verdikleri bu versiyonda model, neredeyse her konuşmayı Golden Gate Köprüsü'ne bağlıyor, hatta kendini köprü olarak tanımlıyordu. Bu deney, mekanik yorumlanabilirlik (mechanistic interpretability) alanının ne kadar güçlü bir araç olduğunu ortaya koydu —ama aynı zamanda modelin dünya temsilinin ne denli tuhaf, dağıtılmış ve manipüle edilebilir olduğunu da gösterdi.

Mekanik Yorumlanabilirlik

Mekanik yorumlanabilirlik (mechanistic interpretability), bir sinir ağının belirli hesaplama alt devrelerini tersine mühendislik yöntemiyle anlama disiplinidir. Hedef, "model bunu neden üretti?" sorusunu yalnızca çıktı üzerinden değil, modelin iç hesaplamaları üzerinden yanıtlamaktır.

Anthropic'in "Circuits" çalışması, modelin belirli yeteneklerini (örn. üst baş harften sonraki küçük harfi tahmin etmek) yürüten özgün nöron devrelerini haritaladı. DeepMind ve diğer grupların da katkıda bulunduğu bu alan, günümüzde en hızlı büyüyen yapay zeka araştırma alanlarından biridir.

Neden Önemli?

Yorumlanabilirlik olmaksızın güvenli yapay zeka geliştirmek körlüğe benzer. Model belirli bir kararı hangi iç süreçlerle aldığını anlayamazsak, hangi durumlarda başarısız olacağını öngöremeyiz. AB Yapay Zeka Kanunu ve ABD yürütme kararnameleri, yüksek riskli sistemler için açıklanabilirlik gerektirmektedir.

Süperpozisyon ve Özellik Seyrekliği

Yorumlanabilirlik araştırmalarının en çarpıcı bulgularından biri süperpozisyon hipotezi'dir (superposition hypothesis). Ağ, sahip olduğundan çok daha fazla "özelliği" (feature — kavramı, ilişkiyi, olguyu) kodlayabilir, çünkü her özellik tek bir nöron yerine birden fazla nörona dağıtılmış şekilde temsil edilir.

Bu, modelin kapasitesini dramatik biçimde artırır —ama yorumlanabilirliği zorlaştırır: tek bir nöron birçok farklı kavramla ilişkili olabilir. Sparse Autoencoder (SAE) teknikleri, bu dağıtık temsilleri daha yorumlanabilir "tek kavram per özellik" biçimine ayrıştırmaya çalışır. Anthropic'in 2024 tarihli "Scaling Monosemanticity" çalışması, Claude Sonnet modelinde 34 milyon özellik haritaladı.

Dikkat başı analizi: Hangi dikkat başlarının sözdizimsel, hangilerinin anlamsal görevleri üstlendiği araştırılır.
Aktivasyon yamalama (activation patching): Bir nöronun aktivasyonu değiştirilerek davranış üzerindeki etkisi ölçülür.
Logit mercek (logit lens): Her katmandan sonra modelin o ana kadarki tahmininin ne olduğu görüntülenir.
Golden Gate Claude deneyi: Tek bir özelliğin aşırı aktivasyonu, modelin kimliğini bile değiştirebilir —bu, güvenlik açısından derin bir bulgudur.

Ders 8 Testi

Yorumlanabilirlik ve mekanik analizi ne kadar anladınız?

1. "Golden Gate Claude" deneyi ne ortaya koydu?

✓ Doğru! Bu deney, mekanik yorumlanabilirliğin hem ne kadar güçlü hem de ne kadar tehlikeli olabileceğini eş zamanlı olarak gösterdi.

✗ Yanlış. Deney, tek bir özelliğin aşırı aktivasyonunun modelin tüm davranışını değiştirebileceğini gösterdi — bu, güvenlik açısından kritik bir bulgudur.

2. Süperpozisyon hipotezi neyi öne sürer?

✓ Kesinlikle! Süperpozisyon, modelin nöron sayısından çok daha fazla özelliği kodlamasını sağlar — ancak bu, "hangi nöron ne yapar?" sorusunu yanıtlamayı zorlaştırır.

✗ Yanlış. Süperpozisyon hipotezi, özelliklerin birden fazla nörona dağıtılmış şekilde kodlandığını öne sürer; bu kapasite artışı sağlar ama yorumlanabilirliği zorlaştırır.

3. Sparse Autoencoder (SAE) teknikleri yorumlanabilirlik araştırmalarında ne için kullanılır?

✓ Doğru! SAE, süperpozisyonla kodlanmış özellikleri "ayrıştırarak" yorumlanabilir birimlere dönüştürmeye çalışır — Anthropic bu teknikle 34 milyon özellik haritaladı.

✗ Yanlış. SAE, dağıtılmış özellik temsillerini daha yorumlanabilir, tek kavram başına bir özellik içeren bir uzaya ayrıştırmak için kullanılır.

Lab 8: Yorumlanabilirlik Araştırması

Mekanik yorumlanabilirlik tekniklerini ve bulgularını derinlemesine keşfedin.

Görev

Bu laboratuvarda mekanik yorumlanabilirlik alanının güncel araştırmalarını ve bunların güvenli yapay zeka geliştirme için önemini asistanla tartışacaksınız.

Asistanın sorusunu yanıtlayın.
"Logit mercek (logit lens)" tekniğinin araştırmacılara ne gösterdiğini sorun.
Yorumlanabilirlik araştırmalarının yapay zeka politika düzenlemelerine nasıl katkı sağlayabileceğini tartışın.

Öneri: "Bir nöronun 'mutluluk' kavramını temsil ettiğini nasıl doğrularsınız? Bu tür yorumların sınırlılıkları nelerdir?"

🔬 Yorumlanabilirlik Araştırma Asistanı Modül 7 · Lab 8

Modül 7 Testi

Yapay Zeka Nasıl Düşünür — 15 soru · Tüm dersleri kapsıyor

1. Bir büyük dil modelinde softmax fonksiyonunun rolü nedir?

✓ Doğru! Softmax, son çıkış katmanındaki ham skorları olasılığa dönüştürür; model bu dağılımdan örnekleme yapar.

✗ Yanlış. Softmax, ham logit skorlarını toplamı 1 olan olasılık dağılımına çevirir — token seçiminin matematiksel temelidir.

2. Steven Schwartz davasında avukatın temel hatası neydi?

✓ Kesinlikle! BDM çıktısı, istatistiksel tutarlılığı değil, olgusal doğruluğu garanti etmez.

✗ Yanlış. Temel hata, modelin ürettiği sahte emsal kararları herhangi bir doğrulama yapmadan dilekçeye dahil etmekti.

3. GPT-3'ün 175 milyar parametreli modeli nasıl eğitildi?

✓ Doğru! Öz-denetimli öğrenme, etiketlenmiş veriye gerek kalmadan devasa ölçekte eğitimi mümkün kılar.

✗ Yanlış. GPT-3, insan etiketine gerek duymayan öz-denetimli öğrenme — sonraki token tahmini — ile eğitildi.

4. "Attention Is All You Need" makalesinin 2017'de çözdüğü ana sorun hangisiydi?

✓ Doğru! Transformatör, paralel işlemeye olanak tanıyarak NLP'nin seyrini değiştirdi.

✗ Yanlış. Makale, RNN/LSTM mimarilerinin uzun dizilerdeki kısıtlamalarını çözmek için dikkat mekanizmasını önerdi.

5. Air Canada chatbot davasında mahkemenin temel hukuki gerekçesi neydi?

✓ Doğru! Bu karar, yapay zeka yönetişiminde kurumsal sorumluluk için emsal niteliğindedir.

✗ Yanlış. Mahkeme, kurumların kendi yapay zeka sistemlerinin çıktılarından hukuki olarak sorumlu olduğuna hükmetti.

6. Bağlam penceresi dışına çıkan bilgilere BDM ne yapar?

✓ Kesinlikle! Bağlam penceresi, BDM'nin "çalışma belleği"dir — pencerenin dışı model için yoktur.

✗ Yanlış. Bağlam penceresi sınırının ötesine çıkan bilgi, model tarafından erişilemez hâle gelir.

7. Klarna yapay zeka ajanının başarıyla gerçekleştirdiği ve zorlandığı görevler sırasıyla nelerdi?

✓ Doğru! Bu örnek, ajan sistemlerinde rutin ve istisnai durumların ayrı şekilde tasarlanması gerektiğini gösterir.

✗ Yanlış. Klarna ajanı rutin sorguları başarıyla işledi ama karmaşık etik ve hukuki durumlarda yetersiz kaldı.

8. GPT-4o'nun (omni) Scarlett Johansson davasında gündeme gelen etik sorun neydi?

✓ Doğru! Bu dava, ses klonlama ve kimlik haklarının kesiştiği yerde onay (consent) ilkesinin kritikliğini ortaya koydu.

✗ Yanlış. Johansson, izni alınmadan sesine benzer bir ses modunun kullanılmasına itiraz etti — onay ve kimlik hakları meselesi.

9. Mekanik yorumlanabilirlik ile geleneksel "kara kutu" açıklanabilirliği arasındaki temel fark nedir?

✓ Doğru! Mekanik yorumlanabilirlik, "neden" sorusunu iç hesaplamalar üzerinden yanıtlamaya çalışır — siyah kutu açıklamalarından çok daha derindir.

✗ Yanlış. Mekanik yorumlanabilirlik, iç hesaplama devrelerini anlamayı hedefler; geleneksel XAI yöntemleri genellikle girdi-çıktı örüntülerine odaklanır.

10. Halüsinasyon olgusunun RLHF'den (İnsan Geri Bildirimiyle Güçlendirme Öğrenimi) kaynaklanan boyutu nedir?

✓ Doğru! Bu, "sycophancy" (dalkavukluk) olarak da adlandırılan bir RLHF yan etkisidir: model kulağa iyi gelen yanıtları tercih edebilir.

✗ Yanlış. RLHF, modeli insan tercihlerine göre hizalar; ama bu süreçte model "güvenli görünen" yanlış yanıtları "belirsiz ama dürüst" yanıtlara tercih etmeyi öğrenebilir.

11. Konum kodlaması (positional encoding) neden gereklidir?

✓ Kesinlikle! Paralel işleme avantajının bedeli, sıra bilgisinin açıkça kodlanma zorunluluğudur.

✗ Yanlış. Paralel işleme sıra bilgisini doğal olarak korumaz; konum kodlaması bu bilgiyi açıkça token temsillerine ekler.

12. "İstem enjeksiyonu" (prompt injection) saldırısı bir yapay zeka ajanını nasıl etkiler?

✓ Doğru! İstem enjeksiyonu, özellikle dış içerik işleyen (web sayfası, e-posta) ajanlar için kritik bir güvenlik açığıdır.

✗ Yanlış. İstem enjeksiyonu, kötü niyetli içeriğin sistem talimatlarını geçersiz kılarak ajanın istem dışı davranmasına neden olmasıdır.

13. Anthropic'in "Scaling Monosemanticity" çalışması ne elde etti?

✓ Doğru! Bu, mekanik yorumlanabilirlik alanındaki en kapsamlı özellik haritalama çalışmasıdır ve alana büyük ivme kazandırdı.

✗ Yanlış. Çalışma, SAE teknikleriyle Claude Sonnet'te 34 milyon yorumlanabilir özelliği haritaladı — alana büyük ivme katan bir bulgudur.

14. Çok kipli bir modelde "çapraz-kiplik dikkat (cross-modal attention)" ne sağlar?

✓ Kesinlikle! Çapraz-kiplik dikkat, görüntüdeki bir nesnenin adını metin bağlamından öğrenmesine olanak tanıyan köprü mekanizmasıdır.

✗ Yanlış. Çapraz-kiplik dikkat, farklı veri türlerinin dikkat mekanizması aracılığıyla birbirinin bilgisinden yararlanmasını sağlar.

15. "Dağılım kayması" (distribution shift) neden özellikle ajan sistemleri için tehlikelidir?

✓ Doğru! Dağılım kayması ile geri döndürülemez eylem yeteneğinin birleşimi, ajan sistemlerinin en kritik risk faktörlerinden birini oluşturur.

✗ Yanlış. Dağılım kayması, ajanın eğitimde görmediği senaryolarda hatalı ama güvenle hareket etmesine yol açar — geri alınamaz eylemlerle birleşince bu çok tehlikeli olabilir.