Girdiden Çıktıya
Bir metin parçası yapay zekaya girdiğinde gerçekte ne olur? Token'lardan olasılık dağılımlarına uzanan yolculuk.
Bir kelimeyi işlemek ile onu anlamak arasındaki fark nedir?
2023 yılında New York'lu avukat Steven Schwartz, bir dava dilekçesinde altı farklı emsal karar olduğunu ileri sürdü. Hâkim, bu kararların gerçek olup olmadığını sorguladığında ortaya çıkan tablo çarpıcıydı: tüm kararlar ChatGPT tarafından üretilmişti ve hiçbiri mahkeme kayıtlarında mevcut değildi. Schwartz sonradan "yapay zekanın gerçekleri doğrulamak için başvurulabilecek bir veritabanı olduğunu düşündüm" dedi. Federal mahkeme 5.000 dolar para cezasına hükmetti. Bu olay, bir dil modelinin nasıl çalıştığını —yani girdiden çıktıya giden sürecin istatistiksel doğasını— anlamanın ne denli kritik olduğunu tüm dünyaya gösterdi.
Token: Dilin En Küçük Birimi
Büyük dil modelleri (BDM), metni doğrudan harf harf işlemez. Bunun yerine metni token adı verilen parçalara böler. Token, bir harf, bir hece, bir kelime ya da sık kullanılan bir kelime öbeği olabilir. GPT-4 için "İstanbul" kelimesi tek bir token iken "alışveriş merkezi" iki veya üç token'a bölünebilir. Tokenizasyon, modelin söz dağarcığını yönetilebilir bir boyuta indirger —tipik olarak 50.000 ile 100.000 arasındaki bir token sözlüğü kullanılır.
Girdiniz token'lara bölündükten sonra her token, yüksek boyutlu bir vektöre —sayısal bir koordinat kümesine— dönüştürülür. Bu işleme gömme (embedding) denir. Benzer anlamlı kelimeler bu uzayda birbirine yakın konumlanır: "kral" ile "kraliçe" arasındaki vektör mesafesi, "kral" ile "otomobil" arasındakinden çok daha küçüktür.
Tokenizasyon deterministiktir — aynı girdi her zaman aynı token dizisini üretir. Ancak bu token dizisinden üretilen çıktı, sıcaklık (temperature) parametresi nedeniyle stokastiktir (rastlantısaldır). Bu ikisi arasındaki ayrım, Schwartz davasını anlamak için kritiktir.
İşleme Hattı: Adım Adım
Bir BDM'nin girdi-çıktı hattı kabaca şu aşamalardan oluşur:
- Tokenizasyon: Ham metin, token kimliklerine (integer sayılara) dönüştürülür.
- Gömme katmanı: Her token kimliği, yüksek boyutlu bir vektöre eşlenir (GPT-4 için 12.288 boyut).
- Transformatör blokları: Dikkat (attention) mekanizması aracılığıyla token'lar birbirleriyle ilişkilendirilir; bağlam oluşturulur.
- Çıkış katmanı (logit): Model, sözlükteki her token için bir ham skor (logit) üretir.
- Softmax: Ham skorlar olasılık dağılımına dönüştürülür; toplamları 1'dir.
- Örnekleme: Sıcaklık parametresine göre bir token seçilir ve bu süreç tekrarlanır.
Schwartz davası bu hattın son adımını gözler önüne serer: model, daha önce gördüğü binlerce hukuki belgeye dayanarak istatistiksel olarak "makul" görünen bir karar adı üretir. Ancak bu olasılık yüksekliği, gerçekliği garanti etmez.
Çıktı: Anlamın Değil, Olasılığın Ürünü
Burada kavranması gereken en önemli nokta şudur: BDM'ler dünyayı "anlamaz". Model, "bu sonraki token için en yüksek olasılıklı seçenek hangisi?" sorusunu tekrar tekrar yanıtlar. Eğer eğitim verilerindeki hukuki metinlerde "Baskın v. Devlet" gibi yapılar sıkça görüldüyse, model bu yapıyı güven içinde üretir —böyle bir kararın var olup olmadığını bilmeden.
Model çıktısı, doğruluğun değil istatistiksel tutarlılığın ölçüsüdür. Bu ayrım, yapay zekayı araç olarak kullanan her profesyonelin içselleştirmesi gereken temel ilkedir.
Ders 1 Testi
Girdiden çıktıya işleme sürecini ne kadar kavradınız?
Lab 1: Token ve İşleme Hattı
Yapay zeka asistanıyla tokenizasyon ve gömme kavramlarını keşfedin.
Görev
Bu laboratuvarda bir BDM'nin girdi işleme hattını —tokenizasyon, gömme ve softmax aşamalarını— asistanla tartışacaksınız.
- Asistanın açılış sorusunu yanıtlayın.
- "İstanbul" ve "alışveriş merkezi" gibi Türkçe kelimelerin nasıl token'lara ayrıldığını sorun.
- Gömme uzayında hangi kelimelerin birbirine yakın konumlandığını araştırın.
Tahmin Oyunu
Büyük dil modelleri temelde olasılık makineleridir. Bir sonraki token'ı tahmin etmek, görünüşte basit ama son derece güçlü bir eğitim hedefidir.
Bir sonraki kelimeyi tahmin etmek, neden bu kadar güçlü bir öğrenme hedefidir?
OpenAI'nin 2020'de yayımladığı GPT-3 teknik raporu, modelin tek bir eğitim hedefiyle —bir sonraki token'ı tahmin etmek— çeviri, özetleme, kod yazma ve matematik gibi görevlerde hiç görmediği örneklerde bile başarı gösterdiğini ortaya koydu. Bu "ortaya çıkış (emergence)" fenomeni araştırmacıları şaşırttı: kimse modele bu görevleri öğretmemişti. Yalnızca 300 milyar token'lık ham metinden öğrenilmiş sonraki-token tahmini, beklenmedik yetenekler doğurmuştu. Bu bulgu, yapay zeka araştırmalarının yönünü köklü biçimde değiştirdi.
Öz-Denetimli Öğrenme
BDM'lerin eğitimi, öz-denetimli öğrenme (self-supervised learning) adı verilen bir paradigmaya dayanır. İnsanların etiketlediği veriye gerek yoktur; metin kendi içinde eğitim sinyalini barındırır. Bir cümle verildiğinde, model her adımda bir sonraki token'ı tahmin etmeye çalışır, tahminiyle gerçeği karşılaştırır ve hata oranını (kayıp fonksiyonu / loss) azaltmak için ağırlıklarını günceller.
Bu süreç trilyonlarca token üzerinde milyarlarca kez tekrarlandığında, model dilin derin yapısal örüntülerini —sözdizimi, anlamsal ilişkiler, nedensellik kalıpları— içselleştirir. GPT-3'ün 175 milyar parametresi, temelde bu tekrarlı tahmin döngüsünün bir ürünüdür.
Teknik adıyla bu hedef negatif log-olabilirlik minimizasyonu'dur: model, doğru token'a atadığı olasılığı mümkün olduğunca artırmaya çalışır. Basit bir hedef, olağanüstü karmaşık bir dünya modelinin ortaya çıkmasına zemin hazırlar.
Ortaya Çıkış: Beklenmedik Yetenekler
GPT-3'ün raporundaki en çarpıcı bulgu, few-shot öğrenme'ydi: modele yalnızca birkaç örnek gösterildiğinde, görev açıklaması bile yapılmadan yeni görevleri gerçekleştirebildiği gözlemlendi. Model Fransızca-İngilizce çevirisi için eğitilmemişti; ama eğitim verisindeki çeviri örneklerinden bu kalıbı çıkarsamıştı.
Bu ortaya çıkış, model ölçeği büyüdükçe daha belirgin hâle gelir. Stanford'daki araştırmacılar, bazı yeteneklerin belirli bir parametre eşiğinde ani biçimde ortaya çıktığını —öncesinde neredeyse hiç gözlemlenmediğini— saptadı. Bu "faz geçişi" benzeri davranış, BDM araştırmalarının en aktif tartışma konularından biri olmayı sürdürmektedir.
- GPT-2 (2019): Tutarlı paragraflar üretiyor, ancak çok adımlı akıl yürütmede başarısız.
- GPT-3 (2020): Few-shot öğrenme ortaya çıkıyor; kod yazabiliyor.
- GPT-4 (2023): Bar sınavında üst yüzde 10'a giriyor; zincir-düşünce akıl yürütmesi belirginleşiyor.
Sıcaklık: Yaratıcılık mı, Kesinlik mi?
Model bir sonraki token için olasılık dağılımı oluşturduğunda, sıcaklık (temperature) parametresi bu dağılımın ne kadar "sivri" ya da "düz" olacağını belirler. Düşük sıcaklık (≈ 0) en yüksek olasılıklı token'ı neredeyse deterministik biçimde seçer; yüksek sıcaklık (≈ 1 veya üstü) düşük olasılıklı seçeneklere de şans tanıyarak yaratıcı —ama bazen tutarsız— çıktılar üretir.
Hukuki belge üretimi için düşük sıcaklık, yaratıcı yazarlık için yüksek sıcaklık tercih edilir. Schwartz davasında kullanılan modelin sıcaklığı yüksek tutulmuş olsaydı risk artar; düşük tutulmuş olsaydı model yine de var olmayan kararları "güvenle" üretebilirdi —çünkü sorun sıcaklıktan değil eğitim verisindeki örüntülerden kaynaklanıyordu.
Ders 2 Testi
Tahmin mekanizması ve ortaya çıkış olgusunu ne kadar anladınız?
Lab 2: Tahmin ve Ortaya Çıkış
Sıcaklık parametresi ve few-shot öğrenmeyi pratikte keşfedin.
Görev
Bu laboratuvarda BDM'lerin tahmin mekanizmasını ve "ortaya çıkış" olgusunu asistanla inceleyeceksiniz.
- Asistanın sorusunu yanıtlayın.
- Sıcaklığı düşük tutmanın hangi görevler için daha uygun olduğunu sorun.
- GPT-3'ün hangi yeteneklerinin beklenmedik biçimde ortaya çıktığını araştırın.
Mantık Çöktüğünde
Halüsinasyon, bağlam taşması ve dağılım kayması: BDM'lerin sistematik hata biçimlerini ve nedenlerini anlamak.
Bir model neden hiç olmayan bir gerçeği "güvenle" ifade edebilir?
2023 yılında Air Canada, bir yolcuya bilet ücretinin iade edileceğini söyleyen bir chatbot konuşmasını mahkemede savunmak zorunda kaldı. Şirket, chatbot'un "kendi başına hareket eden ayrı bir tüzel kişilik" olduğunu ve verdiği bilgilerin şirketi bağlamadığını öne sürdü. Kanada Küçük İddia Mahkemesi bu savunmayı reddetti: "Air Canada, kendi web sitesindeki chatbot'un eylemlerinden sorumludur." Mahkeme, Air Canada'nın yolcuya 812 Kanada doları ödemesine hükmetti. Bu dava, bir BDM'nin hatalı çıktısının —chatbot bir indirim politikasını yanlış aktarmıştı— gerçek hukuki ve finansal sonuçları olabileceğini gösterdi.
Halüsinasyon: Tanım ve Kökler
Halüsinasyon, bir BDM'nin olgusal olarak yanlış ama biçimsel olarak tutarlı içerik üretmesidir. Bu terim, modelin "yanılması" ya da "yalan söylemesi" anlamına gelmez —model doğru-yanlış ayrımı yapmaz; yalnızca eğitim verisindeki örüntüleri taklit eder.
Halüsinasyonun üç temel kökeni vardır:
- Eğitim verisi boşlukları: Model, eğitim verisinde yer almayan olaylar veya kişiler hakkında soru aldığında, var olan benzer örüntülerden "makul" ama hatalı içerik üretir.
- Olasılık optimizasyonu: Model, doğruluğu değil istatistiksel akışkanlığı optimize eder. "Güven" yalnızca yüksek olasılığı temsil eder.
- RLHF yan etkileri: İnsan geri bildirimiyle güçlendirme öğrenimi (RLHF) süreci sırasında model, "belirsiz ama kabul edilebilir" yanıtları "kesin ama yanlış" yanıtlarla değiştirmeyi öğrenebilir.
Şirket, chatbot'un hatalı bilgi verdiği gerçeğini kabul etti. Asıl mesele sorumluluktu: mahkeme, bir kuruluşun kendi yapay zeka sisteminin çıktılarından sorumlu olduğuna hükmetti. Bu karar, yapay zeka yönetişiminde emsal teşkil etmektedir.
Bağlam Taşması ve Dağılım Kayması
Halüsinasyonun ötesinde iki önemli hata biçimi daha mevcuttur. Bağlam penceresi (context window) sınırlı olduğundan, model uzun konuşmalarda erken belirtilen bilgileri "unutabilir" ya da yanlış ilişkilendirebilir. GPT-4'ün 128.000 token'lık bağlam penceresi bile pratikte, pencerenin ortasındaki bilgilerin sonunda daha az dikkate alındığını gösteren "kayıp ortada (lost in the middle)" bulgusuna konu olmuştur.
Dağılım kayması (distribution shift) ise modelin eğitildiği veri dağılımının, çalışma zamanındaki gerçek dünyanın dağılımından farklılaşmasıdır. 2024'te piyasaya sürülen bir model, 2025'in olaylarından habersizdir; ancak bu boşluklar hakkında soru aldığında hâlâ "yetkin" görünmeye çalışır.
- Çözüm 1 — Grounding (zemin oluşturma): Modeli doğrulanmış kaynaklara (veritabanı, arama motoru) bağlamak.
- Çözüm 2 — RAG (Retrieval-Augmented Generation): Yanıt üretmeden önce ilgili belgeleri getirmek ve bağlama eklemek.
- Çözüm 3 — Yapılandırılmış çıkış: Modelin belirsiz konularda "Bilmiyorum" demesini teşvik eden prompt mühendisliği.
Ders 3 Testi
Halüsinasyon ve hata biçimlerini ne kadar anladınız?
Lab 3: Halüsinasyonu Tespit Etmek
Modellerin hata üretme biçimlerini ve azaltma stratejilerini inceleyin.
Görev
Bu laboratuvarda yapay zeka halüsinasyonunun kökenlerini ve azaltma yöntemlerini asistanla keşfedeceksiniz.
- Asistanın açılış sorusunu yanıtlayın.
- Halüsinasyonun "RLHF yan etkileri"nden nasıl kaynaklanabileceğini sorun.
- Bir kurumsal chatbot geliştiriyorsanız hangi teknik önlemleri alırsınız?
Bellek ve Bağlam
BDM'lerin "belleği" çalışma belleğiyle sınırlıdır. Uzun vadeli bellek illüzyonu nasıl oluşturulur?
Bağlam penceresi ile gerçek bellek arasındaki fark neden kritiktir?
2024 yılında Microsoft'un Copilot for Microsoft 365 ürünü, kurumsal müşterilere "Bing arama geçmişi ve Teams konuşmalarınızı hatırlayan" kişiselleştirilmiş bir asistan vaat etti. Ancak bağımsız araştırmacılar kısa sürede sistemin aslında bağlam penceresini yeniden dolduran bir RAG mimarisi kullandığını gösterdi: model gerçekten "hatırlamıyor", ilgili kısımları her çağrıda getiriyor ve yeniden işliyordu. Bu tespit, bellek kavramının pazarlama söylemiyle teknik gerçeklik arasındaki derin uçurumu gözler önüne serdi; kurumlar gizlilik hesaplarını ve veri saklama politikalarını buna göre yeniden değerlendirmek zorunda kaldı.
Bağlam Penceresi: Sınırlı Çalışma Belleği
Bir BDM'nin "belleği", insan belleğiyle temel bir farkı barındırır: model yalnızca aktif bağlam penceresini "görebilir". Pencerenin dışında kalan her şey, model açısından var olmaz. GPT-4 Turbo'nun 128.000 token'lık penceresi yaklaşık 300 sayfa metne karşılık gelir; bu etkileyici bir boyuttur. Ama bu, her seferinde sıfırdan oluşturulması gereken geçici bir çalışma belleğidir.
Konuşma geçmişini tutan uygulamalar (ChatGPT, Claude.ai vb.) bu sınırı, önceki mesajları her yeni isteğe ekleyerek aşar. Bu yaklaşımın iki bedeli vardır: artan hesaplama maliyeti ve pencerenin dolması halinde eski mesajların "kesilmesi".
KV önbelleği (Key-Value cache), tekrar eden bağlam hesaplamalarını önbelleğe alarak hesaplama maliyetini azaltır. Ancak bu, modelin anıları "depolaması" anlamına gelmez; yalnızca hesaplamayı optimize eder.
Uzun Vadeli Bellek Mimarileri
Gerçek uzun vadeli bellek için üç farklı mimari yaklaşım kullanılmaktadır:
- RAG (Retrieval-Augmented Generation): Konuşma özetleri veya kullanıcı profilleri harici bir vektör veritabanında saklanır. İlgili bilgiler her sorguda getirilip bağlama eklenir. Microsoft Copilot'un gerçekte yaptığı budur.
- İnce ayar (Fine-tuning): Belirli bilgiler, ek eğitimle model ağırlıklarına "kazınır". Ancak bu pahalıdır ve tek bir kullanıcıya göre ayarlamak için pratik değildir.
- Bellek modülleri (örn. MemGPT): Model, kendi bağlam penceresini bir işletim sistemi gibi yöneterek önemli bilgileri açıkça "dışarı yazar" ve geri çağırır.
Microsoft Copilot davası, bu ayrımın neden önemli olduğunu net biçimde ortaya koyar. "Hatırlıyor" demek ile "her seferinde ilgili verileri getiriyor" demek, gizlilik, güvenlik ve veri saklama politikaları açısından birbirinden çok farklı sonuçlar doğurur.
Ders 4 Testi
Bellek mimarileri ve bağlam penceresini ne kadar anladınız?
Lab 4: Bellek ve Bağlam Mimarisi
Bağlam penceresi sınırlılıklarını ve uzun vadeli bellek çözümlerini keşfedin.
Görev
Bu laboratuvarda bağlam penceresi sınırlılıklarını ve farklı bellek mimarilerinin avantaj ile dezavantajlarını asistanla tartışacaksınız.
- Asistanın sorusunu yanıtlayın.
- RAG ile ince ayar (fine-tuning) arasındaki farkı, bir banka müşteri hizmetleri uygulaması için hangisinin daha uygun olduğu bağlamında sorun.
- "Modelin belleği var mı?" sorusunu teknik açıdan doğru biçimde yanıtlamayı deneyin.
Dikkat ve Transformatörler
"Attention Is All You Need" makalesi yapay zekanın seyrini değiştirdi. Dikkat mekanizması neden bu denli güçlü?
Dikkat mekanizması, bir modelin bağlamı anlamasını nasıl sağlar?
2017 yılında Google Brain'den sekiz araştırmacı —Ashish Vaswani, Noam Shazeer ve altı meslektaşı— "Attention Is All You Need" başlıklı makaleyi yayımladı. O güne dek doğal dil işlemede (NLP) hâkim olan yinelemeli sinir ağları (RNN) ve uzun-kısa vadeli bellek ağları (LSTM), uzun dizileri işlerken performans düşüşü yaşıyordu. Transformatör mimarisi bu sorunu kökten çözdü: dikkat mekanizması sayesinde her token, dizideki tüm diğer token'larla doğrudan ilişkilendirilebildi. 2023 itibarıyla makale 100.000'den fazla kez atıf almıştı. GPT, BERT, T5, LLaMA, Claude — günümüzün tüm önde gelen modelleri bu mimaride inşa edilmiştir.
Öz-Dikkat (Self-Attention): Temel Mekanizma
Öz-dikkat mekanizması şu soruyu yanıtlar: "Bu token'ı işlerken dizinin hangi diğer token'larına daha fazla dikkat etmeliyim?" Her token için üç farklı vektör hesaplanır: sorgu (Query, Q), anahtar (Key, K) ve değer (Value, V).
Bir token'ın sorgusu, tüm diğer token'ların anahtarlarıyla iç çarpım yoluyla karşılaştırılır. Benzer Q-K çiftleri yüksek dikkat skoru alır; softmax ile normalize edilir ve değer vektörlerinin ağırlıklı ortalaması alınarak zenginleştirilmiş bir temsil oluşturulur. Bu işlem tüm token'lar için eş zamanlı gerçekleşir —RNN'nin ardışık yapısının aksine paralel işleme mümkün olur.
"Banka nehrin kıyısındaydı" cümlesinde "banka" kelimesinin doğru anlamı (finans kurumu değil, nehir kıyısı anlamı) için dikkat mekanizması "nehir" token'ına yüksek ağırlık atar. Bu bağlamsal disambiguasyon, önceki mimarilerde otomatik olarak gerçekleşmiyordu.
Çok Başlı Dikkat ve Katman Derinliği
Transformatör mimarisi, çok başlı dikkat (multi-head attention) kullanır: dikkat mekanizması paralel olarak birden fazla "baş" (head) ile çalışır. Her baş farklı ilişki türlerini yakalayabilir. Bir baş sözdizimsel bağımlılıklara (özne-fiil uyumu gibi), bir diğeri anlamsal ilişkilere (eşanlamlılar gibi) odaklanabilir.
GPT-4'ün 96 katmanı ve her katmanda 96 dikkat başı bulunduğu tahmin edilmektedir. Bu derinlik, modelin giderek soyutlaşan temsiller oluşturmasını sağlar: alt katmanlar sözdizimsel örüntüleri, üst katmanlar anlamsal ve bağlamsal ilişkileri kodlar. "Attention Is All You Need" makalesinin önemi tam da burada yatar: yalnızca dikkat ve ileri besleme katmanlarıyla derin bir yetenek hiyerarşisi inşa etmek mümkündür.
- Konum kodlaması (Positional encoding): Transformatörler dizileri paralel işlediğinden, token'ların sıra bilgisi ayrıca kodlanmalıdır.
- Artık bağlantılar (Residual connections): Gradyanların derin ağlarda kaybolmasını önler.
- Katman normalizasyonu: Eğitimi stabilize eder ve daha hızlı yakınsama sağlar.
Ders 5 Testi
Dikkat mekanizması ve transformatör mimarisini ne kadar anladınız?
Lab 5: Dikkat Mekanizması
Transformatör mimarisi ve dikkat mekanizmasını derinlemesine inceleyin.
Görev
Bu laboratuvarda dikkat mekanizmasının gerçek dünya örüntülerini nasıl yakaladığını ve transformatör mimarisinin neden bu denli ölçeklenebilir olduğunu asistanla keşfedeceksiniz.
- Asistanın sorusunu yanıtlayın.
- Konum kodlamasının (positional encoding) neden gerekli olduğunu ve nasıl çalıştığını sorun.
- GPT ve BERT mimarilerinin dikkat mekanizmasını nasıl farklı kullandığını araştırın.
Ajanlar ve Araç Kullanımı
BDM'ler artık yalnızca metin üretmiyor: arama yapıyor, kod çalıştırıyor, API çağırıyor. Otonom karar alma yeteneği neler getirir?
Bir yapay zeka ajanı kendi kararlarını verdiğinde sorumluluk kime aittir?
2024 yılının başında, Klarna'nın yapay zeka müşteri hizmetleri ajanı aylık 35 milyon konuşmayı işliyordu ve şirket bu sistemin 700 tam zamanlı çalışana eşdeğer iş yaptığını açıkladı. Ajanın çalışma prensibi şöyleydi: kullanıcı mesajı → niyeti sınıflandır → ilgili araçları seç (ödeme sistemi API'si, sipariş veritabanı, iade modülü) → araç çıktılarını bağlama ekle → yanıt üret. Ancak Klarna aynı dönemde, ajanın karmaşık hukuki ve etik durumları insan çalışana devretme konusunda yetersiz kaldığını ve bazı durumlarda hatalı iade onayları verdiğini kabul etti. Etkililik ile güvenilirlik arasındaki denge, ajan sistemlerinin merkezi açık sorunudur.
Ajan Mimarisi: Döngüsel Akıl Yürütme
Bir yapay zeka ajanı, BDM'yi bir "beyin" olarak kullanan, araçlarla donatılmış bir sistemdir. Temel döngü şu şekilde işler: Gözlemle → Planla → Eyleme geç → Gözlemle. Bu döngü, görev tamamlanana veya bir sınıra ulaşılana kadar tekrarlanır.
ReAct (Reason + Act) çerçevesi, modelin her adımda hem düşüncesini (reasoning trace) hem de eylemini açıkça üretmesini sağlar. Bu sayede ajan davranışı izlenebilir hâle gelir; hatalar daha kolay tespit edilir.
Tipik ajan araçları: web arama, kod yorumlayıcı (Python çalıştırma), veritabanı sorgusu, harici API çağrısı, dosya okuma/yazma, e-posta gönderme. Her araç, modele ek bağlam bilgisi sağlar ve modelin yalnızca parametrelerinde kodlanmış bilgiyle sınırlı kalmasını önler.
Çok Ajanlı Sistemler ve Risk
Birden fazla ajanın iş birliği yaptığı sistemlerde (AutoGen, CrewAI gibi çerçeveler), karmaşıklık katlanarak artar. Bir ajan diğerine görev devreder; hata da aynı şekilde yayılır. Klarna örneğinde olduğu gibi, hangi kararların insan denetimine sunulacağını belirlemek —insan-döngüde (human-in-the-loop)— kritik bir tasarım kararıdır.
- İstem enjeksiyonu (Prompt injection): Kötü niyetli içerik, ajanın araç çağrısı davranışını manipüle edebilir.
- Geri döndürülemez eylemler: Ajan bir e-posta gönderdiyse ya da bir siparişi iptal ettiyse geri alınamaz.
- Hedef sürüklenmesi (Goal drift): Uzun görevlerde ajan, başlangıçtaki hedeften sapabilir.
- Minimum ayrıcalık ilkesi: Ajana yalnızca görevi için zorunlu izinler verilmelidir.
Ders 6 Testi
Ajan mimarileri ve araç kullanımını ne kadar anladınız?
Lab 6: Ajan Tasarımı ve Riskleri
Ajan mimarilerini, araç kullanımını ve güvenlik açıklarını keşfedin.
Görev
Bu laboratuvarda bir yapay zeka ajanı tasarlarken karşılaşılan temel kararları ve riskleri asistanla tartışacaksınız.
- Asistanın sorusunu yanıtlayın.
- İstem enjeksiyonu saldırısının nasıl çalıştığını ve nasıl önlenebileceğini sorun.
- Bir seyahat planlama ajanı için "insan-döngüde" eşik noktalarını tasarlayın.
Çok Kipli Yapay Zeka
GPT-4V, Gemini ve DALL-E 3: görüntü, ses ve metin aynı modelde. Farklı kiplikler nasıl birleştirilir?
Bir model hem görmeyi hem de okumayı öğrendiğinde ne değişir?
2024 yılı Mayıs ayında OpenAI, GPT-4o'yu (o = "omni", Latince "her şey") tanıttı. Sistem, metin, ses ve görüntüyü tek bir uçtan uca modelde entegre ediyordu: önceki ChatGPT'nin ayrı transkripsiyon-metin-sentez hattının aksine ham ses doğrudan modele giriyordu. Demo gösterimlerinde model ses tonunu gerçek zamanlı olarak yorumlayabiliyor, aynı anda ekrandaki görüntüye bakıp konuşmayı sürdürebiliyor, kullanıcıya sözünü kestirmeden yanıt verebiliyordu. Ancak birkaç gün içinde bir ses modu, aktris Scarlett Johansson'ın sesiyle anımsatıcı benzerliği nedeniyle —ve johansson'ın izni alınmadan— kaldırıldı. Çok kipli yetenekler, yeni teknik güçler ve yeni etik sorumluluklarla birlikte gelir.
Kiplik Entegrasyonu: Farklı Yaklaşımlar
Çok kipli modeller (multimodal models), farklı veri türlerini nasıl entegre ettiğine göre iki temel mimariye ayrılır:
- Çapraz-kiplik dikkat (Cross-modal attention): Her kiplik (metin, görüntü, ses) ayrı kodlayıcıyla işlenir; ardından dikkat mekanizması kiplikleri arasındaki ilişkileri kurar. CLIP modeli bu yaklaşımın erken örneklerinden biridir.
- Yerel çok kipli model: GPT-4o gibi sistemler, farklı kiplikleri tek bir token uzayında birleştirerek işler. Görüntü "parçalara" (patch'lere) bölünür, her parça bir token olarak temsil edilir ve metin token'larıyla aynı transformatör bloğundan geçer.
GPT-4V'nin medikal görüntü analizinde radyologlarla karşılaştırıldığı 2023 tarihli bir çalışmada, model bazı görevlerde uzman radyologlarla kıyaslanabilir performans sergiledi. Ancak araştırmacılar modelin "akıl yürütme izinin" çoğu zaman yanlış olduğunu da belirtti: doğru yanıta yanlış nedenler üzerinden ulaşmak, klinik güvenilirlik için yeterli değildir.
Görüntü Üretimi: Difüzyon ve Transformatörler
DALL-E 3, Midjourney ve Stable Diffusion gibi görüntü üretim sistemleri farklı bir mimari kullanır: difüzyon modeli (diffusion model). Bu modeller, saf gürültüden başlayarak adım adım görüntü oluşturur. Metin koşullaması, CLIP benzeri bir kodlayıcıyla sağlanır: metin gömmeleri, hangi görüntü özelliklerinin üretileceğini yönlendirir.
GPT-4o'nun "omni" yaklaşımı bu ayrışmayı ortadan kaldırmayı hedefler: tek bir model tüm kiplikleri hem anlayabilir hem üretebilir. Ancak bu bütünleşme yeni güvenlik zorlukları da doğurur. Ses klonlama, deepfake görüntü, yanıltıcı içerik üretimi gibi riskler, her yeni kiplik eklendikçe genişler.
- Scarlett Johansson davası: Onay alınmadan ses benzerliği, kimlik hakları ve veri kullanımı konusunda sektörü derinden sarstı.
- Filigran (Watermarking): C2PA standardı, yapay zeka tarafından üretilen görsel içeriklere kriptografik meta veri eklemeyi hedefler.
- Ses ve görüntü doğrulaması: Deepfake tespiti için özel sınıflandırıcı modeller geliştirilmektedir.
Ders 7 Testi
Çok kipli yapay zeka mimarilerini ne kadar anladınız?
Lab 7: Çok Kipli Sistemler
Görüntü, ses ve metin entegrasyonunun teknik ve etik boyutlarını keşfedin.
Görev
Bu laboratuvarda çok kipli yapay zeka sistemlerinin mimarisi, yetenekleri ve getirdiği etik zorlukları asistanla tartışacaksınız.
- Asistanın sorusunu yanıtlayın.
- C2PA standardının yapay zeka tarafından üretilen içerikleri nasıl işaretlediğini sorun.
- Bir gazetecilik kuruluşu için çok kipli yapay zeka kullanım politikası nasıl tasarlanmalı?
Yorumlanabilirlik: Kara Kutunun İçinde
Mekanik yorumlanabilirlik, süperpozisyon hipotezi ve devresel analiz: nöron ne düşünüyor?
Bir modelin neden böyle karar verdiğini anlamak mümkün müdür?
2023 yılında Anthropic'in araştırmacıları Claude modelinde tek bir nöronu inceledi. Bu nöron, "Altın Köprüsü" (Golden Gate Bridge) adı geçen bağlamlarla aktivasyon gösteriyordu. Araştırmacılar daha ileri giderek bu nöronu aşırı biçimde aktive etti: "Golden Gate Claude" adını verdikleri bu versiyonda model, neredeyse her konuşmayı Golden Gate Köprüsü'ne bağlıyor, hatta kendini köprü olarak tanımlıyordu. Bu deney, mekanik yorumlanabilirlik (mechanistic interpretability) alanının ne kadar güçlü bir araç olduğunu ortaya koydu —ama aynı zamanda modelin dünya temsilinin ne denli tuhaf, dağıtılmış ve manipüle edilebilir olduğunu da gösterdi.
Mekanik Yorumlanabilirlik
Mekanik yorumlanabilirlik (mechanistic interpretability), bir sinir ağının belirli hesaplama alt devrelerini tersine mühendislik yöntemiyle anlama disiplinidir. Hedef, "model bunu neden üretti?" sorusunu yalnızca çıktı üzerinden değil, modelin iç hesaplamaları üzerinden yanıtlamaktır.
Anthropic'in "Circuits" çalışması, modelin belirli yeteneklerini (örn. üst baş harften sonraki küçük harfi tahmin etmek) yürüten özgün nöron devrelerini haritaladı. DeepMind ve diğer grupların da katkıda bulunduğu bu alan, günümüzde en hızlı büyüyen yapay zeka araştırma alanlarından biridir.
Yorumlanabilirlik olmaksızın güvenli yapay zeka geliştirmek körlüğe benzer. Model belirli bir kararı hangi iç süreçlerle aldığını anlayamazsak, hangi durumlarda başarısız olacağını öngöremeyiz. AB Yapay Zeka Kanunu ve ABD yürütme kararnameleri, yüksek riskli sistemler için açıklanabilirlik gerektirmektedir.
Süperpozisyon ve Özellik Seyrekliği
Yorumlanabilirlik araştırmalarının en çarpıcı bulgularından biri süperpozisyon hipotezi'dir (superposition hypothesis). Ağ, sahip olduğundan çok daha fazla "özelliği" (feature — kavramı, ilişkiyi, olguyu) kodlayabilir, çünkü her özellik tek bir nöron yerine birden fazla nörona dağıtılmış şekilde temsil edilir.
Bu, modelin kapasitesini dramatik biçimde artırır —ama yorumlanabilirliği zorlaştırır: tek bir nöron birçok farklı kavramla ilişkili olabilir. Sparse Autoencoder (SAE) teknikleri, bu dağıtık temsilleri daha yorumlanabilir "tek kavram per özellik" biçimine ayrıştırmaya çalışır. Anthropic'in 2024 tarihli "Scaling Monosemanticity" çalışması, Claude Sonnet modelinde 34 milyon özellik haritaladı.
- Dikkat başı analizi: Hangi dikkat başlarının sözdizimsel, hangilerinin anlamsal görevleri üstlendiği araştırılır.
- Aktivasyon yamalama (activation patching): Bir nöronun aktivasyonu değiştirilerek davranış üzerindeki etkisi ölçülür.
- Logit mercek (logit lens): Her katmandan sonra modelin o ana kadarki tahmininin ne olduğu görüntülenir.
- Golden Gate Claude deneyi: Tek bir özelliğin aşırı aktivasyonu, modelin kimliğini bile değiştirebilir —bu, güvenlik açısından derin bir bulgudur.
Ders 8 Testi
Yorumlanabilirlik ve mekanik analizi ne kadar anladınız?
Lab 8: Yorumlanabilirlik Araştırması
Mekanik yorumlanabilirlik tekniklerini ve bulgularını derinlemesine keşfedin.
Görev
Bu laboratuvarda mekanik yorumlanabilirlik alanının güncel araştırmalarını ve bunların güvenli yapay zeka geliştirme için önemini asistanla tartışacaksınız.
- Asistanın sorusunu yanıtlayın.
- "Logit mercek (logit lens)" tekniğinin araştırmacılara ne gösterdiğini sorun.
- Yorumlanabilirlik araştırmalarının yapay zeka politika düzenlemelerine nasıl katkı sağlayabileceğini tartışın.
Modül 7 Testi
Yapay Zeka Nasıl Düşünür — 15 soru · Tüm dersleri kapsıyor