Önce Sorunu Tanımla
Çözüm aramadan önce neyi çözdüğünüzü bilmek, başarılı YZ sistemlerinin temel koşuludur.
Bir YZ sistemi ne zaman yanlış problemi çözer?
2018 yılında Amazon, dahili bir işe alım YZ aracının kadın adayları sistematik olarak dezavantajlı konuma düşürdüğünü tespit etti. Sistem, 2004–2014 yılları arasında şirkete gönderilen özgeçmişler üzerinde eğitilmişti; bu dönemdeki başvuranların büyük çoğunluğu erkekti. Sorun teknik değildi: model tam olarak öğrenmesi gerekeni öğrenmişti. Sorun, problem tanımının kendisindeydi. Ekip "geçmişteki başarılı çalışanlara benzeyen adayları bul" diye sormuştu; ancak geçmişin kendisi zaten eşitsizlik barındırıyordu. Amazon sistemi kullanıma sokmadı, fakat bu karar iki yıllık geliştirme sürecinin ardından geldi.
YZ sistemleri, kendilerine sorulan soruyu optimize eder — sormayı istediğiniz soruyu değil. Amazon vakası bu ayrımı açıkça ortaya koyar: ekip teknik açıdan başarılı bir sistem inşa etti, ancak yanlış bir hedefi optimize etti. Problem tanımı yanlış olduğunda, sistem ne kadar iyi çalışırsa o kadar fazla zarar verir.
Bu durum yazılım mühendisliğinde "hedef uyumsuzluğu" (specification misalignment) olarak adlandırılır. Optimizasyon hedefi ile gerçek dünya amacı birbirinden ayrışır. YZ'nin ayırt edici özelliği, bu uyumsuzluğu ölçekte ve hızla çalıştırabilmesidir.
Etkili YZ tasarımı, sistem mimarisinden önce dört temel soruyu yanıtlamayı gerektirir:
- Gerçek hedef nedir? — Ölçtüğünüz şey gerçekten önemseyen şeyi yansıtıyor mu? Tıklama oranı kullanıcı memnuniyeti değildir; geçmiş işe alım kararları adil değerlendirme değildir.
- Kimin için çözüyor? — Sistemin etkileyeceği tüm paydaş gruplarını ve bu grupların birbirinden farklı ihtiyaçlarını listeleyin.
- Hangi kısıtlamalar geçerli? — Yasal sınırlar, etik çerçeveler, operasyonel limitleri önceden belirleyin.
- Başarı nasıl ölçülecek? — Hem model performansı hem de gerçek dünya sonuçları için ayrı metrikler tanımlayın.
"Proxy metrik" (vekil ölçüt), gerçek hedefin yerine kullanılan ölçülebilir bir göstergedir. Proxy metrikleri genellikle kısayol sunar; ancak optimizasyon baskısı altında gerçek hedeften kopma eğilimi gösterirler. Amazon özgeçmiş sıralama skoru bir proxy metrikti; adayın gerçek potansiyeli değildi.
Büyük teknoloji şirketlerinin YZ projeleri için model kartları ve sistem belgeleri oluşturması giderek yaygınlaşmaktadır. Google, 2018 yılında "Model Cards for Model Reporting" (Model Raporlama için Model Kartları) çerçevesini yayımladı. Bu belgeler; modelin amaçlanan kullanım alanlarını, değerlendirme koşullarını ve bilinen sınırlılıklarını kaydeder.
Belgeleme disiplini, ekipleri problem tanımını açıkça dile getirmeye zorlar. Belirsiz kalan hedefler bu süreçte görünür hale gelir. 2019'da yapılan bir Stanford araştırması, dağıtıma hazır tıbbi YZ modellerinin %92'sinin bu tür belgeleme standartlarını karşılamadığını ortaya koydu; bu durum, klinik ortamlarda ne optimize edildiğinin çoğunlukla bilinmediği anlamına geliyordu.
Ders 1 Sınavı
Önce Sorunu Tanımla
Lab 1 — Problem Tanımı Çerçevesi
YZ sistemi tasarımı için problem tanımı geliştirme pratiği.
Pratik Görev
Bu laboratuvarda gerçek bir senaryo üzerinde çalışarak problem tanımı sürecini adım adım uygulayacaksınız. YZ danışmanı rolündeki asistan size yönlendirici sorular soracaktır.
- Asistanın açılış sorusunu dikkatlice okuyun.
- Bir eğitim kurumunun öğrenci başarı tahmini için YZ sistemi kurmak istediğini varsayın. Bu senaryoyu kullanarak yanıtlarınızı geliştirin.
- En az üç mesaj alışverişi gerçekleştirin; gerçek hedef, proxy metrikler ve kısıtlamalar konularını ele alın.
Tasarım Olarak Prompt
Bir YZ sistemine ne söylediğiniz, sistemin nasıl davranacağını belirleyen mimari karardır.
Bir prompt'u değiştirmek, bir sistemi yeniden tasarlamak mıdır?
2023 yılında araştırmacılar, farklı dil modellerinin aynı tıbbi soruları farklı şekilde çerçevelendiğinde nasıl yanıt verdiğini inceledi. "Bu hastanın durumu ne?" yerine "Bu hastanın durumunu değerlendirin ve olası riskleri listeleyin" ifadesi kullanıldığında, modellerin klinik açıdan anlamlı ek bilgi ürettiği görüldü. Stanford Tıp Okulu araştırmacıları, prompt yapısının model çıktısının kalitesini kimi zaman %40'a kadar değiştirebildiğini raporladı. Bu bulgu, prompt yazmayı bireysel bir metin yazarlığı becerisi olmaktan çıkarıp mühendislik disiplini olarak konumlandırdı.
Geleneksel yazılımda davranış koda yazılır; bir fonksiyonun ne yapacağı açıkça tanımlanır. Büyük dil modellerinde (LLM) davranışın önemli bir kısmı çalışma zamanında, prompt aracılığıyla şekillenir. Bu durum, prompt'u hem bir girdi hem de bir mimarı unsur haline getirir.
Sistem prompt'u (sistem yönergesi) ile kullanıcı prompt'u arasındaki ayrım kritiktir. Sistem prompt'u, modelin ne olduğunu ve neyi yapmaması gerektiğini tanımlar; kullanıcı prompt'u ise belirli bir görevi iletir. Bu iki katmanın her biri farklı tasarım kararları gerektirir.
Araştırmalar ve endüstriyel uygulama birikimi, tutarlı biçimde işe yarayan bazı yapısal ilkeleri ortaya koymuştur:
- Rol ve bağlam belirtin: Modelin kim olduğunu ve hangi ortamda çalıştığını tanımlayın. "Bir hukuk firmasında çalışan bir asistansın; Türk hukuku hakkında genel bilgi verir, ancak spesifik hukuki tavsiye vermezsin."
- Çıktı formatını tanımlayın: İstenen yapıyı açıkça belirtin. Madde listesi mi, paragraf mı, JSON formatı mı? Belirsizlik, tutarsız çıktılara yol açar.
- Kısıtlamaları önceden yazın: Modelin yapmaması gerekenleri, yapması gerekenlerin yanına ekleyin. "Kaynak vermeden iddia öne sürme" gibi negatif kısıtlamalar önemlidir.
- Örnekler ekleyin (few-shot prompting): İstenen davranışın somut örneklerini sağlamak, açıklamadan çok daha etkilidir.
Prompt injection (prompt enjeksiyonu) saldırısı, kullanıcıların sistem prompt'unu geçersiz kılmak için crafted girdi kullanmasıdır. 2023'te araştırmacılar, pek çok ticari YZ uygulamasının bu saldırıya karşı savunmasız olduğunu gösterdi. Prompt tasarımı bu güvenlik boyutunu da kapsar.
Üretim ortamındaki YZ uygulamalarında prompt'lar zaman içinde değişir. Herhangi bir prompt değişikliği, kod değişikliğiyle eşdeğer sonuçlar doğurabilir. Bu nedenle endüstri pratiği, prompt'ları kod tabanında sürümlü belgeler olarak yönetmeye yönelmektedir.
Anthropic, OpenAI ve Google'ın yayımladığı geliştirici kılavuzlarının tamamı, üretim prompt'larının değişiklikler arasında sistemli biçimde test edilmesini önermektedir. Bir prompt'u değiştirmek, tüm değerlendirme setini yeniden çalıştırmayı gerektirir — tıpkı bir kütüphane güncellemesinin regresyon testini tetiklemesi gibi.
Ders 2 Sınavı
Tasarım Olarak Prompt
Lab 2 — Prompt Tasarım Atölyesi
Sistem ve kullanıcı prompt'larını tasarlarken tasarım kararlarını analiz etme.
Pratik Görev
Bu laboratuvarda bir müşteri destek YZ asistanı için sistem prompt'u tasarlayacaksınız. Asistan sizden senaryo hakkında sorular soracak ve tasarım kararlarınızı birlikte değerlendireceksiniz.
- Bir e-ticaret şirketi için müşteri destek YZ asistanı kurduğunuzu varsayın.
- Asistanın açılış sorusuna yanıt verin; rol, kısıtlamalar ve format tercihlerinizi paylaşın.
- Prompt injection riskini ve birden fazla dil desteğini de tartışmaya dahil edin.
YZ Çıktısını Değerlendirme
Bir YZ sisteminin iyi çalışıp çalışmadığını anlamak, sistemi inşa etmek kadar kritiktir.
Bir YZ çıktısının "doğru" olduğunu nasıl bilebiliriz?
2023 yılında New York'lu avukatlar Steven Schwartz ve Peter LoDuca, bir dava dilekçesinde ChatGPT'nin ürettiği yasal emsal kararlarını kaynak olarak sundu. Söz konusu kararların hiçbiri gerçekte mevcut değildi — model, gerçekmiş gibi görünen ama var olmayan içtihatlar üretti. Federal Yargıç P. Kevin Castel, avukatlara 5.000 dolar para cezası kesti. Avukatlar daha sonra çıktıları bağımsız bir hukuk veri tabanında doğrulamadıklarını itiraf etti. Hata, modelde değil değerlendirme sürecinin yokluğundaydı.
YZ çıktısını değerlendirmek çok boyutludur. Avukat davası olgusal doğruluk sorununu gösterir; ancak değerlendirme yalnızca "bu doğru mu?" sorusunu kapsamaz. İyi bir değerlendirme çerçevesi dört soruyu birlikte sorar:
- Olgusal doğruluk: İddialar bağımsız kaynaklarla doğrulanabilir mi? Hallüsinasyon (uydurma) var mı?
- Görev uygunluğu: Çıktı, belirlenen problemi gerçekten çözüyor mu? Teknik olarak doğru ama pratik açıdan işe yaramaz bir yanıt, değersizdir.
- Zararlılık kontrolü: Çıktı, kullanıcıya veya üçüncü taraflara zarar verebilecek içerik barındırıyor mu?
- Tutarlılık: Benzer sorgular benzer ve tahmin edilebilir yanıtlar üretiyor mu?
"Hallüsinasyon" (halüsinasyon), dil modellerinin gerçek olmayan bilgileri güvenle sunmasıdır. Bu terim teknik bir arızayı değil, sistemin nasıl çalıştığını yansıtır: modeller olasılıksal sözdizim üretir, olgusal veritabanı sorgulamaz.
Endüstri pratiğinde üç temel değerlendirme yöntemi kullanılır: otomatik metrikler, insan değerlendirmesi ve kıyaslama setleri (benchmark). Her birinin güçlü ve zayıf yanları vardır.
Otomatik metrikler (BLEU, ROUGE, doğruluk skoru) ölçeklenebilir ama kaba sonuçlar üretir. İnsan değerlendirmesi nüans yakalamada üstündür, ancak pahalı ve yavaştır. Kıyaslama setleri (MMLU, HellaSwag gibi standart test koleksiyonları) karşılaştırmalı analiz sağlar; ancak kıyaslamanın kendisi zamanla aşınır — modeller benchmark'ları "ezberleyebilir".
Meta'nın 2023 tarihli LLM değerlendirme raporu, hiçbir tek metriğin yeterli olmadığını; çoklu yöntemlerin birleştirilmesinin endüstri standardı haline gelmesi gerektiğini vurguladı.
Avukat vakasının dersi açıktır: doğrulama sorumluluğunu bireysel dikkata bırakmak yeterli değildir. Yüksek riskli YZ uygulamaları için doğrulama adımları iş akışına inşa edilmelidir — isteğe bağlı değil, zorunlu adım olarak.
Tıbbi YZ girişimi Babylon Health, 2022'de dağıtım sonrası izleme mekanizmasının yetersizliği nedeniyle eleştiri aldı. Klinisyenlerin sistemi doğrulama yerine onaylama aracı olarak kullandığı görüldü; bu durum otomasyon önyargısı (automation bias) sorununu gündeme taşıdı.
Ders 3 Sınavı
YZ Çıktısını Değerlendirme
Lab 3 — Çıktı Değerlendirme Çerçevesi
Gerçek bir YZ çıktısını dört boyutlu değerlendirme kriterlerine göre analiz etme.
Pratik Görev
Bu laboratuvarda bir müşteri destek botunun ürettiği varsayımsal yanıtı değerlendireceksiniz. Asistan sizi değerlendirme süreci boyunca yönlendirecektir.
- Asistanın başlangıç sorusunu okuyun ve örnek bir YZ çıktısı için değerlendirme rubriği geliştirin.
- Olgusal doğruluk, görev uygunluğu, zararlılık ve tutarlılık boyutlarının her birini ele alın.
- Hangi boyutun sizin senaryonuzda en kritik olduğunu ve neden gerekçelendirin.
İnsan-YZ İş Akışı Tasarımı
YZ'nin nerede devreye girdiği ve insanın nerede kontrol aldığı, sistemin güvenilirliğini belirler.
İş akışında YZ'ye ne kadar karar verme yetkisi verilmeli?
Uber'in 2018 Tempe kazasında otonom aracı, yolda yürüyen Elaine Herzberg'i tespit etti ancak kaza önleme sistemi devre dışı bırakılmıştı. Güvenlik sürücüsü o an ekrana bakıyordu. Soruşturma raporları, sistemin insan devreye girmesi için tasarlandığını ortaya koydu; ne var ki iş akışı tasarımı güvenlik sürücüsünün dikkatini sürdürmesini fiilen sağlayacak mekanizmaları içermiyordu. Bu, insan gözetimi gerektiren ancak insanı etkili biçimde dışlayan bir iş akışının trajik sonucuydu.
İnsan-YZ iş akışları iki temel yapısal modelle tanımlanır. "Human-in-the-loop" (HITL — döngüde insan): her karar veya her belirli sayıda karar için insan onayı gerekir. "Human-on-the-loop" (HOTL — döngü üzerinde insan): sistem otonom çalışır, insan sonuçları izler ve müdahale edebilir.
Bu seçim, yalnızca bir verimlilik tercihi değildir. Gözetim modelinin yanlış seçilmesi — Uber vakasında olduğu gibi — sistematik güvenlik açıkları yaratır. Hangi kararların yüksek riskli olduğu, hata maliyetinin ne kadar geri döndürülemez olduğu ve müdahale için ne kadar zaman olduğu bu seçimi belirler.
Etkili insan-YZ iş akışı tasarımı, hangi görevlerin YZ'ye, hangilerinin insana ve hangilerinin ikisinin kombinasyonuna atandığını netleştirir. Bu ayrım şu ölçütlere dayanır:
- Hata geri döndürülebilirliği: Yanlış bir YZ kararının sonuçları ne kadar kolay düzeltilebilir? Geri dönüşü olmayan kararlar için insan onayı şarttır.
- Karar hızı: İnsan müdahalesi için gerçekçi zaman var mı? Milisaniyeler içinde karar gereken sistemlerde HITL pratikte uygulanamaz.
- Bağlam zenginliği: YZ'nin erişemediği sosyal, duygusal veya etik bağlam gerektiren kararlar insana bırakılmalıdır.
- Hesap verebilirlik: Kararın hukuki veya etik sorumluluğunu kimin üstlendiği, gözetim modelini doğrudan şekillendirir.
Gmail'in "Akıllı Yanıt" özelliği, öneriler sunar ancak göndermez. Bu HITL tasarımının bilinçli bir tercihidir: YZ verimliliği artırır, insan son kararı verir. Buna karşın otomatik randevu onaylama gibi özellikler HOTL mimarisini benimser — iptali mümkün olduğu için.
Uber vakasının kritik bir dersi daha vardır: iş akışı tasarımı gözetim gerektiriyorsa, bu gözetimi güvenilir biçimde sürdürecek koşullar da tasarlanmalıdır. İnsanlar tekrarlayan, düşük uyarıcılı ortamlarda zamanla dikkatlerini kaybeder. Bu "dikkat yorgunluğu" (vigilance decrement) psikoloji literatüründe iyi belgelenmiştir.
Boeing 737 MAX otomasyonuyla ilgili araştırmalar da benzer bir sorunu ortaya koydu: pilotlara sistemi nadiren devre dışı bırakmaları gerektiği söylendi, ancak gerçekten gerektiğinde manuel müdahale yeteneği körelmişti. Sürdürülebilir bir gözetim mimarisi inşa etmek, yalnızca bir onay butonu eklemekten çok daha fazlasını gerektirir.
Ders 4 Sınavı
İnsan-YZ İş Akışı Tasarımı
Lab 4 — İş Akışı Tasarımı Atölyesi
Belirli bir senaryo için HITL/HOTL kararını ve gözetim mekanizmalarını tasarlama.
Pratik Görev
Bir hastane, hastaların test sonuçlarını yorumlayan ve doktora öneri sunan bir YZ sistemi kurmak istiyor. Bu sistem için iş akışı mimarisini tasarlayacaksınız.
- Asistanın açılış sorusunu yanıtlayarak hangi kararların otomatik, hangilerinin insan onaylı olması gerektiğini belirleyin.
- Dikkat yorgunluğunu nasıl azaltacağınızı ve gözetim sürdürülebilirliğini nasıl sağlayacağınızı tartışın.
- Tasarımınızın zayıf noktalarını ve bu zayıflıkları gidermek için ne yapabileceğinizi belirleyin.
Test ve Kırmızı Takım
Sistemi bulmadan önce başkası buluyor — kasıtlı kırılma testleri bu riski minimize eder.
Bir YZ sistemi güvenli olduğunu nasıl kanıtlar?
2022 yılında Meta, LLaMA modelinin öncülü olan bir dil modelini araştırmacılarla paylaştı. Kısa süre içinde bağımsız araştırmacılar, modelin zararlı içerik üretmesi için oldukça basit yöntemler yeterli olduğunu keşfetti. Meta, dağıtımdan önce yeterli kırmızı takım (red team) testi yapılmadığını kabul etti. Bu durum, "güvenli olmadığını bilmeden dağıtma" ile "test edilmiş ancak sorunlar kabul edilen dağıtım" arasındaki farkın ne kadar önemli olduğunu somutlaştırdı.
Kırmızı takım (red teaming), orijinal olarak askeri stratejiden ödünç alınan bir kavramdır: bağımsız bir grup, rakip bakış açısından sistemi bozmaya çalışır. YZ bağlamında bu, bir sistemin güvenlik kısıtlamalarını atlatmayı, yanlış yönlendirici çıktılar üretmeyi veya beklenmedik biçimde davranmayı sistematik olarak denemek anlamına gelir.
OpenAI, GPT-4'ün dağıtımından önce 50'den fazla alanda uzman dış araştırmacıyı kırmızı takım testi için görevlendirdi. Bu araştırmacılar biyolojik silah üretimi bilgisi, seçim manipülasyonu ve kimlik doğrulama atlatma gibi belirli risk kategorilerini sistematik biçimde test etti. Bu yaklaşım endüstri standardı haline gelmektedir.
Kapsamlı bir YZ test programı birden fazla katmanı kapsar:
- Birim testi: Belirli girdilere verilen yanıtları izole biçimde test etme. "Bu prompt güvenli bir yanıt üretiyor mu?"
- Entegrasyon testi: YZ bileşeninin daha geniş sistemle etkileşimini test etme. Veri tabanı yanıtları, API çağrıları ve kullanıcı arayüzü entegrasyonu.
- Adversarial test (karşıt test): Sistemi bozmaya yönelik kasıtlı girdi tasarlama. Kırmızı takım bu kategoriye girer.
- Dağıtım kayması (distribution shift) testi: Eğitim verisinden farklı gerçek dünya girdilerine karşı performansı ölçme.
"Jailbreaking" (kilit kırma), kullanıcıların bir YZ modelinin güvenlik kısıtlamalarını atlatmak için özel yöntemler kullanmasıdır. Bu daha geniş adversarial test kategorisinin bir alt kümesidir ve kırmızı takım sürecinde sistematik olarak araştırılması gereken bir alandır.
Test, sorunları bulmakla bitmez. Bulunan sorunların nasıl ele alındığı, organizasyonun güvenlik kültürü hakkında çok şey söyler. Anthropic'in 2023 yılında yayımladığı güvenlik politikası şunu belirtir: "Tespit ettiğimiz her güvenlik açığını kapatamıyoruz; ancak bunların hepsini belgeliyoruz ve hangi riskleri kabul ettiğimizi açıkça ifade ediyoruz."
Bu yaklaşım — sıfır risk iddiasında bulunmak yerine belgelenmiş risk kabulü — etik YZ dağıtımının işareti olarak giderek kabul görmektedir. Sıfır güvenlik açığını iddia eden sistemler, büyük olasılıkla yeterli test yapılmadığının göstergesidir.
Ders 5 Sınavı
Test ve Kırmızı Takım
Lab 5 — Kırmızı Takım Senaryosu
Bir YZ sistemi için adversarial test planı geliştirme ve risk kategorilerini belirleme.
Pratik Görev
Bir eğitim kurumu için öğrenci ödev geri bildirimi sağlayan bir YZ sistemi tasarlandığını varsayın. Bu sistem için kırmızı takım test planı oluşturacaksınız.
- Asistanın sorusunu yanıtlayarak bu sistemin hangi yollarla kötüye kullanılabileceğini düşünün.
- En az üç farklı risk kategorisi belirleyin ve her biri için somut test senaryosu önerin.
- Hangi bulguların dağıtımı durdurması, hangilerinin kabul edilebilir risk olarak belgelenmesi gerektiğini tartışın.
Sorumlu Dağıtım
Bir sistemi dağıtmak, onu oluşturmanın bir parçasıdır — dağıtım kararları etik kararlardır.
Dağıtım kararı ne zaman etik bir karar haline gelir?
2021 yılında Facebook'un (Meta) kendi iç araştırmacıları, Instagram'ın algoritmasının belirli genç kadın kullanıcılarda beden imajı sorunlarını kötüleştirdiğini gösterdi. Bu bulgular dağıtım kararını etkilemedi; sistem değiştirilmeden çalışmaya devam etti. 2021'deki Frances Haugen ifşaatları bu araştırmaları kamuoyuyla paylaştı. Şirket, zararlı etkiyi bilerek sistemi dağıtmaya devam etmekle suçlandı. Bu vaka, dağıtım kararının teknik bir onay değil, etik bir tercih olduğunu sert biçimde ortaya koydu.
Bir YZ sistemini canlıya almak, önceki tüm tasarım, test ve değerlendirme kararlarını gerçek dünyaya taşır. Dağıtım noktasında üç soru yanıtsız kalmamalıdır:
- Kimi etkileyecek? — Kullanıcılar, etkilenenler ve dışlananlar kim? Instagram vakasında etkilenen grup, araştırmacıların önceden tespit ettiği savunmasız bir kullanıcı kitlesiydi.
- Bilinen zararlar belgelendi mi? — Kırmızı takım ve değerlendirme sürecinde bulunan tüm riskler kayıt altına alınıp dağıtım kararına dahil edildi mi?
- Geri dönüş planı var mı? — Sistem dağıtımdan sonra beklenmedik zarar üretirse geri alma veya hızlı müdahale mekanizması mevcut mu?
Microsoft'un 2023 Responsible AI Impact Assessment (Sorumlu YZ Etki Değerlendirmesi) çerçevesi, dağıtım öncesinde belgelenmiş bir etki değerlendirmesi yapılmasını zorunlu kılar. Bu belge, potansiyel zararları, azaltma stratejilerini ve dağıtımı gerekçelendiren fayda analizini içerir.
Tam ölçekli anlık dağıtım yerine kademeli dağıtım (staged rollout veya phased deployment), beklenmedik sorunları sınırlı ölçekte tespit etmenin endüstri standardı yöntemidir. Google, Amazon ve Microsoft'un üretim YZ sistemleri genellikle şu aşamaları izler: %1 kullanıcı, %5, %20, %100.
Her aşama, önceki aşamada gözlemlenen metriklere bağlı bir ilerleme kriteriyle başlar. Metriklerin sınırın dışına çıkması otomatik olarak dağıtımı durdurabilir. Bu "özellik bayrağı" (feature flag) yaklaşımı, dağıtımı teknik bir açma düğmesi olmaktan çıkarıp gözlemlenebilir bir süreç haline getirir.
Sorumlu dağıtım, kullanıcılara neyin dağıtıldığını bildirmeyi de kapsar. AB Yapay Zeka Yasası (2024) ve ABD'deki sektörel yönergeler, belirli yüksek riskli YZ sistemleri için kullanıcı bildirimini yasal olarak zorunlu kılmaktadır. Bu yalnızca bir uyum gerekliliği değil, kullanıcının neyle etkileşim kurduğunu anlamasını sağlayan temel bir bilgi hakkıdır.
Ders 6 Sınavı
Sorumlu Dağıtım
Lab 6 — Dağıtım Karar Çerçevesi
Gerçek bir senaryo için etik dağıtım kararını yapılandırma.
Pratik Görev
Bir fintech startup'ı, küçük esnaf kredisi başvurularını değerlendiren bir YZ sistemi geliştirdi. Sistemi dağıtmadan önce etik bir değerlendirme çerçevesi oluşturmanız gerekiyor.
- Asistanın açılış sorusunu yanıtlayarak bu sistemin dağıtılması için hangi koşulların karşılanması gerektiğini belirleyin.
- Bilinen risklerin nasıl belgeleneceğini ve kimin bu belgelere erişeceğini tartışın.
- Geri dönüş planınızı ve hangi olayların dağıtımın durdurulmasını gerektireceğini tanımlayın.
Eşitlik için İnşa
YZ sistemleri mevcut eşitsizlikleri yansıtır, pekiştirir veya azaltır — bu seçim tasarım aşamasında yapılır.
Bir YZ sistemi herkese eşit davranıyor olabilir ama eşitsizliği yeniden üretiyor olabilir mi?
ABD'nin pek çok eyaletinde kullanılan COMPAS sistemi, sanıkların yeniden suç işleme riskini tahmin ediyor ve hâkim kararlarına girdi sağlıyordu. 2016'da ProPublica'nın araştırması, sistemin Siyah sanıkları yeniden suç işleme konusunda yaklaşık iki kat daha yüksek olasılıkla hatalı biçimde işaretlediğini ortaya koydu. Northpointe (sistemin geliştiricisi) ise sistemin ırk grupları arasında kalibre edilmiş doğrulukta eşdeğer olduğunu savundu. Her iki iddia da matematiksel açıdan doğruydu. Bu, adalette iki farklı eşitlik tanımının aynı anda sağlanamayacağını gösteren gerçek bir vakadır.
COMPAS vakası "eşitlik paradoksu"nu somutlaştırır: istatistiksel olarak tanımlanmış eşitlik ölçütlerinin tamamını aynı anda sağlamak matematiksel olarak imkânsızdır; bu durum 2016'da Chouldechova tarafından biçimsel olarak kanıtlanmıştır.
Yaygın kullanılan birkaç eşitlik tanımı şunlardır: demografik parite (gruplar eşit oranda seçilir), eşit fırsat (eşit gerçek pozitif oranı), ve kalibrasyonlu eşitlik (güven skorları tüm gruplarda eşit ön tahmin gücü taşır). Bunlar birbirini dışlayan tanımlardır — birini optimize etmek diğerini bozar.
Eşitlik ölçütü seçimi teknik değil, etik ve siyasi bir karardır. Hangi eşitlik tanımını benimsediniz sorusu, kimin ne tür hatalarına daha az tolerans göstermeye hazır olduğunuzu sormaktır. Bu seçimi şeffaf biçimde kayıt altına almak sorumlu tasarımın zorunlu parçasıdır.
Eşitliği sonradan "yama" olarak eklemek çalışmaz. Problem tanımı aşamasından başlayan sistematik bir yaklaşım gerekir:
- Paydaş analizi: Sistemden etkilenecek tüm grupları, özellikle tarihsel olarak dezavantajlı konumdakileri, tasarım sürecine dahil edin.
- Veri temsil denetimi: Eğitim verisi hangi grupları ne oranda temsil ediyor? Düşük temsil, düşük performans anlamına gelir.
- Alt grup performans analizi: Model metriklerini yalnızca toplamda değil, demografik alt gruplar bazında ayrıştırın.
- Eşitlik ölçütü seçimini belgeleyin: Hangi tanımı seçtiğinizi, neden seçtiğinizi ve hangi ödünleşmeleri kabul ettiğinizi kayıt altına alın.
MIT Media Lab araştırmacısı Joy Buolamwini'nin 2018'deki "Gender Shades" çalışması, ticari yüz tanıma sistemlerinin koyu tenli kadınları açık tenli erkeklerden 34 puana kadar daha düşük doğrulukla sınıflandırdığını gösterdi. Bu bulgular, etkilenen grupların temsil edilmediği eğitim veri setlerinin ürünüydü. IBM, Microsoft ve Face++ bu bulgular yayımlandıktan sonra sistemlerini iyileştirdi — ancak iyileştirmeler tasarım aşamasından değil, dış baskıdan geldi.
Bu örüntü tutarlıdır: eşitlik sorunları erken tasarım kararlarına gömülür ve görünür hale gelmesi için ya dış araştırma ya da gerçek zarar gerekmektedir. Proaktif tasarım bu döngüyü kırabilir.
Ders 7 Sınavı
Eşitlik için İnşa
Lab 7 — Eşitlik Analizi Çerçevesi
Gerçek bir YZ sistemi için eşitlik boyutlarını belirleme ve ölçüt seçimini gerekçelendirme.
Pratik Görev
Bir belediye, işsizlik yardımı başvurularını değerlendiren bir YZ sistemi devreye almak istiyor. Sistemin hangi demografik grupları nasıl etkileyebileceğini analiz edeceksiniz.
- Asistanın sorusunu yanıtlayarak sistemin hangi grupları dezavantajlı konuma düşürebileceğini belirleyin.
- Bu bağlamda kullanılabilecek üç farklı eşitlik tanımını tartışın ve aralarındaki ödünleşmeleri açıklayın.
- Hangi eşitlik ölçütünü seçeceğinizi ve bu seçimi nasıl belgeleyip kamuoyuyla paylaşacağınızı açıklayın.
Süregelen Sorumluluklar
Dağıtım, bitişi değil yeni bir aşamanın başlangıcıdır — izleme, güncelleme ve hesap verebilirlik süreç boyunca sürer.
Bir YZ sistemi ne zaman "tamam" sayılır?
2016 yılında Microsoft, Twitter'da Tay adlı bir chatbot dağıttı. Sistem kullanıcı etkileşimleriyle öğrenecek şekilde tasarlanmıştı. İlk 16 saatte koordineli kullanıcı grupları tarafından hedef alınan Tay, aşırı ayrımcı ve şiddet yüklü içerik üretir hale geldi ve 24 saatten kısa sürede devre dışı bırakıldı. Microsoft, dağıtım sonrası izleme mekanizmalarının sistematik kötüye kullanım senaryosu için tasarlanmadığını kabul etti. Bu vaka, dağıtım sonrası sorumluluğun gerçek zamanlı izleme ve hızlı müdahale kapasitesi gerektirdiğini açıkça gösterdi.
Tay vakası, dağıtım sonrası izlemenin reaktif değil proaktif olması gerektiğini gösterir. Sistemler gerçek kullanımda beklenmedik örüntüler geliştirir; bu örüntüleri tespit etmek için ne izleneceğinin önceden tanımlanması gerekir.
Etkili dağıtım sonrası izleme şu bileşenleri içerir: çıktı kalitesi dağılımının sürekli takibi, hata oranlarının alt grup bazında ayrıştırılması, kullanıcı geri bildirim kanallarının sistemli incelemesi ve anormal örüntüler için otomatik uyarı mekanizmaları.
YZ sistemleri "statik" değildir — dağıtım sonrasında dünya değişir, kullanıcı davranışları değişir ve sistemin bağlamı değişir. Bu durum iki farklı sapma riski yaratır:
- Veri kayması (data drift): Gerçek dünyadaki giriş dağılımı eğitim dağılımından uzaklaşır. COVID-19 salgını sırasında tüketici davranışı modellerinde bu sapma dramatik biçimde gerçekleşti.
- Kavram kayması (concept drift): Tahmin edilmeye çalışılan şeyin anlamı değişir. Kredi riski modellerindeki "temerrüt" tanımı ekonomik krizlerle birlikte dönüşür.
Google Cloud ve AWS, üretim YZ sistemleri için otomatik sapma tespiti araçları sunar. Ancak bu araçlar yalnızca teknik sapmayı ölçer; etik veya sosyal sapmayı tespit etmek insan değerlendirmesi gerektirir.
Sistem hayat döngüsü boyunca hesap verebilirlik kimin sorumluluğundadır? Bu soru endüstride giderek daha fazla yanıt gerektirmektedir. AB Yapay Zeka Yasası ve benzer düzenlemeler, sistemin sahibinin dağıtım sonrası belirli izleme ve raporlama yükümlülüklerini sürdürmesini zorunlu kılar.
Öte yandan "organizasyonel hafıza" sorunu da göz ardı edilemez: bir sistemi inşa eden ekip dağılır, şirket el değiştirir veya ürün yeni bir bağlama taşınır. Bu durumlarda hesap verebilirliği kimin sürdüreceğini önceden tanımlamak, YZ yönetişiminin (AI governance) temel bir gerekliliğidir. 2023'te birçok şirketin eski YZ sistemlerini yeni bağlamlarda yeniden kullanması bu riski somutlaştırdı.
Bu modül boyunca ele aldığımız sekiz ders, YZ sistemi inşasını doğrusal bir proje olarak değil, birbiriyle bağlantılı kararların oluşturduğu süregelen bir süreç olarak konumlandırdı. Problem tanımı, prompt tasarımı, değerlendirme, iş akışı mimarisi, test, dağıtım, eşitlik ve süregelen sorumluluk — bunların hiçbiri birbirinden bağımsız değildir.
Sorumlu YZ inşası; sıfır risk iddiasında bulunmak değil, alınan riskleri şeffaf biçimde belgelemek, izlemek ve hesap verebilmektir. Bu, teknik bir disiplin olduğu kadar etik bir taahhüttür.
Ders 8 Sınavı
Süregelen Sorumluluklar
Lab 8 — Süregelen Sorumluluk Planı
Dağıtım sonrası izleme, sapma tespiti ve hesap verebilirlik mekanizmaları tasarlama.
Pratik Görev
Bir e-ticaret şirketinin öneri algoritması iki yıldır canlıda çalışıyor. Ekip, sistemin eskidiğini ancak ne zaman ve nasıl güncelleneceğini bilmediğini fark etti.
- Asistanın sorusunu yanıtlayarak hangi sinyallerin sistemin güncelleme zamanı geldiğini gösterdiğini belirleyin.
- Veri kayması ve kavram kaymasını izlemek için pratik bir izleme planı önerin.
- Sistemi tamamen devre dışı bırakma kararını kimin, hangi koşullarda vereceğini tartışın.
MODÜL 10
Modül Testi
Yapay Zeka ile İnşa — 15 soru · Tüm dersler kapsanmaktadır
—
—