🎯 İleri Düzey · Ders 1

Yapay Zeka Hata Yapar

Yapay zeka sistemleri güçlü araçlardır; ancak hata yapmak onların doğasında vardır. Bu hataları anlamak, onlarla güvenle çalışmanın ilk adımıdır.

Bir yapay zeka modeli neden güvenle yanlış bir cevap verebilir?

2023 yılında, ABD'li avukat Steven Schwartz bir dava dilekçesinde ChatGPT kullanarak içtihat (daha önce verilmiş mahkeme kararları) araştırması yaptı. Yapay zeka, tamamen uydurulmuş altı mahkeme kararını gerçekmiş gibi sundu: tarihler, davacı adları, kararın özeti — hepsi inandırıcı biçimde yazılmıştı, ancak hiçbiri gerçekte mevcut değildi. Schwartz bu referansları doğrulamadan dilekçeye dahil etti. Federal hâkim Robert Lehburger durumu fark etti, avukata 5.000 dolar para cezası verdi ve dilekçenin tamamı reddedildi. Bu olay, "halüsinasyon" (hallucination) adı verilen yapay zeka hatasının gerçek dünya sonuçlarını gözler önüne serdi.

Hata Türleri: Bir Sınıflandırma

Yapay zeka hatalarını tek bir sepete koymak yanıltıcıdır. Araştırmacılar bu hataları birkaç farklı kategoride inceler.

Halüsinasyon: Model, eğitim verilerinde olmayan ya da gerçeklikle çelişen bilgileri özgüvenle üretir. Schwartz davasındaki uydurma içtihat tam olarak budur. Model, "bilmiyorum" demek yerine doğruymuş gibi görünen içerik üretir.

Dağılım kayması (distribution shift): Model, eğitildiği veri dağılımından farklı bir gerçek dünya girdisiyle karşılaştığında hata yapar. 2020'de yayımlanan bir NHS araştırması, COVID-19 teşhisinde kullanılan görüntü tabanlı yapay zeka modellerinin, hastane ekipmanlarının farklı açılardan çekilmiş yeni görüntülerde başarısız olduğunu gösterdi — çünkü modeller belirli ekipman düzenlemelerine alışmıştı.

Kalibrasyonsuzluk: Modelin bir cevabın doğruluğuna ilişkin güven düzeyi, gerçek doğrulukla örtüşmez. İdeal olarak yüzde seksen güvenle verilen cevapların yaklaşık yüzde sekseninin doğru olması gerekir. Pek çok büyük dil modelinde bu örtüşme bozuktur.

Temel Kavram

Halüsinasyon bir "hata mesajı" değildir. Model, doğru ve yanlış cevabı aynı güvenle, aynı akıcılıkta sunar. Bu nedenle çıktının kaynağı bağımsız olarak doğrulanmadan kullanılmamalıdır.

Neden Bu Kadar Güvenli Görünür?

Büyük dil modelleri (BDM'ler), istatistiksel olarak en olası bir sonraki kelimeyi tahmin ederek çalışır. Bu mimari, modele doğal ve akıcı bir üretim tarzı kazandırır. Ancak aynı mekanizma, modelin "bilmiyorum" yerine "mantıklı görünen bir şey üret" seçeneğini tercih etmesine de yol açar.

2022'de Meta'nın Galactica modelini ele alalım. Bilimsel literatür için eğitilen bu model, kısa süre içinde kamuya açıldı ve ardından kapatıldı — çünkü walrüsların tarihi ve ayın ağırlığı gibi konularda son derece güvenli bir üslupla tamamen yanlış bilgiler üretiyordu. Bir araştırmacı, modelin "ayıların ve aslanların birlikte evrimleşip evrimleşmediği" sorusuna referanslar uyduran ayrıntılı bir cevap verdiğini belgeledi.

1. Avukat Schwartz davasında yapay zekanın yaptığı hatanın teknik adı nedir?

✓ Doğru! Halüsinasyon, modelin gerçekte var olmayan bilgileri gerçekmiş gibi üretmesidir. Schwartz davasında mahkeme kararları tamamen uydurmaydi.

✗ Yanlış. Bu hatanın adı halüsinasyondur: model, var olmayan içtihatları inandırıcı biçimde üretti.

2. "Kalibrasyonsuzluk" ifadesi ne anlama gelir?

✓ Doğru! Kalibrasyonsuzluk, modelin yüzde seksen güvenle verdiği cevapların gerçekte çok daha az ya da çok daha fazla oranda doğru olması durumudur.

✗ Yanlış. Kalibrasyonsuzluk, modelin ifade ettiği güven düzeyi ile gerçek doğruluk oranı arasındaki uyumsuzluktur.

3. Meta'nın Galactica modeli neden kamuya açıldıktan kısa süre sonra kapatıldı?

✓ Doğru! Galactica, araştırmacıların referanslar uyduran yanıtlar ürettiğini belgelemesinin ardından kapatıldı.

✗ Yanlış. Model, bilimsel içerikte halüsinasyon ürettiği için kapatıldı — maliyet ya da gizlilik sorunu değildi.

Laboratuvar Hedefi

Bu laboratuvarda yapay zekanın halüsinasyon ve hata biçimleri üzerine bir uzmanla konuşacaksınız. Aşağıdaki adımları izleyin:

Yapay zekanın açılış sorusunu yanıtlayın.
Bir yapay zekanın neden "bilmiyorum" demek yerine uydurma içerik üretebileceğini sormayı deneyin.
Schwartz davasını ya da Galactica örneğini gündeme getirin ve modelin bu olaylardan ne öğrenebileceğimize ilişkin görüşünü isteyin.

Öneri: "Bir yapay zeka modeli bir mahkeme kararını uydurursa bu hatanın sorumluluğu yalnızca yazılıma mı aittir? Tartışalım."

🧪 Hata Analizi Asistanı Ders 1 Lab

🎯 İleri Düzey · Ders 2

Yapay Zeka Bilmediğinde

Belirsizliği dürüstçe ifade edemeyen bir model tehlikelidir. Yapay zekanın "bilgi sınırları" nasıl çalışır ve bu sınırlar neden önemlidir?

Bir modelin bilmediğini bilememesi ne tür zararlara yol açabilir?

2023 yılında Air Canada, müşterilerine chatbot aracılığıyla yanlış bir yas indirimi politikası iletti. Chatbot, şirketin geçerli politikasını doğru aktarmak yerine var olmayan bir geri ödeme hakkı olduğunu söyledi. Müşteri Jake Moffatt, bu bilgiye dayanarak bilet satın aldı; şirket indirimi reddettiğinde Moffatt mahkemeye başvurdu. Kanada Medeni Haklar Mahkemesi, Air Canada'nın chatbot'unun eylemlerinden sorumlu olduğuna hükmetti. Mahkeme, şirketin "chatbot'un verdiği bilgilerden sorumlu olmadığı" argümanını reddetti. Air Canada tazminat ve masrafları ödedi.

Bilgi Kesimi ve Güncellik Sorunu

Büyük dil modelleri belirli bir tarihte dondurulmuş veriyle eğitilir; bu tarih "bilgi kesimi" (knowledge cutoff) olarak adlandırılır. Model bu tarihten sonraki olaylar hakkında gerçek bilgiye sahip değildir. Ancak sorun, modelin bu sınırı her zaman açıkça belirtmemesidir.

Air Canada chatbotu tam da bu noktada başarısız oldu: güncel olmayan ya da yanlış yapılandırılmış politika bilgisiyle eğitilmiş bir sistem, müşteriye yanlış yönlendirme yaptı ve belirsizlik konusunda kullanıcıyı uyarmadı.

Araştırmacılar bu sorunu "bilgi sınırı farkındalığı" (knowledge boundary awareness) çerçevesinde ele alır. İdeal bir model, emin olmadığı alanlarda bunu açıkça ifade etmelidir. Uygulamada bu durum çoğunlukla gerçekleşmez.

Kritik Fark

"Bilmiyorum" diyen bir model ile yanlış bir cevap üreten bir model arasındaki fark, bir kullanıcı açısından hayati önem taşıyabilir. Belirsizliği açıkça iletemeyen sistemler, gerçek zarar üretir.

Güven Aralığı ve Epistemik Alçakgönüllülük

İnsan uzmanlar belirsizliklerini ifade etmek için "bunu doğrulamam gerekiyor" ya da "emin değilim ama…" gibi ifadeler kullanır. Bu tutum epistemik alçakgönüllülük (epistemic humility) olarak adlandırılır. Yapay zeka modellerinin bu beceriyi kazanması, yalnızca teknik değil aynı zamanda tasarım tercihlerinin bir sorunudur.

OpenAI ve Anthropic gibi şirketler, modellerinin belirsiz ya da bilgi sınırı dışındaki sorularda bunu bildirmesi için özel ince ayar (fine-tuning) süreçleri uygulamaktadır. Ancak bu mekanizmalar kusursuzdur; modeller hâlâ bilinmeyeni biliyor gibi davranabilir. Bunu önlemenin en güvenilir yolu, kritik bilgileri her zaman bağımsız kaynaklardan doğrulamaktır.

1. Air Canada davasında mahkeme hangi kararı verdi?

✓ Doğru! Mahkeme, şirketin chatbot'unun eylemlerinden sorumlu olduğuna hükmetti ve Air Canada tazminat ödedi.

✗ Yanlış. Mahkeme, Air Canada'nın chatbot'unun verdiği yanlış bilgiden sorumlu olduğuna karar verdi.

2. "Bilgi kesimi" (knowledge cutoff) ne anlama gelir?

✓ Doğru! Bilgi kesimi, modelin eğitildiği verinin bitiş tarihidir; model bu tarihten sonraki gerçek dünya olaylarına erişemez.

✗ Yanlış. Bilgi kesimi, eğitim verisinin sona erdiği tarihtir; modelin bu tarihten sonrasını "bilmemesi" beklenir.

3. Epistemik alçakgönüllülük (epistemic humility), yapay zeka bağlamında ne anlama gelir?

✓ Doğru! Epistemik alçakgönüllülük, modelin ne bilip ne bilmediğini doğru biçimde ifade edebilme becerisidir.

✗ Yanlış. Bu kavram, cevap uzunluğu ya da kibarlıkla ilgili değildir; modelin kendi bilgi sınırlarını tanımasıdır.

Laboratuvar Hedefi

Bu laboratuvarda bir yapay zeka sistemi ile bilgi sınırları ve belirsizlik üzerine derinlemesine tartışacaksınız.

Asistanın açılış sorusunu yanıtlayın.
Air Canada chatbot davasındaki yasal sonucun sizi şaşırtıp şaşırtmadığını sorun.
Bir yapay zekanın "bilmiyorum" demesini sağlamanın teknik yolları nelerdir diye soruşturun.

Öneri: "Bir yapay zeka sistemi bilgi kesiminin ötesinde bir soruyla karşılaştığında ne yapmalıdır?"

🧪 Bilgi Sınırları Asistanı Ders 2 Lab

🎯 İleri Düzey · Ders 3

Hata Kimin?

Yapay zeka hata yaptığında sorumluluk zinciri karmaşıklaşır. Geliştirici mi, dağıtıcı mı, kullanıcı mı — kim hesap vermekle yükümlüdür?

Yapay zekanın hatası için kimi sorumlu tutabiliriz?

2016 yılında Tay, Microsoft'un Twitter üzerinde yayımladığı bir sohbet robotuydu. Tay, kullanıcılarla etkileşim kurarak öğrenecek şekilde tasarlanmıştı. Yayımlanmasından yirmi dört saat sonra Microsoft sistemi kapattı: kullanıcılar, Tay'ın ırkçı, cinsiyetçi ve aşırı siyasi içerik üretmesini sağlayacak biçimde sistemi kasıtlı olarak manipüle etmişti. Microsoft, tasarım kararları nedeniyle hem kullanıcıların kötüye kullanımını öngöremediği hem de öngörmesi gerektiği gerekçesiyle eleştirildi. Tay davası, yapay zeka sorumluluğunun yalnızca teknik bir sorun olmadığını; ürün tasarımı, dağıtım hızı ve kullanıcı tabanı analizini de kapsadığını ortaya koydu.

Sorumluluk Zinciri

Yapay zeka sistemlerinde sorumluluk tek bir aktörde toplanmaz. Araştırmacılar ve hukuk akademisyenleri bu konuyu genellikle birkaç katmanda ele alır:

Temel model geliştiricisi: Modeli eğiten, altyapısını kuran şirket ya da araştırma grubu. Kapasite sınırlarını ve güvenlik önlemlerini belirler.
Dağıtıcı (deployer): Modeli belirli bir ürün ya da hizmet için konuşlandıran taraf. Air Canada ve Microsoft Tay örneklerinde bu katman ön plana çıktı.
Kullanıcı: Sistemi kullanan kişi ya da kurum. Manipülatif kullanım ya da uyarılara rağmen yanlış bilgilere güvenmek burada değerlendirilir.

AB Yapay Zeka Yasası (AI Act, 2024), bu katmanlı sorumluluğu yasal çerçeveye oturtmaya çalışan ilk kapsamlı düzenlemedir. Yüksek riskli yapay zeka uygulamalarında dağıtıcılara belirli yükümlülükler getirmekte, temel model geliştiricilerine ise şeffaflık zorunlulukları tanımlamaktadır.

Tay Davası: Tasarım Kararı mı, Kötüye Kullanım mı?

Microsoft, Tay'ın manipülasyonunu bir "saldırı" olarak nitelendirdi. Eleştirmenler ise şirketi iki temel tasarım hatasından sorumlu tuttu: birincisi, halka açık bir sohbet robotunun gerçek zamanlı öğrenmeye izin verecek şekilde yapılandırılması; ikincisi, risk analizinin yetersiz yapılması.

Bu ayrım — kasıtlı kötüye kullanım ile öngörülmesi gereken tasarım açığı — yapay zeka sorumluluğu tartışmalarının merkezindedir. Bir üretici, makul biçimde öngörülemeyen her kötüye kullanımdan sorumlu tutulamazken, kötüye kullanımı mümkün kılan temel tasarım tercihlerinden sorumluluk kaçınılamaz.

Hukuki Çerçeve

AB Yapay Zeka Yasası ve ABD'nin sektörel düzenlemeleri, sorumluluğu paylaşan bu çok katmanlı yapıyı farklı biçimlerde tanımlar. Türkiye'de henüz bağlayıcı bir yapay zeka sorumluluğu mevzuatı bulunmamakla birlikte, Kişisel Verileri Koruma Kanunu (KVKK) bazı hallerde uygulanabilmektedir.

1. Microsoft Tay olayında sorumluluk tartışması hangi temel sorun üzerinde yoğunlaştı?

✓ Doğru! Tay davası, kötüye kullanımı mümkün kılan tasarım tercihlerinden kimin sorumlu olduğu sorusunu gündeme taşıdı.

✗ Yanlış. Temel tartışma, tasarım açıklarının öngörülüp öngörülmediği ve sorumluluğun kime ait olduğuydu.

2. Yapay zeka sorumluluğu zincirinde "dağıtıcı" (deployer) kimdir?

✓ Doğru! Dağıtıcı, temel modeli alıp gerçek bir ürün ya da hizmete dönüştüren şirkettir; Air Canada bu role örnektir.

✗ Yanlış. Dağıtıcı, modeli bir ürün ya da hizmet için konuşlandıran şirkettir — geliştirici ya da kullanıcı değil.

3. AB Yapay Zeka Yasası (AI Act) yüksek riskli uygulamalarda öncelikle hangi katmana yükümlülük getirmektedir?

✓ Doğru! AB Yapay Zeka Yasası, dağıtıcılara uygulama düzeyinde yükümlülükler, geliştiricilere ise şeffaflık gereksinimleri tanımlar.

✗ Yanlış. Yasa, hem dağıtıcılara hem de temel model geliştiricilerine farklı düzeylerde sorumluluk yükler.

Laboratuvar Hedefi

Bu laboratuvarda yapay zeka sorumluluğu üzerine bir uzmanla yapılandırılmış bir tartışma yürüteceksiniz.

Asistanın açılış sorusunu yanıtlayın.
Tay davasında Microsoft'un sorumlu olup olmadığını ve neden böyle düşündüğünüzü paylaşın.
Türkiye'de benzer bir olay yaşansaydı hangi hukuki mekanizmaların devreye girebileceğini sorun.

Öneri: "Bir yapay zeka sistemi zarar verdiğinde sorumluluk nasıl paylaştırılmalıdır? Geliştirici, dağıtıcı ve kullanıcı üçgenini birlikte düşünelim."

🧪 Sorumluluk Analizi Asistanı Ders 3 Lab

🎯 İleri Düzey · Ders 4

Önyargı Girer, Önyargı Çıkar

Yapay zeka modelleri, eğitim verilerindeki kalıpları öğrenir. Bu kalıplar önyargı içeriyorsa model de önyargılı olur — ve bu önyargı ölçeğe yayılır.

Verinin önyargısı modele nasıl geçer ve bunu nasıl fark ederiz?

Amazon, 2014-2018 yılları arasında yazılım mühendisi pozisyonları için özgeçmiş değerlendiren bir yapay zeka sistemi geliştirdi. Sistem, son on yıllık işe alım verisiyle eğitilmişti; bu veri ağırlıklı olarak erkek adaylardan oluşuyordu. Sonuç olarak model, kadın adayların özgeçmişlerini sistematik biçimde daha düşük puanladı: "women's" (kadın) sözcüğünü içeren üniversite kulüplerini ve kadın odaklı ifadeleri cezalandırdı. Amazon 2018'de sistemi kapattı, ancak kapatmadan önce bazı işe alım kararlarında sisteme danışılmıştı. Reuters'ın haberiyle kamuoyuna duyurulan bu olay, veri önyargısının algoritmik önyargıya nasıl dönüştüğünün en çok belgelenen örneklerinden biri oldu.

Önyargı Nasıl Yerleşir?

Makine öğrenimi modelleri, eğitim verisindeki istatistiksel kalıpları genelleştirir. Eğer bu kalıplar tarihsel eşitsizlikleri yansıtıyorsa — örneğin, belirli mesleklerde belirli demografik grupların az temsil edilmesi — model bu eşitsizliği "doğru" bir kalıp olarak öğrenir.

Önyargının kaynakları üç ana başlıkta incelenir:

Veri önyargısı (data bias): Eğitim verisinin belirli grupları fazla ya da az temsil etmesi. Amazon örneği tam olarak budur.
Ölçüm önyargısı (measurement bias): Değerlendirme metriklerinin belirli gruplar için daha yanlı çalışması. Yüz tanıma sistemlerinde koyu tenli bireyler için hata oranlarının daha yüksek olması bu kategoriye girer.
Toplama önyargısı (aggregation bias): Farklı grupları tek bir modelde birleştirmenin, her grup için ayrı modelden daha kötü sonuç vermesi.

Ölçek Problemi

Bir insan işe alım uzmanı önyargılı kararlar verdiğinde etki sınırlıdır. Bir yapay zeka sistemi aynı önyargıyla günde binlerce başvuruyu değerlendirdiğinde etki büyük ölçekte yayılır. Bu ölçek etkisi, algoritmik önyargının insan önyargısından neden daha acil bir sorun olarak ele alındığını açıklar.

Araştırma Notu

MIT ve Stanford'dan araştırmacıların yaptığı 2018 tarihli "Gender Shades" çalışması, üç büyük ticari yüz tanıma sisteminin koyu tenli kadınlarda hata oranının açık tenli erkeklere kıyasla yüzde otuz dört puana kadar yüksek olduğunu belgeledi.

1. Amazon'un işe alım yapay zekasındaki önyargı hangi önyargı türünün örneğidir?

✓ Doğru! Model, ağırlıklı olarak erkeklerden oluşan geçmiş işe alım verisiyle eğitildi; bu veri önyargısı modelin kararlarına yansıdı.

✗ Yanlış. Bu, veri önyargısının örneğidir: eğitim verisi belirli bir grubu aşırı temsil ediyordu.

2. "Gender Shades" çalışması hangi sistematik sorunu belgeledi?

✓ Doğru! Çalışma, üç büyük ticari sistemin koyu tenli kadınlarda açık tenli erkeklere kıyasla otuz dört puana kadar yüksek hata oranı ürettiğini gösterdi.

✗ Yanlış. Gender Shades, yüz tanıma sistemlerinde demografik hata oranı farklılıklarını belgeledi.

3. Algoritmik önyargının insan önyargısından daha acil bir sorun olarak değerlendirilmesinin temel nedeni nedir?

✓ Doğru! Ölçek etkisi kritiktir: bir yapay zeka sistemi aynı önyargıyı günde binlerce karara uygulayabilir.

✗ Yanlış. Temel sorun ölçektir — aynı önyargının çok sayıda karara eş zamanlı uygulanması.

Laboratuvar Hedefi

Bu laboratuvarda veri önyargısı ve algoritmik önyargı üzerine derinlemesine bir tartışma yürüteceksiniz.

Asistanın açılış sorusunu yanıtlayın.
Amazon'un işe alım sistemindeki önyargı nasıl tespit edilebilirdi diye sorun.
Türkiye'deki işe alım ya da kredi değerlendirme süreçlerinde benzer önyargıların nasıl ortaya çıkabileceğini tartışın.

Öneri: "Bir işe alım yapay zekasının önyargılı olup olmadığını nasıl test ederim? Hangi metriklere bakmalıyım?"

🧪 Önyargı Analizi Asistanı Ders 4 Lab

🎯 İleri Düzey · Ders 5

Adalet ve Yapay Zeka

Adalet soyut bir kavram değildir; ölçülebilir, tanımlanabilir ve çelişen farklı biçimleri vardır. Yapay zekada adalet hangi matematiksel tanıma göre sağlanacak?

Farklı adalet tanımları birbiriyle çelişirse hangi tarafı seçeriz?

COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), ABD mahkemelerinde kullanılan ve sanıkların yeniden suç işleme riskini puanlayan bir yapay zeka aracıydı. 2016 yılında ProPublica, sistemin siyah sanıkları yeniden suç işleme konusunda beyaz sanıklara kıyasla yaklaşık iki kat daha fazla yanlış biçimde yüksek riskli olarak sınıflandırdığını ortaya koydu. COMPAS'ı geliştiren Northpointe ise sistemin iki grup arasında eşit tahmin doğruluğu (predictive accuracy) sağladığını savundu. Her iki taraf da matematiksel olarak haklıydı — çünkü farklı adalet tanımlarını kullanıyorlardı. Bu çelişki, "adalet uyumsuzluğu" (fairness incompatibility) olarak bilinen temel bir matematiksel gerçeği gündeme taşıdı.

Çelişen Adalet Tanımları

Araştırmacılar onlarca farklı matematiksel adalet tanımı belirlemiştir. Bunların tamamını aynı anda sağlamak çoğu durumda imkânsızdır. En sık tartışılan üç tanım şunlardır:

Bireysel adalet (individual fairness): Benzer bireylere benzer muamele edilmesi. Her bireyin özgün koşullarına göre değerlendirilmesini öngörür.
Grup eşitliği (group parity): Modelin tahminlerinin farklı demografik gruplar arasında eşit oranda doğru olması. COMPAS tartışmasında Northpointe bu tanımı kullandı.
Yanlış pozitif eşitliği (equal false positive rates): Modelin belirli bir grubu haksız biçimde yüksek riskli olarak sınıflandırma oranının gruplar arasında eşit olması. ProPublica bu tanımı kullandı.

Matematiksel Gerçek

Jon Kleinberg ve arkadaşlarının 2016'da yayımladığı makale, temel adalet koşullarının yalnızca çok özel durumlarda eş zamanlı sağlanabileceğini matematiksel olarak kanıtladı. Bu durum, adalet tercihinin teknik değil değer bazlı bir karar olduğunu gösterir.

Tasarım Kararı Olarak Adalet

Bu matematiksel kısıt, adalet sorununu mühendislik sorunundan çıkarıp siyasi ve etik bir soruya dönüştürür: kimin tanımını kullanacağız ve bu tercihin bedeli kime yüklenecek? Bu soruyu yalnızca mühendislere bırakmak, demokratik hesap verebilirlik açısından ciddi riskler içerir. Toplumun bu kararlara katılımını sağlayan mekanizmalar — kamuoyu denetimi, bağımsız denetim, yasal çerçeve — giderek daha kritik hale gelmektedir.

1. COMPAS tartışmasında ProPublica ve Northpointe neden ikisi de matematiksel olarak haklıydı?

✓ Doğru! Northpointe grup eşitliği, ProPublica ise yanlış pozitif eşitliği tanımını kullandı; her iki tanım da kendi içinde tutarlıydı.

✗ Yanlış. Temel sorun, farklı matematiksel adalet tanımlarının aynı sistemi farklı biçimlerde değerlendirmesiydi.

2. Kleinberg ve arkadaşlarının 2016 araştırması hangi temel sonuca ulaştı?

✓ Doğru! Bu matematiksel sonuç, adalet tercihinin teknik değil değer bazlı bir karar olduğunu ortaya koyar.

✗ Yanlış. Araştırma, farklı adalet koşullarının büyük çoğunlukla eş zamanlı sağlanamayacağını matematiksel olarak kanıtladı.

3. Aşağıdakilerden hangisi "grup eşitliği" (group parity) adalet tanımını en iyi açıklar?

✓ Doğru! Grup eşitliği, modelin farklı gruplar için benzer tahmin doğruluğu sağlamasını ister.

✗ Yanlış. Grup eşitliği, farklı demografik gruplar arasında tahmin doğruluğunun eşit olmasını ifade eder.

Laboratuvar Hedefi

Bu laboratuvarda adalet tanımlarının çeliştiği gerçek senaryolar üzerine bir uzmanla tartışacaksınız.

Asistanın açılış sorusunu yanıtlayın.
COMPAS tartışmasında hangi adalet tanımını daha yerinde bulduğunuzu ve neden böyle düşündüğünüzü açıklayın.
Türkiye'de bir kredi veya yargı sisteminde yapay zeka kullanılsaydı hangi adalet tanımının önceliklendirilmesi gerektiğini tartışın.

Öneri: "Farklı adalet tanımları matematiksel olarak çelişiyorsa, bu seçimi kim yapmalı — mühendisler mi, politikacılar mı, toplum mu?"

🧪 Adalet Analizi Asistanı Ders 5 Lab

🎯 İleri Düzey · Ders 6

Arıza Biçimleri ve Önlem

Yapay zeka sistemleri belirli kalıplarda başarısız olur. Bu başarısızlık biçimlerini önceden tanımak, daha sağlam sistemler tasarlamanın temelidir.

Bir sistemi tasarlarken hangi arıza biçimleri en kritik riskleri taşır?

2018 yılında Boeing 737 MAX uçaklarında kullanılan MCAS (Manevra Karakteristik Artırma Sistemi), iki farklı kazada toplam 346 kişinin ölümüne yol açtı. Sistem, yanlış sensör verisi aldığında uçağı otomatik olarak aşağı yöneltti. Pilotlar sistemi devre dışı bırakmak için gerekli prosedürden habersizdi; MCAS'ın varlığı eğitim materyallerine dahil edilmemişti. Bu tablo, kritik bir arıza biçimini örnekler: tek sensöre bağımlılık, yedeksiz tasarım ve operatöre yetersiz bilgi aktarımı. MCAS bir yapay zeka sistemi olmasa da bu arıza kalıpları modern yapay zeka sistemleri için de geçerlidir ve "tek nokta arızası" (single point of failure) olarak kavramsallaştırılır.

Temel Arıza Biçimleri

Yapay zeka ve otomasyon sistemlerinde araştırmacılar birkaç tekrarlayan arıza biçimi tanımlamıştır:

Tek nokta arızası: Sistemin, tek bir bileşenin başarısızlığıyla tamamen çökmesi. MCAS'ta tek sensör bağımlılığı bu kategoriye girer.
Dağılım kayması (distribution shift): Modelin eğitildiği veri dağılımından uzaklaşan gerçek dünya girdileriyle başarısız olması.
Otomasyon önyargısı (automation bias): Operatörlerin sisteme fazla güvenerek kendi değerlendirmelerini askıya alması. Pilotların MCAS'a itiraz etmekte gecikmesi buna örnek verilebilir.
Özellik çöküşü (specification gaming): Modelin, tasarlananın değil belirlenmiş metriğin optimize edilmesi. Aşırı uyum (reward hacking) olarak da bilinir.

Azaltma Stratejileri

Mühendisler ve araştırmacılar bu arıza biçimlerine karşı çeşitli önlem mekanizmaları geliştirmiştir. Yedeklilik (redundancy), sistemi tek bir bileşen arızasına karşı korur. İnsan döngüde (human-in-the-loop) tasarım, kritik kararlarda insan gözetimini zorunlu kılar. Sağlamlık testi (robustness testing), modeli dağılım kaymasına maruz bırakarak zayıf noktaları önceden tespit eder. İzleme (monitoring), sistemin canlı ortamda beklenen sınırlar içinde çalışıp çalışmadığını sürekli denetler.

Tasarım İlkesi

Güvenli sistem tasarımında "güvenli arıza" (fail-safe) ilkesi temeldir: sistem başarısız olduğunda, en az zarara yol açacak duruma geçmelidir. Yapay zeka sistemlerinde bu ilke, belirsizlik durumunda insan kararına devretmek anlamına gelebilir.

1. "Otomasyon önyargısı" (automation bias) ne anlama gelir?

✓ Doğru! Otomasyon önyargısı, insan operatörlerin otomatik sistemlerin kararlarını sorgulamayı bırakması durumudur.

✗ Yanlış. Otomasyon önyargısı, operatörlerin sisteme fazla güvenerek bağımsız değerlendirmelerini askıya almasıdır.

2. Boeing 737 MAX MCAS örneği, yapay zeka sistemleri için hangi arıza biçimini örnekler?

✓ Doğru! MCAS, tek sensöre bağımlılık ve pilotlara yetersiz bilgi aktarımıyla tek nokta arızasını örnekler.

✗ Yanlış. MCAS tek sensör bağımlılığı (tek nokta arızası) ve eksik operatör eğitimini örnekler.

3. "Güvenli arıza" (fail-safe) ilkesi yapay zeka sistemlerinde ne anlama gelir?

✓ Doğru! Güvenli arıza, sistem başarısız olduğunda en az zarara yol açacak durum olan insan gözetimine geçiş anlamına gelir.

✗ Yanlış. Güvenli arıza, arıza anında en az zarara yol açacak konuma — genellikle insan gönetimine — geçmektir.

Laboratuvar Hedefi

Bu laboratuvarda gerçek arıza senaryoları üzerinden azaltma stratejilerini tartışacaksınız.

Asistanın açılış sorusunu yanıtlayın.
MCAS kazasındaki arıza zincirinin hangi aşamasında müdahale en etkili olurdu diye sorun.
"İnsan döngüde" (human-in-the-loop) tasarımın hangi durumlarda yetersiz kalabileceğini tartışın.

Öneri: "Kritik bir yapay zeka sistemini tasarlarken hangi arıza biçimlerine karşı önce hazırlanmalıyım?"

🧪 Sistem Güvenliği Asistanı Ders 6 Lab

🎯 İleri Düzey · Ders 7

Düşman Saldırılar ve Manipülasyon

Yapay zeka sistemleri kasıtlı olarak yanıltılabilir. Düşman örnekler ve prompt enjeksiyonu, mevcut güvenlik mekanizmalarının ciddi sınırlarını açığa çıkarır.

Bir yapay zekayı yanıltmak için nasıl bir girdi yeterli olabilir?

2023 yılında güvenlik araştırmacısı Riley Goodside, GPT-4'e yönelik bir "prompt enjeksiyonu" (prompt injection) saldırısını belgeledi. Bir web sayfasının görünmez metnine yerleştirilen bir talimat, GPT-4 tabanlı asistanı başka bir asistana e-posta gönderip kimlik bilgilerini iletmesi için yönlendirdi. Asistan, kullanıcının talimatları yerine sayfaya gizlenmiş talimatları izledi. Bu, bağımsız (agentic) yapay zeka sistemlerinin — kendi adlarına eylem gerçekleştiren modellerin — neden özel bir saldırı yüzeyine (attack surface) sahip olduğunu gözler önüne serdi. İki ay içinde benzer saldırılar Bing Chat ve diğer LLM tabanlı asistanlarda da belgelendi.

Düşman Saldırı Türleri

Yapay zeka sistemlerine yönelik kasıtlı saldırılar birkaç ana kategoride incelenir:

Düşman örnekler (adversarial examples): İnsan gözüne fark edilemeyecek kadar küçük değişikliklerle modeli hatalı sınıflandırmaya yönelten girdiler. 2017'de araştırmacılar, bir panda görüntüsüne piksel düzeyinde gürültü ekleyerek ImageNet modelinin bunu "gibon" olarak sınıflandırmasını sağladı.
Prompt enjeksiyonu: Dil modelinin güvenlik filtrelerini veya kullanıcı talimatlarını aşmak için girdi metnine zararlı yönergeler yerleştirilmesi. Goodside'ın belgelediği saldırı bu türdedir.
Zehirleme saldırısı (data poisoning): Eğitim verisine zararlı örnekler eklenerek modelin belirli girdilerde kasıtlı olarak yanlış davranmasının sağlanması. Arka kapı (backdoor) saldırısı olarak da bilinir.
Model çıkarma (model extraction): Bir modelin sorgularla sistematik biçimde sorgulanarak davranışının tersine mühendislik yoluyla yeniden oluşturulması.

Neden Bu Kadar Zor Savunulur?

Düşman saldırılara karşı savunma, saldırıdan daha zordur. Modeli daha sağlam hale getirmek için yapılan ek eğitim, genellikle normal görevlerdeki performansı düşürür. Bu "sağlamlık-doğruluk takası" (robustness-accuracy tradeoff), araştırmacılar için temel bir açık problemdir.

Prompt enjeksiyonu özellikle zordur: dil modelleri, girdi metnindeki talimatlar ile sistem talimatları arasındaki sınırı güvenilir biçimde ayırt edemez. Bu sorun, modelin temel çalışma prensibinden — bağlamı bütünüyle işlemesinden — kaynaklanır.

Güvenlik Perspektifi

OWASP (Open Web Application Security Project), büyük dil modellerine yönelik en kritik on güvenlik riskini yayımladı. Prompt enjeksiyonu bu listede birinci sıradadır. Kuruluşlar, yapay zeka tabanlı ürünleri konuşlandırmadan önce bu riskleri değerlendirmelidir.

1. "Prompt enjeksiyonu" saldırısı ne anlama gelir?

✓ Doğru! Prompt enjeksiyonu, meşru girdinin içine zararlı talimatlar yerleştirerek modeli yanlış yönlendirme saldırısıdır.

✗ Yanlış. Prompt enjeksiyonu, girdi metnine zararlı yönergeler yerleştirerek modeli manipüle etme saldırısıdır.

2. 2017 panda-gibon düşman örneği deneyi ne gösterdi?

✓ Doğru! Bu deney, düşman örneklerin insan algısı için görünmez kalırken modeli yanıltabildiğini gösterdi.

✗ Yanlış. Deney, görünmez piksel değişikliklerinin modeli tamamen yanlış sınıflandırmaya yönlendirebildiğini gösterdi.

3. "Sağlamlık-doğruluk takası" (robustness-accuracy tradeoff) ne anlama gelir?

✓ Doğru! Bu takas, düşman savunmayı zorlaştıran temel bir açık araştırma problemidir.

✗ Yanlış. Takas, sağlamlık eğitiminin normal görev doğruluğunu genellikle düşürmesi sorununa işaret eder.

Laboratuvar Hedefi

Bu laboratuvarda düşman saldırı türleri ve savunma stratejileri üzerine derinlemesine tartışacaksınız.

Asistanın açılış sorusunu yanıtlayın.
Bir kuruluşun yapay zeka tabanlı ürünündeki prompt enjeksiyonu riskini nasıl değerlendireceğini sorun.
Zehirleme saldırısına karşı en etkili savunmanın eğitim aşamasında mı yoksa dağıtım aşamasında mı yapılabileceğini tartışın.

Öneri: "Prompt enjeksiyonunun neden bu denli tehlikeli olduğunu ve bunu önlemek için bugün ne yapılabileceğini açıklar mısınız?"

🧪 Yapay Zeka Güvenliği Asistanı Ders 7 Lab

🎯 İleri Düzey · Ders 8

Yapay Zeka Sistemlerini Değerlendirme ve Denetleme

İyi niyetli tasarım yeterli değildir. Bağımsız denetim ve sistematik değerlendirme, güvenilir yapay zekanın vazgeçilmez koşullarıdır.

Bir yapay zekayı güvenilir kabul etmek için ne tür kanıtlara ihtiyacımız var?

2019 yılında Epic Systems'ın sepsis tahmin modeli, on dört hastanede değerlendirmeye alındı. Model, dahili testlerde yüzde yetmiş altı doğruluk göstermişti. Ancak Michigan Üniversitesi'nden bağımsız araştırmacıların yaptığı 2023 tarihli çalışma, modelin gerçek klinik ortamda beklenen hastalarda sepsisi yüzde yetmiş iki oranında kaçırdığını ve aynı zamanda yüzde seksen üç yanlış pozitif ürettiğini ortaya koydu. Modelin dahili değerlendirmesi ile bağımsız klinik değerlendirmesi arasındaki bu büyük uçurum, yapay zeka sistemlerinde dışsal ve bağımsız denetimin neden zorunlu olduğunu somut biçimde gösterdi.

Değerlendirme Türleri

Yapay zeka sistemleri farklı aşamalarda ve yöntemlerle değerlendirilebilir:

Kıyaslama (benchmarking): Modeli standart test setleri üzerinde değerlendirme. Hızlı ve karşılaştırılabilir sonuçlar verir; ancak gerçek dünya dağılımını yansıtmayabilir.
Kırmızı takım (red teaming): Modeli kötüye kullanmaya ya da başarısız kılmaya çalışan uzmanların sistematik saldırıları. OpenAI, Anthropic ve DeepMind bu yöntemi standart geliştirme süreçlerine dahil etmiştir.
Dış denetim (external audit): Bağımsız üçüncü tarafların modeli, eğitim verilerini ve dağıtım süreçlerini incelemesi. Epic vakasındaki Michigan çalışması bu kategoriye girer.
Sürekli izleme (continuous monitoring): Konuşlandırılan sistemin üretim ortamında performansının ve davranışının düzenli olarak takip edilmesi. Dağılım kaymasını erken tespit etmenin en etkili yoludur.

Denetim Çerçeveleri ve Standartlar

Düzenleyici kurumlar ve standart belirleyici kuruluşlar, yapay zeka değerlendirmesi için çerçeveler geliştirmektedir. NIST Yapay Zeka Risk Yönetim Çerçevesi (AI RMF, 2023) yönetim, haritalama, ölçme ve yönetim adımlarından oluşan bir süreç tanımlar. AB Yapay Zeka Yasası ise yüksek riskli sistemlerin konuşlandırılmadan önce uygunluk değerlendirmesinden geçmesini zorunlu kılar.

Bu çerçevelerin ortak paydası şudur: kendi kendini denetleyen bir sistemin güvenilirliği sınırlıdır. Bağımsız, şeffaf ve tekrarlanabilir değerlendirme, güven için gerekli ama tek başına yeterli olmayan bir koşuldur.

Modül Özeti

Bu modülde incelediğimiz tüm sorunlar — halüsinasyon, bilgi sınırları, sorumluluk, önyargı, adalet, arıza biçimleri, düşman saldırılar — sistematik değerlendirme ve denetimle erken tespit edilebilir ya da azaltılabilir. Değerlendirme, hata karşısındaki en güçlü silahtır.

1. Epic Systems sepsis modeli vakasında bağımsız araştırmacıların bulgusu ne oldu?

✓ Doğru! Bağımsız değerlendirme, dahili test sonuçlarıyla gerçek klinik performans arasındaki derin uçurumu ortaya koydu.

✗ Yanlış. Model, klinik ortamda vakaların yüzde yetmiş ikisini kaçırıyor ve yüzde seksen üç yanlış pozitif üretiyordu.

2. "Kırmızı takım" (red teaming) yöntemi ne amaçla kullanılır?

✓ Doğru! Kırmızı takım, modelin güvenlik ve güvenilirlik açıklarını konuşlandırmadan önce tespit etmek için kullanılır.

✗ Yanlış. Kırmızı takım, modeli kasıtlı saldırılarla test ederek güvenlik açıklarını ortaya çıkarmayı amaçlar.

3. NIST Yapay Zeka Risk Yönetim Çerçevesi'nin (AI RMF) dört temel adımından biri aşağıdakilerden hangisidir?

✓ Doğru! NIST AI RMF'nin dört adımı Yönetme (Govern), Haritalama (Map), Ölçme (Measure) ve Yönetim (Manage) olarak sıralanır.

✗ Yanlış. NIST AI RMF'nin dört adımı Yönetme (Govern), Haritalama (Map), Ölçme (Measure) ve Yönetim (Manage)'dir.

Laboratuvar Hedefi

Bu laboratuvarda bir yapay zeka sistemini nasıl değerlendireceğinizi ve denetleyeceğinizi adım adım tartışacaksınız.

Asistanın açılış sorusunu yanıtlayın.
Bir klinik karar destek sistemini konuşlandırmadan önce hangi değerlendirme adımlarını zorunlu tutacağınızı açıklayın.
Bağımsız denetimin neden dahili testlerden daha değerli olduğunu ve bunun maliyetini nasıl haklı kılacağınızı tartışın.

Öneri: "Bir hastanede kullanılacak yapay zeka için ideal bir denetim süreci nasıl tasarlanmalıdır? Hangi paydaşlar dahil edilmeli?"

🧪 Denetim ve Değerlendirme Asistanı Ders 8 Lab

Modül 3 Testi

15 soru · Tüm derslerin kapsamlı değerlendirmesi

1. Avukat Schwartz davasında yapay zekanın ürettiği uydurma mahkeme kararları hangi hata türünü örnekler?

✓ Doğru! Halüsinasyon, modelin var olmayan bilgileri gerçekmiş gibi üretmesidir.

✗ Yanlış. Bu, halüsinasyonun örneğidir — model gerçekte var olmayan mahkeme kararları üretti.

2. Air Canada chatbot davasında mahkeme hangi kararı verdi?

✓ Doğru! Mahkeme, şirketin chatbot'unun eylemlerinden sorumlu olduğuna hükmetti.

✗ Yanlış. Mahkeme, Air Canada'yı chatbot'unun verdiği yanlış bilgiden sorumlu tuttu ve tazminat ödetti.

3. Microsoft Tay olayında sistemin kapatılmasının temel nedeni neydi?

✓ Doğru! Tay, kasıtlı manipülasyonla zararlı içerik üretir hale gelince kapatıldı.

✗ Yanlış. Tay, kullanıcıların kasıtlı manipülasyonuyla zararlı içerik ürettiği için kapatıldı.

4. Amazon işe alım yapay zekasındaki sorun hangi önyargı türünden kaynaklanıyordu?

✓ Doğru! Model, on yıllık geçmiş işe alım verisiyle eğitilmişti ve bu veri ağırlıklı olarak erkek adaylardan oluşuyordu.

✗ Yanlış. Sorun veri önyargısıydı: geçmiş işe alım verisinin büyük bölümü erkek adaylardan oluştuğu için model bu kalıbı öğrendi.

5. COMPAS tartışmasında "adalet uyumsuzluğu" neyi ifade eder?

✓ Doğru! Adalet uyumsuzluğu, temel adalet koşullarının büyük çoğunlukla eş zamanlı sağlanamamasını ifade eder.

✗ Yanlış. Adalet uyumsuzluğu, farklı matematiksel adalet tanımlarının aynı sistemde eş zamanlı karşılanamaması sorunudur.

6. "Otomasyon önyargısı" (automation bias) hangi davranışı tanımlar?

✓ Doğru! Otomasyon önyargısı, insanların otomatik sistemlerin kararlarını sorgulamayı bırakma eğilimidir.

✗ Yanlış. Otomasyon önyargısı, operatörlerin sisteme fazla güvenerek bağımsız değerlendirmelerini askıya almasıdır.

7. "Tek nokta arızası" (single point of failure) ne anlama gelir?

✓ Doğru! Boeing MCAS'ta tek sensör arızası tüm sistemin başarısız olmasına yol açtı — bu tek nokta arızasının örneğidir.

✗ Yanlış. Tek nokta arızası, bir sistemin tek bir kritik bileşenin çökmesiyle tamamen işlevsiz hale gelmesidir.

8. Prompt enjeksiyonu saldırısı, OWASP'ın büyük dil modelleri için yayımladığı risk listesinde hangi sıradaki tehdit olarak yer alır?

✓ Doğru! OWASP, prompt enjeksiyonunu BDM'ler için en kritik birinci güvenlik riski olarak sıralamaktadır.

✗ Yanlış. OWASP, prompt enjeksiyonunu büyük dil modelleri için en önemli güvenlik riski olarak birinci sıraya koyar.

9. Epic Systems sepsis modelinin bağımsız değerlendirmesi neyi ortaya koydu?

✓ Doğru! Bağımsız değerlendirme, dahili test sonuçlarıyla gerçek klinik performans arasındaki derin uçurumu gözler önüne serdi.

✗ Yanlış. Bağımsız değerlendirme, modelin gerçek ortamda son derece yüksek oranda hatalı tahmin yaptığını ortaya koydu.

10. "Bilgi kesimi" (knowledge cutoff) kavramı yapay zeka sistemlerinde hangi pratik sorunu doğurur?

✓ Doğru! Model bilgi kesimi sonrasını bilmez; asıl sorun ise bunu her zaman açıkça belirtmemesidir.

✗ Yanlış. Sorun, modelin bilgi kesimi sonrasını bilmemesinin yanı sıra bu sınırı her zaman açıkça ifade etmemesidir.

11. AB Yapay Zeka Yasası (AI Act) yüksek riskli sistemler için ne tür bir yükümlülük getirir?

✓ Doğru! AB Yapay Zeka Yasası, yüksek riskli sistemler için konuşlandırma öncesi uygunluk değerlendirmesi ve şeffaflık zorunlulukları tanımlar.

✗ Yanlış. Yasa, yüksek riskli sistemler için konuşlandırma öncesi uygunluk değerlendirmesi ve şeffaflık yükümlülükleri getirir.

12. "Zehirleme saldırısı" (data poisoning) ne anlama gelir?

✓ Doğru! Zehirleme saldırısı, eğitim verisinin kasıtlı olarak bozulmasıyla modelin belirli koşullarda yanlış davranmasını sağlar.

✗ Yanlış. Zehirleme saldırısı eğitim aşamasını hedef alır: veriye zararlı örnekler eklenerek modele arka kapı yerleştirilir.

13. Kleinberg ve arkadaşlarının adalet araştırması hangi temel sonuca ulaştı?

✓ Doğru! Bu matematiksel sonuç, adalet tercihinin teknik değil değer bazlı bir karar olduğunu gösterir.

✗ Yanlış. Araştırma, farklı adalet koşullarının büyük çoğunlukla matematiksel olarak eş zamanlı karşılanamayacağını kanıtladı.

14. "Kıyaslama" (benchmarking) yönteminin temel sınırlılığı nedir?

✓ Doğru! Kıyaslama testleri, standart veri setlerinde iyi sonuç veren modellerin gerçek dünyada çok daha kötü performans gösterebildiğini gizleyebilir.

✗ Yanlış. Temel sınırlılık, kıyaslama setinin gerçek dünya dağılımını yansıtmaması ve bu nedenle yanıltıcı sonuçlar verebilmesidir.

15. Bu modülde incelenen tüm sorunlar — halüsinasyon, önyargı, arıza biçimleri, saldırılar — hangi ortak mekanizmayla en erken tespit edilebilir?

✓ Doğru! Bağımsız, sistematik değerlendirme, bu modülde ele alınan tüm hata ve risk kategorilerinin erken tespitinde en güçlü mekanizmadır.

✗ Yanlış. Sistematik ve bağımsız denetim, bu modüldeki tüm sorun türlerini en erken tespit edebilecek mekanizmadır.

Yapay Zeka Hata Yapar

Ders 1 Testi

Lab 1: Halüsinasyonu Keşfetmek

Laboratuvar Hedefi

Yapay Zeka Bilmediğinde

Ders 2 Testi

Lab 2: Bilgi Sınırlarını Sorgulamak

Laboratuvar Hedefi

Hata Kimin?

Ders 3 Testi

Lab 3: Sorumluluğu Tartışmak

Laboratuvar Hedefi

Önyargı Girer, Önyargı Çıkar

Ders 4 Testi

Lab 4: Önyargıyı Tespit Etmek

Laboratuvar Hedefi

Adalet ve Yapay Zeka

Ders 5 Testi

Lab 5: Adalet Tanımlarını Karşılaştırmak

Laboratuvar Hedefi

Arıza Biçimleri ve Önlem

Ders 6 Testi

Lab 6: Arıza Senaryolarını Analiz Etmek

Laboratuvar Hedefi

Düşman Saldırılar ve Manipülasyon

Ders 7 Testi

Lab 7: Düşman Saldırıları Analiz Etmek

Laboratuvar Hedefi

Yapay Zeka Sistemlerini Değerlendirme ve Denetleme

Ders 8 Testi

Lab 8: Denetim Stratejisi Geliştirmek

Laboratuvar Hedefi

Modül 3 Testi

Sonuç