Yapay Zeka Hata Yapar
Yapay zeka sistemleri güçlü araçlardır; ancak hata yapmak onların doğasında vardır. Bu hataları anlamak, onlarla güvenle çalışmanın ilk adımıdır.
Bir yapay zeka modeli neden güvenle yanlış bir cevap verebilir?
2023 yılında, ABD'li avukat Steven Schwartz bir dava dilekçesinde ChatGPT kullanarak içtihat (daha önce verilmiş mahkeme kararları) araştırması yaptı. Yapay zeka, tamamen uydurulmuş altı mahkeme kararını gerçekmiş gibi sundu: tarihler, davacı adları, kararın özeti — hepsi inandırıcı biçimde yazılmıştı, ancak hiçbiri gerçekte mevcut değildi. Schwartz bu referansları doğrulamadan dilekçeye dahil etti. Federal hâkim Robert Lehburger durumu fark etti, avukata 5.000 dolar para cezası verdi ve dilekçenin tamamı reddedildi. Bu olay, "halüsinasyon" (hallucination) adı verilen yapay zeka hatasının gerçek dünya sonuçlarını gözler önüne serdi.
Yapay zeka hatalarını tek bir sepete koymak yanıltıcıdır. Araştırmacılar bu hataları birkaç farklı kategoride inceler.
Halüsinasyon: Model, eğitim verilerinde olmayan ya da gerçeklikle çelişen bilgileri özgüvenle üretir. Schwartz davasındaki uydurma içtihat tam olarak budur. Model, "bilmiyorum" demek yerine doğruymuş gibi görünen içerik üretir.
Dağılım kayması (distribution shift): Model, eğitildiği veri dağılımından farklı bir gerçek dünya girdisiyle karşılaştığında hata yapar. 2020'de yayımlanan bir NHS araştırması, COVID-19 teşhisinde kullanılan görüntü tabanlı yapay zeka modellerinin, hastane ekipmanlarının farklı açılardan çekilmiş yeni görüntülerde başarısız olduğunu gösterdi — çünkü modeller belirli ekipman düzenlemelerine alışmıştı.
Kalibrasyonsuzluk: Modelin bir cevabın doğruluğuna ilişkin güven düzeyi, gerçek doğrulukla örtüşmez. İdeal olarak yüzde seksen güvenle verilen cevapların yaklaşık yüzde sekseninin doğru olması gerekir. Pek çok büyük dil modelinde bu örtüşme bozuktur.
Halüsinasyon bir "hata mesajı" değildir. Model, doğru ve yanlış cevabı aynı güvenle, aynı akıcılıkta sunar. Bu nedenle çıktının kaynağı bağımsız olarak doğrulanmadan kullanılmamalıdır.
Büyük dil modelleri (BDM'ler), istatistiksel olarak en olası bir sonraki kelimeyi tahmin ederek çalışır. Bu mimari, modele doğal ve akıcı bir üretim tarzı kazandırır. Ancak aynı mekanizma, modelin "bilmiyorum" yerine "mantıklı görünen bir şey üret" seçeneğini tercih etmesine de yol açar.
2022'de Meta'nın Galactica modelini ele alalım. Bilimsel literatür için eğitilen bu model, kısa süre içinde kamuya açıldı ve ardından kapatıldı — çünkü walrüsların tarihi ve ayın ağırlığı gibi konularda son derece güvenli bir üslupla tamamen yanlış bilgiler üretiyordu. Bir araştırmacı, modelin "ayıların ve aslanların birlikte evrimleşip evrimleşmediği" sorusuna referanslar uyduran ayrıntılı bir cevap verdiğini belgeledi.
Ders 1 Testi
Üç soruyu yanıtlayın, ardından laboratuvara geçin.
Lab 1: Halüsinasyonu Keşfetmek
Yapay zekanın hata mekanizmalarını bire bir inceleyin.
Laboratuvar Hedefi
Bu laboratuvarda yapay zekanın halüsinasyon ve hata biçimleri üzerine bir uzmanla konuşacaksınız. Aşağıdaki adımları izleyin:
- Yapay zekanın açılış sorusunu yanıtlayın.
- Bir yapay zekanın neden "bilmiyorum" demek yerine uydurma içerik üretebileceğini sormayı deneyin.
- Schwartz davasını ya da Galactica örneğini gündeme getirin ve modelin bu olaylardan ne öğrenebileceğimize ilişkin görüşünü isteyin.
Yapay Zeka Bilmediğinde
Belirsizliği dürüstçe ifade edemeyen bir model tehlikelidir. Yapay zekanın "bilgi sınırları" nasıl çalışır ve bu sınırlar neden önemlidir?
Bir modelin bilmediğini bilememesi ne tür zararlara yol açabilir?
2023 yılında Air Canada, müşterilerine chatbot aracılığıyla yanlış bir yas indirimi politikası iletti. Chatbot, şirketin geçerli politikasını doğru aktarmak yerine var olmayan bir geri ödeme hakkı olduğunu söyledi. Müşteri Jake Moffatt, bu bilgiye dayanarak bilet satın aldı; şirket indirimi reddettiğinde Moffatt mahkemeye başvurdu. Kanada Medeni Haklar Mahkemesi, Air Canada'nın chatbot'unun eylemlerinden sorumlu olduğuna hükmetti. Mahkeme, şirketin "chatbot'un verdiği bilgilerden sorumlu olmadığı" argümanını reddetti. Air Canada tazminat ve masrafları ödedi.
Büyük dil modelleri belirli bir tarihte dondurulmuş veriyle eğitilir; bu tarih "bilgi kesimi" (knowledge cutoff) olarak adlandırılır. Model bu tarihten sonraki olaylar hakkında gerçek bilgiye sahip değildir. Ancak sorun, modelin bu sınırı her zaman açıkça belirtmemesidir.
Air Canada chatbotu tam da bu noktada başarısız oldu: güncel olmayan ya da yanlış yapılandırılmış politika bilgisiyle eğitilmiş bir sistem, müşteriye yanlış yönlendirme yaptı ve belirsizlik konusunda kullanıcıyı uyarmadı.
Araştırmacılar bu sorunu "bilgi sınırı farkındalığı" (knowledge boundary awareness) çerçevesinde ele alır. İdeal bir model, emin olmadığı alanlarda bunu açıkça ifade etmelidir. Uygulamada bu durum çoğunlukla gerçekleşmez.
"Bilmiyorum" diyen bir model ile yanlış bir cevap üreten bir model arasındaki fark, bir kullanıcı açısından hayati önem taşıyabilir. Belirsizliği açıkça iletemeyen sistemler, gerçek zarar üretir.
İnsan uzmanlar belirsizliklerini ifade etmek için "bunu doğrulamam gerekiyor" ya da "emin değilim ama…" gibi ifadeler kullanır. Bu tutum epistemik alçakgönüllülük (epistemic humility) olarak adlandırılır. Yapay zeka modellerinin bu beceriyi kazanması, yalnızca teknik değil aynı zamanda tasarım tercihlerinin bir sorunudur.
OpenAI ve Anthropic gibi şirketler, modellerinin belirsiz ya da bilgi sınırı dışındaki sorularda bunu bildirmesi için özel ince ayar (fine-tuning) süreçleri uygulamaktadır. Ancak bu mekanizmalar kusursuzdur; modeller hâlâ bilinmeyeni biliyor gibi davranabilir. Bunu önlemenin en güvenilir yolu, kritik bilgileri her zaman bağımsız kaynaklardan doğrulamaktır.
Ders 2 Testi
Bilgi sınırları ve belirsizlik konusundaki kavrayışınızı ölçün.
Lab 2: Bilgi Sınırlarını Sorgulamak
Yapay zekanın bilmediğini nasıl ifade ettiğini test edin.
Laboratuvar Hedefi
Bu laboratuvarda bir yapay zeka sistemi ile bilgi sınırları ve belirsizlik üzerine derinlemesine tartışacaksınız.
- Asistanın açılış sorusunu yanıtlayın.
- Air Canada chatbot davasındaki yasal sonucun sizi şaşırtıp şaşırtmadığını sorun.
- Bir yapay zekanın "bilmiyorum" demesini sağlamanın teknik yolları nelerdir diye soruşturun.
Hata Kimin?
Yapay zeka hata yaptığında sorumluluk zinciri karmaşıklaşır. Geliştirici mi, dağıtıcı mı, kullanıcı mı — kim hesap vermekle yükümlüdür?
Yapay zekanın hatası için kimi sorumlu tutabiliriz?
2016 yılında Tay, Microsoft'un Twitter üzerinde yayımladığı bir sohbet robotuydu. Tay, kullanıcılarla etkileşim kurarak öğrenecek şekilde tasarlanmıştı. Yayımlanmasından yirmi dört saat sonra Microsoft sistemi kapattı: kullanıcılar, Tay'ın ırkçı, cinsiyetçi ve aşırı siyasi içerik üretmesini sağlayacak biçimde sistemi kasıtlı olarak manipüle etmişti. Microsoft, tasarım kararları nedeniyle hem kullanıcıların kötüye kullanımını öngöremediği hem de öngörmesi gerektiği gerekçesiyle eleştirildi. Tay davası, yapay zeka sorumluluğunun yalnızca teknik bir sorun olmadığını; ürün tasarımı, dağıtım hızı ve kullanıcı tabanı analizini de kapsadığını ortaya koydu.
Yapay zeka sistemlerinde sorumluluk tek bir aktörde toplanmaz. Araştırmacılar ve hukuk akademisyenleri bu konuyu genellikle birkaç katmanda ele alır:
- Temel model geliştiricisi: Modeli eğiten, altyapısını kuran şirket ya da araştırma grubu. Kapasite sınırlarını ve güvenlik önlemlerini belirler.
- Dağıtıcı (deployer): Modeli belirli bir ürün ya da hizmet için konuşlandıran taraf. Air Canada ve Microsoft Tay örneklerinde bu katman ön plana çıktı.
- Kullanıcı: Sistemi kullanan kişi ya da kurum. Manipülatif kullanım ya da uyarılara rağmen yanlış bilgilere güvenmek burada değerlendirilir.
AB Yapay Zeka Yasası (AI Act, 2024), bu katmanlı sorumluluğu yasal çerçeveye oturtmaya çalışan ilk kapsamlı düzenlemedir. Yüksek riskli yapay zeka uygulamalarında dağıtıcılara belirli yükümlülükler getirmekte, temel model geliştiricilerine ise şeffaflık zorunlulukları tanımlamaktadır.
Microsoft, Tay'ın manipülasyonunu bir "saldırı" olarak nitelendirdi. Eleştirmenler ise şirketi iki temel tasarım hatasından sorumlu tuttu: birincisi, halka açık bir sohbet robotunun gerçek zamanlı öğrenmeye izin verecek şekilde yapılandırılması; ikincisi, risk analizinin yetersiz yapılması.
Bu ayrım — kasıtlı kötüye kullanım ile öngörülmesi gereken tasarım açığı — yapay zeka sorumluluğu tartışmalarının merkezindedir. Bir üretici, makul biçimde öngörülemeyen her kötüye kullanımdan sorumlu tutulamazken, kötüye kullanımı mümkün kılan temel tasarım tercihlerinden sorumluluk kaçınılamaz.
AB Yapay Zeka Yasası ve ABD'nin sektörel düzenlemeleri, sorumluluğu paylaşan bu çok katmanlı yapıyı farklı biçimlerde tanımlar. Türkiye'de henüz bağlayıcı bir yapay zeka sorumluluğu mevzuatı bulunmamakla birlikte, Kişisel Verileri Koruma Kanunu (KVKK) bazı hallerde uygulanabilmektedir.
Ders 3 Testi
Yapay zeka sorumluluğu ve sorumluluk zinciri üzerine sorular.
Lab 3: Sorumluluğu Tartışmak
Yapay zeka hatalarında sorumluluk zincirini çözümleyin.
Laboratuvar Hedefi
Bu laboratuvarda yapay zeka sorumluluğu üzerine bir uzmanla yapılandırılmış bir tartışma yürüteceksiniz.
- Asistanın açılış sorusunu yanıtlayın.
- Tay davasında Microsoft'un sorumlu olup olmadığını ve neden böyle düşündüğünüzü paylaşın.
- Türkiye'de benzer bir olay yaşansaydı hangi hukuki mekanizmaların devreye girebileceğini sorun.
Önyargı Girer, Önyargı Çıkar
Yapay zeka modelleri, eğitim verilerindeki kalıpları öğrenir. Bu kalıplar önyargı içeriyorsa model de önyargılı olur — ve bu önyargı ölçeğe yayılır.
Verinin önyargısı modele nasıl geçer ve bunu nasıl fark ederiz?
Amazon, 2014-2018 yılları arasında yazılım mühendisi pozisyonları için özgeçmiş değerlendiren bir yapay zeka sistemi geliştirdi. Sistem, son on yıllık işe alım verisiyle eğitilmişti; bu veri ağırlıklı olarak erkek adaylardan oluşuyordu. Sonuç olarak model, kadın adayların özgeçmişlerini sistematik biçimde daha düşük puanladı: "women's" (kadın) sözcüğünü içeren üniversite kulüplerini ve kadın odaklı ifadeleri cezalandırdı. Amazon 2018'de sistemi kapattı, ancak kapatmadan önce bazı işe alım kararlarında sisteme danışılmıştı. Reuters'ın haberiyle kamuoyuna duyurulan bu olay, veri önyargısının algoritmik önyargıya nasıl dönüştüğünün en çok belgelenen örneklerinden biri oldu.
Makine öğrenimi modelleri, eğitim verisindeki istatistiksel kalıpları genelleştirir. Eğer bu kalıplar tarihsel eşitsizlikleri yansıtıyorsa — örneğin, belirli mesleklerde belirli demografik grupların az temsil edilmesi — model bu eşitsizliği "doğru" bir kalıp olarak öğrenir.
Önyargının kaynakları üç ana başlıkta incelenir:
- Veri önyargısı (data bias): Eğitim verisinin belirli grupları fazla ya da az temsil etmesi. Amazon örneği tam olarak budur.
- Ölçüm önyargısı (measurement bias): Değerlendirme metriklerinin belirli gruplar için daha yanlı çalışması. Yüz tanıma sistemlerinde koyu tenli bireyler için hata oranlarının daha yüksek olması bu kategoriye girer.
- Toplama önyargısı (aggregation bias): Farklı grupları tek bir modelde birleştirmenin, her grup için ayrı modelden daha kötü sonuç vermesi.
Bir insan işe alım uzmanı önyargılı kararlar verdiğinde etki sınırlıdır. Bir yapay zeka sistemi aynı önyargıyla günde binlerce başvuruyu değerlendirdiğinde etki büyük ölçekte yayılır. Bu ölçek etkisi, algoritmik önyargının insan önyargısından neden daha acil bir sorun olarak ele alındığını açıklar.
MIT ve Stanford'dan araştırmacıların yaptığı 2018 tarihli "Gender Shades" çalışması, üç büyük ticari yüz tanıma sisteminin koyu tenli kadınlarda hata oranının açık tenli erkeklere kıyasla yüzde otuz dört puana kadar yüksek olduğunu belgeledi.
Ders 4 Testi
Önyargı türleri ve kaynakları üzerine sorular.
Lab 4: Önyargıyı Tespit Etmek
Veri önyargısının modele geçiş mekanizmalarını inceleyin.
Laboratuvar Hedefi
Bu laboratuvarda veri önyargısı ve algoritmik önyargı üzerine derinlemesine bir tartışma yürüteceksiniz.
- Asistanın açılış sorusunu yanıtlayın.
- Amazon'un işe alım sistemindeki önyargı nasıl tespit edilebilirdi diye sorun.
- Türkiye'deki işe alım ya da kredi değerlendirme süreçlerinde benzer önyargıların nasıl ortaya çıkabileceğini tartışın.
Adalet ve Yapay Zeka
Adalet soyut bir kavram değildir; ölçülebilir, tanımlanabilir ve çelişen farklı biçimleri vardır. Yapay zekada adalet hangi matematiksel tanıma göre sağlanacak?
Farklı adalet tanımları birbiriyle çelişirse hangi tarafı seçeriz?
COMPAS (Correctional Offender Management Profiling for Alternative Sanctions), ABD mahkemelerinde kullanılan ve sanıkların yeniden suç işleme riskini puanlayan bir yapay zeka aracıydı. 2016 yılında ProPublica, sistemin siyah sanıkları yeniden suç işleme konusunda beyaz sanıklara kıyasla yaklaşık iki kat daha fazla yanlış biçimde yüksek riskli olarak sınıflandırdığını ortaya koydu. COMPAS'ı geliştiren Northpointe ise sistemin iki grup arasında eşit tahmin doğruluğu (predictive accuracy) sağladığını savundu. Her iki taraf da matematiksel olarak haklıydı — çünkü farklı adalet tanımlarını kullanıyorlardı. Bu çelişki, "adalet uyumsuzluğu" (fairness incompatibility) olarak bilinen temel bir matematiksel gerçeği gündeme taşıdı.
Araştırmacılar onlarca farklı matematiksel adalet tanımı belirlemiştir. Bunların tamamını aynı anda sağlamak çoğu durumda imkânsızdır. En sık tartışılan üç tanım şunlardır:
- Bireysel adalet (individual fairness): Benzer bireylere benzer muamele edilmesi. Her bireyin özgün koşullarına göre değerlendirilmesini öngörür.
- Grup eşitliği (group parity): Modelin tahminlerinin farklı demografik gruplar arasında eşit oranda doğru olması. COMPAS tartışmasında Northpointe bu tanımı kullandı.
- Yanlış pozitif eşitliği (equal false positive rates): Modelin belirli bir grubu haksız biçimde yüksek riskli olarak sınıflandırma oranının gruplar arasında eşit olması. ProPublica bu tanımı kullandı.
Jon Kleinberg ve arkadaşlarının 2016'da yayımladığı makale, temel adalet koşullarının yalnızca çok özel durumlarda eş zamanlı sağlanabileceğini matematiksel olarak kanıtladı. Bu durum, adalet tercihinin teknik değil değer bazlı bir karar olduğunu gösterir.
Bu matematiksel kısıt, adalet sorununu mühendislik sorunundan çıkarıp siyasi ve etik bir soruya dönüştürür: kimin tanımını kullanacağız ve bu tercihin bedeli kime yüklenecek? Bu soruyu yalnızca mühendislere bırakmak, demokratik hesap verebilirlik açısından ciddi riskler içerir. Toplumun bu kararlara katılımını sağlayan mekanizmalar — kamuoyu denetimi, bağımsız denetim, yasal çerçeve — giderek daha kritik hale gelmektedir.
Ders 5 Testi
Yapay zekada adalet tanımları ve çelişkileri üzerine sorular.
Lab 5: Adalet Tanımlarını Karşılaştırmak
Çelişen adalet ölçütlerini gerçek senaryolar üzerinden tartışın.
Laboratuvar Hedefi
Bu laboratuvarda adalet tanımlarının çeliştiği gerçek senaryolar üzerine bir uzmanla tartışacaksınız.
- Asistanın açılış sorusunu yanıtlayın.
- COMPAS tartışmasında hangi adalet tanımını daha yerinde bulduğunuzu ve neden böyle düşündüğünüzü açıklayın.
- Türkiye'de bir kredi veya yargı sisteminde yapay zeka kullanılsaydı hangi adalet tanımının önceliklendirilmesi gerektiğini tartışın.
Arıza Biçimleri ve Önlem
Yapay zeka sistemleri belirli kalıplarda başarısız olur. Bu başarısızlık biçimlerini önceden tanımak, daha sağlam sistemler tasarlamanın temelidir.
Bir sistemi tasarlarken hangi arıza biçimleri en kritik riskleri taşır?
2018 yılında Boeing 737 MAX uçaklarında kullanılan MCAS (Manevra Karakteristik Artırma Sistemi), iki farklı kazada toplam 346 kişinin ölümüne yol açtı. Sistem, yanlış sensör verisi aldığında uçağı otomatik olarak aşağı yöneltti. Pilotlar sistemi devre dışı bırakmak için gerekli prosedürden habersizdi; MCAS'ın varlığı eğitim materyallerine dahil edilmemişti. Bu tablo, kritik bir arıza biçimini örnekler: tek sensöre bağımlılık, yedeksiz tasarım ve operatöre yetersiz bilgi aktarımı. MCAS bir yapay zeka sistemi olmasa da bu arıza kalıpları modern yapay zeka sistemleri için de geçerlidir ve "tek nokta arızası" (single point of failure) olarak kavramsallaştırılır.
Yapay zeka ve otomasyon sistemlerinde araştırmacılar birkaç tekrarlayan arıza biçimi tanımlamıştır:
- Tek nokta arızası: Sistemin, tek bir bileşenin başarısızlığıyla tamamen çökmesi. MCAS'ta tek sensör bağımlılığı bu kategoriye girer.
- Dağılım kayması (distribution shift): Modelin eğitildiği veri dağılımından uzaklaşan gerçek dünya girdileriyle başarısız olması.
- Otomasyon önyargısı (automation bias): Operatörlerin sisteme fazla güvenerek kendi değerlendirmelerini askıya alması. Pilotların MCAS'a itiraz etmekte gecikmesi buna örnek verilebilir.
- Özellik çöküşü (specification gaming): Modelin, tasarlananın değil belirlenmiş metriğin optimize edilmesi. Aşırı uyum (reward hacking) olarak da bilinir.
Mühendisler ve araştırmacılar bu arıza biçimlerine karşı çeşitli önlem mekanizmaları geliştirmiştir. Yedeklilik (redundancy), sistemi tek bir bileşen arızasına karşı korur. İnsan döngüde (human-in-the-loop) tasarım, kritik kararlarda insan gözetimini zorunlu kılar. Sağlamlık testi (robustness testing), modeli dağılım kaymasına maruz bırakarak zayıf noktaları önceden tespit eder. İzleme (monitoring), sistemin canlı ortamda beklenen sınırlar içinde çalışıp çalışmadığını sürekli denetler.
Güvenli sistem tasarımında "güvenli arıza" (fail-safe) ilkesi temeldir: sistem başarısız olduğunda, en az zarara yol açacak duruma geçmelidir. Yapay zeka sistemlerinde bu ilke, belirsizlik durumunda insan kararına devretmek anlamına gelebilir.
Ders 6 Testi
Arıza biçimleri ve azaltma stratejileri üzerine sorular.
Lab 6: Arıza Senaryolarını Analiz Etmek
Gerçek sistem başarısızlıklarından çıkarılacak dersleri keşfedin.
Laboratuvar Hedefi
Bu laboratuvarda gerçek arıza senaryoları üzerinden azaltma stratejilerini tartışacaksınız.
- Asistanın açılış sorusunu yanıtlayın.
- MCAS kazasındaki arıza zincirinin hangi aşamasında müdahale en etkili olurdu diye sorun.
- "İnsan döngüde" (human-in-the-loop) tasarımın hangi durumlarda yetersiz kalabileceğini tartışın.
Düşman Saldırılar ve Manipülasyon
Yapay zeka sistemleri kasıtlı olarak yanıltılabilir. Düşman örnekler ve prompt enjeksiyonu, mevcut güvenlik mekanizmalarının ciddi sınırlarını açığa çıkarır.
Bir yapay zekayı yanıltmak için nasıl bir girdi yeterli olabilir?
2023 yılında güvenlik araştırmacısı Riley Goodside, GPT-4'e yönelik bir "prompt enjeksiyonu" (prompt injection) saldırısını belgeledi. Bir web sayfasının görünmez metnine yerleştirilen bir talimat, GPT-4 tabanlı asistanı başka bir asistana e-posta gönderip kimlik bilgilerini iletmesi için yönlendirdi. Asistan, kullanıcının talimatları yerine sayfaya gizlenmiş talimatları izledi. Bu, bağımsız (agentic) yapay zeka sistemlerinin — kendi adlarına eylem gerçekleştiren modellerin — neden özel bir saldırı yüzeyine (attack surface) sahip olduğunu gözler önüne serdi. İki ay içinde benzer saldırılar Bing Chat ve diğer LLM tabanlı asistanlarda da belgelendi.
Yapay zeka sistemlerine yönelik kasıtlı saldırılar birkaç ana kategoride incelenir:
- Düşman örnekler (adversarial examples): İnsan gözüne fark edilemeyecek kadar küçük değişikliklerle modeli hatalı sınıflandırmaya yönelten girdiler. 2017'de araştırmacılar, bir panda görüntüsüne piksel düzeyinde gürültü ekleyerek ImageNet modelinin bunu "gibon" olarak sınıflandırmasını sağladı.
- Prompt enjeksiyonu: Dil modelinin güvenlik filtrelerini veya kullanıcı talimatlarını aşmak için girdi metnine zararlı yönergeler yerleştirilmesi. Goodside'ın belgelediği saldırı bu türdedir.
- Zehirleme saldırısı (data poisoning): Eğitim verisine zararlı örnekler eklenerek modelin belirli girdilerde kasıtlı olarak yanlış davranmasının sağlanması. Arka kapı (backdoor) saldırısı olarak da bilinir.
- Model çıkarma (model extraction): Bir modelin sorgularla sistematik biçimde sorgulanarak davranışının tersine mühendislik yoluyla yeniden oluşturulması.
Düşman saldırılara karşı savunma, saldırıdan daha zordur. Modeli daha sağlam hale getirmek için yapılan ek eğitim, genellikle normal görevlerdeki performansı düşürür. Bu "sağlamlık-doğruluk takası" (robustness-accuracy tradeoff), araştırmacılar için temel bir açık problemdir.
Prompt enjeksiyonu özellikle zordur: dil modelleri, girdi metnindeki talimatlar ile sistem talimatları arasındaki sınırı güvenilir biçimde ayırt edemez. Bu sorun, modelin temel çalışma prensibinden — bağlamı bütünüyle işlemesinden — kaynaklanır.
OWASP (Open Web Application Security Project), büyük dil modellerine yönelik en kritik on güvenlik riskini yayımladı. Prompt enjeksiyonu bu listede birinci sıradadır. Kuruluşlar, yapay zeka tabanlı ürünleri konuşlandırmadan önce bu riskleri değerlendirmelidir.
Ders 7 Testi
Düşman saldırılar ve manipülasyon türleri üzerine sorular.
Lab 7: Düşman Saldırıları Analiz Etmek
Yapay zeka güvenlik açıklarını ve savunma mekanizmalarını keşfedin.
Laboratuvar Hedefi
Bu laboratuvarda düşman saldırı türleri ve savunma stratejileri üzerine derinlemesine tartışacaksınız.
- Asistanın açılış sorusunu yanıtlayın.
- Bir kuruluşun yapay zeka tabanlı ürünündeki prompt enjeksiyonu riskini nasıl değerlendireceğini sorun.
- Zehirleme saldırısına karşı en etkili savunmanın eğitim aşamasında mı yoksa dağıtım aşamasında mı yapılabileceğini tartışın.
Yapay Zeka Sistemlerini Değerlendirme ve Denetleme
İyi niyetli tasarım yeterli değildir. Bağımsız denetim ve sistematik değerlendirme, güvenilir yapay zekanın vazgeçilmez koşullarıdır.
Bir yapay zekayı güvenilir kabul etmek için ne tür kanıtlara ihtiyacımız var?
2019 yılında Epic Systems'ın sepsis tahmin modeli, on dört hastanede değerlendirmeye alındı. Model, dahili testlerde yüzde yetmiş altı doğruluk göstermişti. Ancak Michigan Üniversitesi'nden bağımsız araştırmacıların yaptığı 2023 tarihli çalışma, modelin gerçek klinik ortamda beklenen hastalarda sepsisi yüzde yetmiş iki oranında kaçırdığını ve aynı zamanda yüzde seksen üç yanlış pozitif ürettiğini ortaya koydu. Modelin dahili değerlendirmesi ile bağımsız klinik değerlendirmesi arasındaki bu büyük uçurum, yapay zeka sistemlerinde dışsal ve bağımsız denetimin neden zorunlu olduğunu somut biçimde gösterdi.
Yapay zeka sistemleri farklı aşamalarda ve yöntemlerle değerlendirilebilir:
- Kıyaslama (benchmarking): Modeli standart test setleri üzerinde değerlendirme. Hızlı ve karşılaştırılabilir sonuçlar verir; ancak gerçek dünya dağılımını yansıtmayabilir.
- Kırmızı takım (red teaming): Modeli kötüye kullanmaya ya da başarısız kılmaya çalışan uzmanların sistematik saldırıları. OpenAI, Anthropic ve DeepMind bu yöntemi standart geliştirme süreçlerine dahil etmiştir.
- Dış denetim (external audit): Bağımsız üçüncü tarafların modeli, eğitim verilerini ve dağıtım süreçlerini incelemesi. Epic vakasındaki Michigan çalışması bu kategoriye girer.
- Sürekli izleme (continuous monitoring): Konuşlandırılan sistemin üretim ortamında performansının ve davranışının düzenli olarak takip edilmesi. Dağılım kaymasını erken tespit etmenin en etkili yoludur.
Düzenleyici kurumlar ve standart belirleyici kuruluşlar, yapay zeka değerlendirmesi için çerçeveler geliştirmektedir. NIST Yapay Zeka Risk Yönetim Çerçevesi (AI RMF, 2023) yönetim, haritalama, ölçme ve yönetim adımlarından oluşan bir süreç tanımlar. AB Yapay Zeka Yasası ise yüksek riskli sistemlerin konuşlandırılmadan önce uygunluk değerlendirmesinden geçmesini zorunlu kılar.
Bu çerçevelerin ortak paydası şudur: kendi kendini denetleyen bir sistemin güvenilirliği sınırlıdır. Bağımsız, şeffaf ve tekrarlanabilir değerlendirme, güven için gerekli ama tek başına yeterli olmayan bir koşuldur.
Bu modülde incelediğimiz tüm sorunlar — halüsinasyon, bilgi sınırları, sorumluluk, önyargı, adalet, arıza biçimleri, düşman saldırılar — sistematik değerlendirme ve denetimle erken tespit edilebilir ya da azaltılabilir. Değerlendirme, hata karşısındaki en güçlü silahtır.
Ders 8 Testi
Değerlendirme yöntemleri ve denetim çerçeveleri üzerine sorular.
Lab 8: Denetim Stratejisi Geliştirmek
Gerçek bir yapay zeka sistemi için değerlendirme planı oluşturun.
Laboratuvar Hedefi
Bu laboratuvarda bir yapay zeka sistemini nasıl değerlendireceğinizi ve denetleyeceğinizi adım adım tartışacaksınız.
- Asistanın açılış sorusunu yanıtlayın.
- Bir klinik karar destek sistemini konuşlandırmadan önce hangi değerlendirme adımlarını zorunlu tutacağınızı açıklayın.
- Bağımsız denetimin neden dahili testlerden daha değerli olduğunu ve bunun maliyetini nasıl haklı kılacağınızı tartışın.
Modül 3 Testi
15 soru · Tüm derslerin kapsamlı değerlendirmesi