Yeni bir araştırmaya göre, bilgisayar algoritmaları hangi suçluların tekrar tutuklanacağını tahmin etmede insanları geride bırakıyor.
Gelecekteki suçları öngören risk değerlendirme algoritmaları, hâkimlerin ve şartlı tahliye kurullarının kimin parmaklıklar arkasında kalacağına karar vermesine yardımcı olur (SN: 9/6/17). Ancak bu sistemler ırksal önyargıları sergilemek için ateş altına girmiştir (SN: 3/8/17) ve bazı araştırmalar algoritmaların tutuklamaları tahmin etmede insanlardan daha iyi olduğuna dair şüphe duymuştur. İnsan gönüllülerini risk değerlendirme aracı COMPAS’a karşı çeken bir 2018 çalışması, insanların yazılımın yanı sıra suç hakkında yeniden tahmin öngördüğünü buldu (SN: 2/20/18).
Yeni deneyler seti, insanlara tahminlerinin doğruluğu hakkında anında geri bildirim verildiğinde ve her suçlu hakkında sınırlı bilgi verildiğinde, insanların tekrarlayan suçluların yanı sıra algoritmaları tahmin ettiğini doğrulamaktadır. Ancak, bireyler geri bildirim almadığında veya daha ayrıntılı suç profilleri gösterildiğinde insanlar bilgisayarlardan daha kötüdür.
Gerçekte, hakimler ve şartlı tahliye kurulları da anında geri bildirim almazlar ve genellikle kararlarını verirken üzerinde çalışacakları çok fazla bilgiye sahiptirler. Bu nedenle, çalışmanın bulguları, gerçekçi tahmin koşulları altında algoritmaların, tahminde bulunmayı önleme konusunda insanları geride bıraktığını ileri sürüyor; araştırmacılar 14 Şubat’ta Science Advances’ta çevrimiçi rapor veriyor.
Stanford Üniversitesi ve meslektaşlarından hesaplamalı sosyal bilimci Sharad Goel, 2018 çalışmasının kurulumunu taklit ederek başladı. Çevrimiçi gönüllüler, seks, yaş ve geçmiş tutuklama sayısı gibi özellikler de dahil olmak üzere 50 suçlunun kısa açıklamalarını okudular ve her bireyin iki yıl içinde başka bir suçtan tutuklanıp yakalanmayacağını tahmin ettiler. Her turdan sonra gönüllülere doğru tahmin edip etmedikleri söylendi. 2018’de görüldüğü gibi, insanlar COMPAS’ın performansına rakip oldu: zamanın yaklaşık yüzde 65’i doğru.
Ancak bu insan ve bilgisayar yarışmasının biraz farklı bir versiyonunda Goel’in ekibi, COMPAS’ın geri bildirim almayan insanlar üzerinde bir kenarı olduğunu buldu. Bu deneyde katılımcılar, herhangi bir suçtan ziyade 50 suçludan hangisinin şiddet suçlarından tutuklanacağını tahmin etmek zorunda kaldılar.
Geri bildirimle, insanlar bu görevi yüzde 83 doğrulukla gerçekleştirdi – COMPAS’ın yüzde 89’una yakın. Ancak geri bildirim olmadan, insan doğruluğu yaklaşık yüzde 60’a düştü. Çünkü araştırmacılar, veri kümesindeki suçluların sadece yüzde 11’inin bu kampa düştüğü söylenmesine rağmen, şiddetli suçlar işleyen suçluların riskini fazla tahmin ettikleri için. Çalışma, ırksal veya ekonomik önyargı gibi faktörlerin bu eğilime katkıda bulunup bulunmadığını araştırmamıştır.
Deneyin üçüncü bir varyasyonunda, daha ayrıntılı suç profilleri verildiğinde risk değerlendirme algoritmaları bir üst el gösterdi. Bu kez, gönüllüler LSI-R olarak adlandırılan bir risk değerlendirme aracına karşı karşıya kaldılar. Bu yazılım, madde kötüye kullanımı, eğitim düzeyi ve istihdam durumu dahil olmak üzere COMPAS’tan 10 risk faktörünü daha dikkate alabilir. LSI-R ve insan gönüllüleri, suçluları çok düşük ihtimalden yeniden önerilme olasılığına kadar bir ölçekte değerlendirdi.
Sadece birkaç risk faktörü içeren suç profilleri gösterildiğinde, gönüllüler LSI-R ile eşit performans gösterdiler. Ancak daha ayrıntılı cezai açıklamalar gösterildiğinde, LSI-R kazandı. İnsanlar tarafından sıralandığı şekliyle tekrar tutuklanma riski en yüksek olan suçlular, gerçek tekrarlayan suçluların yüzde 57’sini oluştururken, LSI-R’nin en olası tutukluluklar listesi, havuzdaki gerçek yeniden tekliflerin yaklaşık yüzde 62’sini içeriyordu. Hangi suçluların sadece tutuklanmayıp yeniden hapsedileceğini tahmin etmeyi içeren benzer bir görevde, insanların en yüksek riskli listesi LSI-R’nin yüzde 74’üne kıyasla gerçek yeniden tekliflerin yüzde 58’ini içeriyordu.
Kaliforniya Üniversitesi, Berkeley, 2018 araştırmasında çalışan bilgisayar bilimcisi Hany Farid, gönüllülerin geri bildirim almadığı ve dengelenecek daha fazla bilgiye sahip olduğu zaman algoritmaların bir avantaj sağladığına şaşırmıyor. Ancak algoritmaların eğitimsiz gönüllülerden üstün olması, ceza adaleti kararları vermek için tahminlerine otomatik olarak güvenilmesi gerektiği anlamına gelmez.
Yüzde seksen doğruluk iyi gelebilir, diyor Farid, ama “kendinize sormalısınız, zamanın yüzde 20’si yanılıyorsanız, buna tahammül etmek ister misiniz?”
Ne insanlar ne de algoritmalar, birinin iki yıl boyunca bir suç işleyip işlemeyeceğini tahmin etmede inanılmaz bir doğruluk göstermediğinden, “birisinin özgür olup olmadığını belirlemek için [bu tahminleri] bir ölçüm olarak mı kullanmalıyız?” Farid diyor. “Benim iddiam hayır.”
Belki de birisinin bir işe girme veya kefaletle atlama olasılığı gibi diğer sorular, ceza adaleti kararlarını daha ağır bir şekilde hesaba katmalıdır.