Ana Sayfa 165. Sayı Kendi kendini eğiten yapay zekâ AlphaGo Zero, Go’da en iyisi oldu!

Kendi kendini eğiten yapay zekâ AlphaGo Zero, Go’da en iyisi oldu!

720

Yapay zekâ programı AlphaGo Zero, herhangi bir insan girdisi olmaksızın sadece birkaç gün içinde eğitildi. Google’ın sahibi olduğu DeepMind’ın yapay zekâ programı, herhangi bir insan hamlesi öğrenmeden, “Go” strateji oyununda insanüstü seviyeye ulaştı. İnsan girdisi olmaksızın, bu kendi kendini geliştirebilme kabiliyeti, herhangi bir görevin üstesinden gelebilecek genel bir yapay zekâ tasarlama hayaline doğru kritik bir adımdır. DeepMind Başkanı Demis Hassabis bir basın açıklamasında, bu gelişmenin, yakın gelecekte programların protein katlanması veya materyal araştırması gibi bilimsel zorlukları üstlenmesine imkân verebileceğini söyledi. Hassabis, “Gerçekten çok heyecanlıyız, çünkü bazı ciddi sorunlarda ciddi ilerleme sağlayacak kadar iyi olduğunu düşünüyoruz” dedi.

Londra’da bulunan DeepMind tarafından daha önceden geliştirilen Go oynayan bilgisayarlar, uzmanlar tarafından oynanmış 100.000’in üzerinde insan oyunuyla eğitilmişti. AlphaGo Zero olarak bilinen en son çıkan program, rasgele hamleleri kullanarak sıfırdan başlayacağı yerde, kendi kendine oynayarak öğreniyor. 40 günlük eğitim ve 30 milyon oyundan sonra yapay zekâ, dünyanın önceki en iyi oyuncusunu -başka bir DeepMind yapay zekâsı AlphaGo Masterı- yenmeyi başardı. Sonuçlar Nature’da yayımlandı.

Washington, Seattle’daki Yapay Zekâ Allen Enstitüsü’nün Başkanı Oren Etzioni, “takviye öğrenme” olarak bilinen bu tekniği iyi çalışmak için kullanmanın zor olduğunu ve yoğun kaynak gerektirdiğini söylüyor. Ekibin daha az alıştırma süresi ve bilgisayar gücü kullanarak, önceki sürümleri aşan bir algoritma inşa edebilmesinin şaşırtıcı olmadığını ekliyor.

İnsanlar tarafından geliştirilmemiş oyunlar üretti

Eski Çin oyunu Go, alanı kontrol etmek için bir tahta üzerine siyah ve beyaz taşların yerleştirilmesini içerir. AlphaGo Zero, ataları gibi, oyun tahtasından soyut kavramlar öğrenmek için, beynin yapısından esinlenen bir yapay zekâ türü olan derin bir sinir ağı kullanıyor. Ona sadece oyunun kuralları anlatılmış, deneme yanılma yoluyla öğrenmiş ve her oyundan sonra kendini geliştirmek için neyin çalıştığına dair bilgilerden geri besleme almış. Başlangıçta, AlphaGo Zero’nun öğrenmesi, insan oyuncunun yansımasıydı. Yeni başlayanların sık sık yaptığı gibi, taş yakalamak için hırslı denemeler yapmaya başladı; ama üç gün sonra uzmanların kullandığı karmaşık taktiklerde uzmanlaşmıştı.

Hassabis, “Görüyoruz ki, binlerce yıllık insanlık bilgisini yeniden keşfediyor” diyor. Program, 40 gün sonra insanlar tarafından üretilmemiş oyunlar bulmuştu.

Toplantıda AlphaGo’nun gelişimine liderlik eden DeepMind’dan biliminsanı David Silver, yapay zekâda takviyeli öğrenmeyi kullanan yaklaşımlarla uğraşıldığını, çünkü yeteneğin her zaman istikrarlı bir şekilde ilerlemediğini söyledi. Botlar(1) sıklıkla atalarını yenerler, ancak önceki sürümlerin nasıl yenileceğini unuturlar. Silver, “Bu, projenin ilk gerçekten kararlı, sağlamlaştırılmış takviye öğrenimi sürümüdür; tamamen sıfırdan öğrenebilmektedir” diyor.

AlphaGo Zero’nun ataları iki ayrı sinir ağı kullandılar: Biri muhtemel en iyi hamleleri tahmin etmek ve diğeri de bu hamleler arasında kazanma olasılığı en yüksek olanı değerlendirmek. İkincisini yapmak için; olası sonuçları test etmekte birden fazla hızlı ve rasgele oyunlar oynayan roll-out(2) kullandılar. Yine de AlphaGo Zero tek bir sinir ağı kullanıyor. Her bir pozisyondaki muhtemel sonuçları araştırmak yerine, ağdan bir kazanan tahmin etmesini istiyor. Silver bunun, 100 zayıf oyuncunun oyunlarına güvenmek yerine, uzmandan bir tahmin yapmasını istemek gibi olduğunu söylüyor. “Güçlü bir uzmanın tahminlerine güvenmeyi tercih ediyoruz” diyor.

Silver, bu işlevleri tek bir sinir ağında birleştirmenin algoritmayı daha güçlü ve çok daha verimli hale getirdiğini söylüyor. Hassabis’in 25 milyon dolarlık donanım olacağı tahmininde bulunduğu, tensör işlem ünitesi adı verilen, büyük miktarda işlem gücüne sahip 4 özel çipe hâlâ ihtiyaç var. Fakat ataları bu sayının 10 katını kullandı. Ayrıca kendini aylarca değil, birkaç gün içinde eğitti. Silver bunun, “Algoritmaların hesaplama ya da mevcut veriden çok daha önemli olduğu” anlamına geldiğini söylüyor.

Gelecek olası yapay zekâ görevleri

Hassabis bazı DeepMind araştırmacılarının, benzer teknikleri pratiğe uygulamak için hâlâ AlphaGo üzerinde çalışmaya devam ettiklerini söyledi. Hassabis gelecek vaat eden bir alanın, ilaç gelişimi için önemli bir araç olan proteinlerin nasıl katlandığını anlama araştırmaları olduğunu söylüyor.

Protein katlanması örnekleri üretmek, yıllar boyu itina gerektiren kristalografiyi içerebilir; bu nedenle öğrenilecek veri azdır ve kapsamlı bir arama kullanılarak, aminoasit dizilerinden yapıları tahmin etmek için çok fazla mümkün çözüm vardır. Yine de bulmaca, Go ile bazı temel özellikleri paylaşıyor. Her ikisi de bilinen kuralları içeriyor ve iyi tanımlanmış bir amaca sahipler. Bu algoritmalar, daha uzun vadede, kuantum kimyasında, materyal tasarımında ve robotikte benzer görevlere uygulanabilir.

Silver, yaklaşımını daha genel olarak gerçek dünya görevlerine uygulamak için; yapay zekânın daha az veri ve deneyimden öğrenme yeteneğine ihtiyacı olacağını kabul ediyor. Diğer temel bir adım, başka bir DeepMind botunun 2015’de eğlence salonu oyunları için yaptığı gibi, oyunun kurallarını kendisi için öğrenmek olacaktır. Hassabis bunun, AlphaGo Zero’nun sonunda yapabileceği bir şey olduğunu tahmin ediyor: “Çalışacağından eminiz, yalnızca öğrenme süresini çok uzatacak” diyor.

Dipnotlar

1) Bot: Bilişim dünyasında robot anlamında kullanılıyor.

2) Roll-out: Yeni bir ürünü ya da sistemi ilk kez erişilebilir hale getirmek.

KaynakNature
Önceki İçerikDin – bilim savaşları: Elektriğin keşfi
Sonraki İçerik18. yüzyıl yazı ve illüstrasyonları kullanılarak eski bir manyetik fırtına modellendi