Carnegie Mellon Üniversitesi’nin Robotik Enstitüsü’nden araştırmacılar, birden çok insanın duruşlarını ve hareketlerini videolardan gerçek zamanlı olarak tespit edebilen ve anlayabilen bir bilgisayar geliştirdi. Bilgisayarın kişilerin parmak hareketlerini de algılıyor olması ise bir ilk.
Bu yeni metodun geliştirilmesinde Panoptik Stüdyo adı verilen iki katlı ve içinde toplamda 500 kamera bulunan kubbemsi yapı kullanıldı. Bu tesiste yürütülen deneylerden toplanan veriler, yalnızca bir dizüstü bilgisayar ve bir kamera ile bir grup insanın beden dillerini video kayıtları üzerinden okuyabilen bir sistemin geliştirilmesinde kullanıldı.
Robotik Enstitüsü’nden Doç. Yaser Sheikh, iki boyutlu insan formunun takip edilmesi yönündeki bu gelişmelerin insan-makine etkileşimine yeni bir soluk getireceğini söylüyor, özellikle de insanların makinelerini dış dünyayı daha iyi anlamada kullandıkları durumlarda. Örneğin el hareketlerinin bilgisayar tarafından tanınabilmesi, insanların makinelerle daha doğal hatta “insani” bir biçimde anlaşmalarını sağlayacak, mesela bir objeye işaret ederek göstermek makineye anlatmak için yeterli olacak.
Robotların sözsüz iletişimin nüanslarını daha iyi kavramaları ise sosyal alanlarda da kullanılabilmelerini sağlayacak. Robotlar, beden dilini okuyarak insanların duygu durumlarına göre uygun zamanlamalar belirleyebilecekler. Sürücüsüz araçlardan biri, beden dilini okuyarak kaldırımdaki yayanın karşıya geçmeye çalışacağını, henüz o yola adım atmadan anlayabilir. Aynı zamanda insan davranışlarını kavrayabilen robotlar, disleksi, otizm ve depresyon gibi davranışların teşhis ve tedavisine de yeni bir gözle bakmamızı sağlayabilir.
“İletişim kurarken en az sesimiz kadar bedenimizi de kullanıyoruz,” diyor Sheikh, “ancak bilgisayar bunu neredeyse hiç hesaba katmıyor.”
Spor müsabakalarının analizinde de pozisyonları gerçek zamanda algılayan robotlar, sporcuların yalnızca sahada nerede olduklarını değil; kol, bacak ve kafa hareketlerini anbean takip ederek izlediklerimizi derinleştirebilir. Bu metotlar yalnızca canlı yayınlarda değil, halihazırda internette bulunan videolarda da kullanılabilir.
Bu konuda daha fazla araştırma yapılmasını teşvik etmek için araştırma grubu hem birden çok insanı takip edebilmek hem de el pozisyonlarını tahmin etmek için yazdıkları kodu paylaştılar. Sheikh, şimdiden bu çalışmaya dahil olan birçok ilgili, araştırmacı grubun yanı sıra içinde otomotiv şirketlerinin de bulunduğu 20 ticari grubun da teknolojinin lisansını almak üzerine çalıştıklarını belirtiyor.
Sheikh ve meslektaşları çok kişili el hareketi yorumlama metotlarının raporlarını bu yıl 21-26 Temmuz arasında Honolulu’daki Computer Vision and Pattern Recognition konferansında (CVPR) sundular.
Birden çok insanı gerçek zamanlı olarak özellikle de birbirleriyle etkileşebilecekleri bir ortamdalarken takip etmenin birçok zorluğu var. Tek tek bireysel hareketleri okuyan yazılımların kullanılması grup büyüdükçe zorlaşıyor ve kullanışsızlaşıyor. Dolayısıyla Sheikh ve ekibi tam tersi bir yol izleyerek, bilgisayarın önce jest ve mimiklerin tümünü tespit etmesini, sonra bunları bireylere tek tek eşleştirmesini sağladılar.
Ellerin algılanması ise çok daha zor. İnsanlar ellerini jestlerinde çok yoğun kullandıkları ve zaman zaman bir şey tutuyor oldukları için kameranın elin tamamını görüyor olması neredeyse imkânsız. Aynı zamanda eller için yüz ve bedenin geri kalan kısmı için olduğu gibi geniş, adlandırılmış ve etiketlenmiş duruş değerlendirme skalaları mevcut değil.
“Ancak elin tek tarafının göründüğü hemen her kare için geri kalanının tamamının görüneceği bir açıdan çekim yaparak tamamlamak mümkün” diyor doktora öğrencisi Hanbyul Joo. Panoptik Stüdyo da tam olarak bu amaçla kullanıldı. “Tek bir çekim, bir insan elini 500 farklı açıdan gördüğü gibi elin pozisyonunu da hemen belirliyor” diye açıklıyor Joo. “Eller, birçok kameramızın algılayamayacağı kadar küçükler. Buna rağmen biz bu çalışmada yalnızca 31 yüksek çözünürlüklü kamera kullanarak bile çok geniş bir veritabanı ortaya çıkardık.”
Joo ve bir başka doktora öğrencisi olan Tomas Simon binlerce görüntü elde edebilmek için kendi ellerini kullandılar.
“Panoptik Stüdyo araştırmamızda adeta doping etkisi yapıyor” diyor Sheikh. Şu an vücut, yüz ve el dedektörlerini birlikte çalıştırarak gelişmelerini sağlıyor. Ayrıca çalışma iki-boyutlu modellerden üç-boyulu modellere kaydıkça, stüdyonun anında açıklamalı görüntüler üretebiliyor oluşu hayati önem kazanacak. “10 yıldan fazla bir süre önce National Science Foundation (Ulusal Bilim Derneği) tarafından Panoptik Stüdyo kurulduğunda etkisinin ne olacağı bilinmiyordu” diyor Sheikh. “Şimdi ise 10 yıl önceki bir NSF bağışı sayesinde birçok teknik bariyeri aşmamız mümkün oldu” diye de ekliyor, “Kodu paylaşıyoruz, üstelik Panoptik Stüdyo tarafından kaydedilen bütün verileri de halka açıyoruz.”