Yeni Algoritma; Robotların 3D Veri Bulutunda Gizlenen Nesneleri Tanımlamalarını Sağlıyor
MIT tarafından geliştirilen yeni bir teknik; robotların üç boyutlu bir veri bulutunda gizlenen nesneleri hızlı bir şekilde tanımlamasını, bazı insanların doğru şekilde gözlemlediklerinde yoğun olarak desenli bir “Sihirli Göz” imajını nasıl anlayabildiklerini hatırlatmasını sağlar.
Robotlar; genellikle görsel bir sahne toplayan ve nokta matrisine çeviren sensörler aracılığıyla ortamlarını “görür.” Matriks filmindeki Neo kurgusal karakter tarafından görülen 1’lerin ve 0’ların ana hatlarını belirleyen noktalarla değiştirilmesi yerine, teknik; desenleri ve yoğunlukları belirli bir sahnedeki nesneleri gösteren noktalarla değiştirir.
Bu tür nokta bulutlarından nesneler seçmeye çalışan geleneksel teknikler; bunu hem hız hem de doğrulukla yapabilir, ancak ikisini birden yapamaz.
Araştırmacılar, yeni teknikleriyle, bir robotun görsel verileri aldıktan birkaç saniye sonra yoğun bir nokta bulutu içinde gizlenmiş olan (küçük bir hayvan silüeti gibi) bir nesneyi doğru bir şekilde seçebileceğini söylüyorlar. Ekip, tekniğin; fabrikada ve evdeki sürücüsüz otomobiller ve robot asistanları da dahil olmak üzere makine algısının hem hızlı hem de doğru olması gereken birçok durumu iyileştirmek için kullanılabileceğini söylüyor.
Havacılık ve Astronomi Profesörü ve MIT Laboratuvarı Üyesi Luca Carlone: “Bu çalışma hakkında şaşırtıcı olan şey; binlerce nokta içinde farklı renkle işaretli ancak noktaları dağılmış şekilde bir tavşanı bulmamız istense; bu mümkün olmaz. Fakat algoritmamız; nesneyi tüm bu dağınıklıktan görebiliyor. Bu yüzden, nesneleri yerelleştirmede insanüstü bir performans seviyesine ulaşıyoruz.”
“Bilmeden başarısız olmak”
Robotlar şu anda bir nesne üzerinde; (bir tavşan gibi bir nesnenin) 3D nokta temsili olan bir şablon nesnesini, o nesneyi barındırabilecek gerçek dünyanın bir nokta bulutu temsili ile karşılaştırarak; nokta bulutundaki nesneleri tanımlamaya çalışmaktadır. Şablon görüntüsü, “özellikleri” veya tavşanın kulağı veya kuyruğu gibi, o nesnenin karakteristik eğrilerini veya açılarını gösteren nokta koleksiyonlarını içerir. Mevcut algoritmalar; ilk önce gerçek hayattaki nokta bulutundan benzer özellikleri çıkarır, ardından bu özellikleri ve şablonun özelliklerini eşleştirmeye çalışır. Sonuçta nokta bulutun söz konusu nesneyi içerip içermediğini belirlemek için özellikleri şablona döndürür ve hizalar.
Ancak bir robotun algılayıcısına akan nokta bulutu verileri; yanlış konumdaki veya yanlış şekilde yerleştirilmiş, özellik çıkarma ve eşleştirme sürecini önemli ölçüde karıştırabilecek nokta biçimindeki hataları içerir. Sonuç olarak, robotlar; çok sayıda yanlış ilişki kurabilir veya araştırmacıların nokta bulutları arasında “aykırı” dediği şeyleri yapabilir ve nihayetinde nesneleri yanlış tanıtır veya tamamen kaybedebilirler.
Carlone, en son teknolojiye sahip algoritmaların kötü ilişkileri, özellikleri eşleştirildikten sonra iyi ilişkiden çıkarabildiğini; ancak bunu “üstel zaman içinde” yaptıklarını, yoğun işlem yapan bir bilgisayar kümesinin bile yoğunlaştığını söylüyor. Bu yüzden robotlar açısından bile; mevcut algoritmalarla bulut verilerini işaretleyip, problemi makul bir sürede çözmek mümkün olmuyor. Bu teknikler, doğru olmasına rağmen; yoğun nokta bulutları içeren daha büyük ve gerçek hayattaki veri kümelerini analiz etmek için pratik değildir.
Özellikleri ve ilişkileri hızlı bir şekilde tanımlayabilen diğer algoritmalar; bu hataların farkında olmadan, süreçte çok fazla aykırı veya yanlış tespit oluşturarak, acele bir şekilde yapar.
Carlone: “Bu, kendi kendini süren bir arabada ya da güvenlik açısından kritik bir uygulamada çalışıyorsa, sonuç korkunç olur. Başarısız olduğunu bilmeden başarısız olmak, bir algoritmanın yapabileceği en kötü şey.”
Rahat bir görünüm
Yang ve Carlone bunun yerine, aykırı olanları “polinomial zaman” içinde eriten bir teknik geliştirdi. Bu da giderek yoğun nokta bulutları için bile; çok hızlı bir şekilde yapabileceği anlamına geliyor. Böylece teknik darmadağın sahnelerde gizlenmiş nesneleri hızlı ve doğru bir şekilde tanımlayabilir.
Araştırmacılar ilk önce bir şablon nesnesinin özelliklerini bir nokta bulutundan çıkarmak için geleneksel teknikleri kullandılar. Ardından, eşzamanlı olarak kötü özellik ilişkilerinden iyi olanı tanımlarken; nesnenin bir nokta bulutundaki boyutunu, konumunu ve yönünü şablon nesnesiyle eşleştirmek için üç aşamalı bir işlem geliştirdiler.
Ekip; istenmeyenleri ayıklamak ve bir nesnenin boyut ve konumunu eşleştirmek için bir “uyarlanabilir (adaptif) oylama şeması” algoritması geliştirdi. Boyut için; algoritma şablon ve nokta bulutu özellikleri arasında ilişki kurar. Ardından bir şablondaki özellikler ile nokta bulutunda karşılık gelen özellikler arasındaki bağıl mesafeyi karşılaştırır. Örneğin; nokta bulutundaki iki özellik arasındaki mesafe, şablondaki karşılık gelen noktaların beş katıysa; algoritma, nesnenin şablon nesnesinden beş kat daha büyük olduğu hipotezine bir “oy” atar.
Algoritma bunu her özellik ilişkisi için yapar. Daha sonra, algoritma; en çok oy alan boyut hipotezinde yer alan ilişkileri seçer ve diğerlerini ayıklarken, doğru olanları tanımlar. Bu şekilde; teknik aynı anda doğru ilişkilendirmeleri ve bu ilişkilendirmeler tarafından temsil edilen nesnenin göreceli boyutunu ortaya çıkarır. Aynı işlem nesnenin konumunu belirlemek için de kullanılır.
Araştırmacılar; şablon nesnesinin yönünü üç boyutlu uzayda bulan rotasyon için de ayrı bir algoritma geliştirdi.
Mevcut teknikler; nesnenin olası her eğim veya dönüşünü bir “maliyet” olarak değerlendirer. Maliyet ne kadar düşük olursa, rotasyonun özellikler arasında doğru bir eşleşme olasılığı da o kadar artar. Her bir dönme ve ilişkili maliyet; birden fazla tepe ve vadiden oluşan bir topografik haritada, düşük maliyetle ilişkili daha düşük kodlarla temsil edilir.
Ancak Carlone, özellikle birden fazla alan varsa ve bir nesnenin belirli bir dönüşü ile bir nokta bulutundaki nesnenin gerçek ve tam eşleşmesini temsil eden fark edilebilir en düşük noktayı temsil etmiyorsa; bunun bir algoritmayı kolayca karıştırabileceğini söylüyor. Bunun yerine, takım; topografik haritayı basitleştiren ve optimum rotasyonu temsil eden tek bir alan ile birlikte “dışbükey gevşeme” algoritması geliştirdi. Bu şekilde, algoritma; (nesnenin nokta bulutundaki oryantasyonunu tanımlayan dönüşü) hızlı bir şekilde tanımlayabilir.
Ekip, yaklaşımıyla; artan yoğunluklu nokta bulutlarında saklanan üç farklı nesneyi (bir tavşan, bir ejderha ve bir Buda figürü) hızlı ve doğru bir şekilde tespit edebildi. Ayrıca, algoritmanın hızlı bir şekilde mısır gevreği kutusu beyzbol şapkası görebildiği bir oturma odası da dahil olmak üzere gerçek yaşam sahnelerinde objeleri tanımlayabildiler.
Carlone: “Yaklaşım; ‘polinom zamanında’ çalışabildiğinden, örneğin sürücüsüz araçların sensör verisinin karmaşıklığına benzeyen daha yoğun nokta bulutları kolayca analiz edilebilir ve ölçeklendirilebilir.”