Google LIMoE – Tek Bir Yapay Zeka Hedefine Doğru Bir Adım

Beytullah Güneş

3 yıl önce

Google, Google’ın Pathways adlı bir AI mimarisi hedefine ulaşma yolunda bir adımı temsil ettiğini söylediği LIMoE adlı yeni bir teknoloji duyurdu. Pathways, şu anda birden fazla algoritma kullanarak gerçekleştirilen birden çok görevi yapmayı öğrenebilen tek bir model olan bir AI mimarisidir. LIMoE, Bir Seyrek Uzman Karışımı Modeli ile Çoklu Modaliteleri Öğrenme anlamına gelen bir kısaltmadır . Vizyon ve metni birlikte işleyen bir modeldir. Benzer şeyleri yapacak başka mimariler olsa da, atılım, yeni modelin bu görevleri, Seyrek Model adı verilen bir sinir ağı tekniği kullanarak gerçekleştirme biçimindedir.

Seyrek model, Uzmanların Karışımı katmanı (MoE) yaklaşımını tanıtan 2017 tarihli bir araştırma makalesinde, Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer başlıklı bir araştırma makalesinde açıklanmıştır . 2021’de Google, GLaM adlı bir MoE modelini duyurdu : Yalnızca metin üzerinde eğitilen Uzmanların Karışımı ile Dil Modellerinin Verimli Ölçeklenmesi . LIMoE ile farkı, metin ve resimler üzerinde aynı anda çalışmasıdır.

Seyrek model, “yoğun” modellerden farklıdır, çünkü modelin her parçasını bir görevi yerine getirmeye adamak yerine, seyrek model, görevi, görevin bir bölümünde uzmanlaşmış çeşitli “uzmanlara” atar. Bunun yaptığı, hesaplama maliyetini düşürmek ve modeli daha verimli hale getirmektir. Yani, bir beynin bir köpeği nasıl gördüğüne ve onun bir köpek olduğunu bilmesine benzer şekilde, onun bir boksör olduğunu ve boksörün gümüş açık kahverengi bir ceket gösterdiğini, bu model de bir görüntüyü görüntüleyebilir ve görevi benzer bir şekilde, hesaplama atayarak gerçekleştirebilir. bir köpeği, cinsini, rengini vb. tanıma görevinde uzmanlaşmış farklı uzmanlara verilen görevler.

LIMoE modeli, sorunları belirli bir görevde uzmanlaşan “uzmanlara” yönlendirerek, sorunları çözmeye yönelik mevcut yaklaşımlara benzer veya daha iyi sonuçlar elde eder. Modelin ilginç bir özelliği, bazı uzmanların çoğunlukla görüntüleri işlemede, diğerlerinin daha çok metin işlemede ve bazı uzmanların her ikisini birden yapmakta uzmanlaşmasıdır. Google’ın LIMoE’nin nasıl çalıştığına ilişkin açıklaması, gözler konusunda bir uzman, tekerlekler için başka bir uzman, çizgili dokular, katı dokular, kelimeler, kapı kolları, yiyecek ve meyveler, deniz ve gökyüzü ve bitki görüntüleri konusunda bir uzmanın nasıl olduğunu gösteriyor. Yeni algoritmayla ilgili duyuru şu uzmanları anlatıyor:

“Görüntü uzmanları arasında bazı net niteliksel modeller de var – örneğin, çoğu LIMoE modelinde, metin içeren tüm görüntü yamalarını işleyen bir uzman var. …bir uzman fauna ve yeşilliği işlerken diğeri insan ellerini işler.”

Problemlerin farklı bölümlerinde uzmanlaşan uzmanlar, ölçekleme ve birçok farklı görevi daha düşük bir hesaplama maliyetiyle doğru bir şekilde yerine getirme yeteneği sağlar. Araştırma makalesi bulgularını özetlemektedir:

“Uzman modellerinin ilk büyük ölçekli multimodal karışımı olan LIMoE’yi öneriyoruz. Uzmanlar karışımı modellerinin düzenlenmesine yönelik önceki yaklaşımların çok modlu öğrenme için nasıl yetersiz kaldığını ayrıntılı olarak gösteriyoruz ve eğitimi stabilize etmek için yeni bir entropi tabanlı düzenleme planı öneriyoruz. LIMoE’nin, eşdeğer yoğun modellere göre %7 ila %13 arasında değişen sıfır atış ImageNet doğruluğundaki göreceli iyileştirmelerle mimari ölçeklerde genelleştiğini gösteriyoruz. Daha da ölçeklendirilen LIMoE-H/14, modalite başına omurga ve ön eğitim içeren SOTA kontrastlı modellerle karşılaştırılabilir, %84,1 sıfır görüntülü ImageNet doğruluğuna ulaşır.”

Eşleşir Son Teknoloji

Her ay yayınlanan birçok araştırma makalesi var. Ancak yalnızca birkaçı Google tarafından vurgulanır. Google, tipik olarak araştırmayı ön plana çıkarır, çünkü en son teknolojiye sahip olmanın yanı sıra yeni bir şey başarır. LIMoE, günümüzün en iyi algoritmalarıyla karşılaştırılabilir sonuçlar elde etme başarısını başarır, ancak bunu daha verimli bir şekilde yapar. Araştırmacılar bu avantajı vurgulamaktadır:

“Sıfır çekim görüntü sınıflandırmasında, LIMoE hem karşılaştırılabilir yoğun multimodal modellerden hem de iki kuleli yaklaşımlardan daha iyi performans gösteriyor. En büyük LIMoE, daha pahalı son teknoloji modellerle karşılaştırılabilir, %84,1 sıfır atışlı ImageNet doğruluğuna ulaşır. Seyreklik, LIMoE’nin zarif bir şekilde ölçeklenmesini ve çok farklı girdileri ele almayı öğrenmesini sağlayarak, her şeyi bilen bir genelci ile tek bir uzman olmak arasındaki gerilimi ele alıyor.”

LIMoE’nin başarılı sonuçları, araştırmacıları, LIMoE’nin çok modlu bir genel model elde etmek için ileriye dönük bir yol olabileceğini gözlemlemeye yönlendirdi. Araştırmacılar şunları gözlemledi:

“Farklı modalitelerin veya görevlerin nasıl etkileşime girmesi gerektiğine karar verebilen uzman bileşenlerle genel bir model oluşturma yeteneğinin, yaptıkları her şeyde mükemmel olan gerçekten çok modlu çok görevli modeller oluşturmanın anahtarı olacağına inanıyoruz. LIMoE, bu yönde umut verici bir ilk adım.”

Potansiyel Kusurlar, Önyargılar ve Diğer Etik Sorunlar

Bu mimaride Google’ın duyurusunda tartışılmayan ancak araştırma makalesinin kendisinde bahsedilen eksiklikler var. Araştırma makalesi, diğer büyük ölçekli modellere benzer şekilde, LIMoE’nin de sonuçlara önyargılar getirebileceğini belirtiyor. Araştırmacılar, büyük ölçekli modellerin doğasında bulunan sorunları henüz “açıkça” ele almadıklarını belirtiyorlar. Onlar yazar:

“Büyük ölçekli modellerin…, karşılaştırmalı modellerin… ve web ölçekli çok modlu verilerin… potansiyel zararları… LIMoE bunları açıkça ele almadığından burada da devam ediyor.”

Yukarıdaki açıklama (bir dipnot bağlantısında) , Temel Modellerin Fırsatları ve Riskleri Üzerine ( burada PDF ) adlı 2021 araştırma makalesine atıfta bulunur. 2021 tarihli bu araştırma makalesi, ortaya çıkan yapay zeka teknolojilerinin aşağıdakiler gibi olumsuz toplumsal etkilere nasıl yol açabileceği konusunda uyarıda bulunuyor:

“…eşitsizlik, yanlış kullanım, ekonomik ve çevresel etki, yasal ve etik hususlar.”

Alıntı yapılan makaleye göre, etik sorunlar aynı zamanda görevlerin homojenleştirilmesine yönelik eğilimden de kaynaklanabilir ve bu daha sonra bir başarısızlık noktası ortaya çıkarabilir ve bu daha sonra sonraki görevlere yeniden üretilebilir. Uyarıcı araştırma makalesi şunları belirtir:

“Temel modellerinin önemi iki kelimeyle özetlenebilir: ortaya çıkma ve homojenleşme. Ortaya çıkma, bir sistemin davranışının açıkça inşa edilmek yerine dolaylı olarak uyarılması anlamına gelir; hem bilimsel heyecanın hem de beklenmedik sonuçlarla ilgili kaygının kaynağıdır. Homojenleştirme, çok çeşitli uygulamalarda makine öğrenimi sistemleri oluşturmaya yönelik metodolojilerin konsolidasyonunu gösterir; birçok görev için güçlü bir kaldıraç sağlar ama aynı zamanda tek başarısızlık noktaları yaratır.”

Dikkat edilmesi gereken bir alan, görme ile ilgili yapay zekadır. 2021 raporu, kameraların her yerde bulunmasının, yapay zekadaki vizyonla ilgili herhangi bir ilerlemenin, gizlilik ve gözetleme dahil olmak üzere “yıkıcı bir etkisi” olabilecek beklenmedik bir şekilde uygulanan teknolojiye yönelik eşlik eden bir risk taşıyabileceği anlamına geldiğini belirtiyor. Görme ile ilgili yapay zekadaki ilerlemelerle ilgili bir başka uyarıcı uyarı, doğruluk ve önyargı ile ilgili sorunlardır. Şunları not ederler:

“Bilgisayarlı görü modellerinde, yeterince temsil edilmeyen gruplar için daha düşük doğruluklara ve ilişkili hatalara neden olan ve sonuç olarak bazı gerçek dünya ortamlarına uygunsuz ve erken dağıtımla sonuçlanan iyi belgelenmiş bir öğrenilmiş önyargı geçmişi vardır.”

Makalenin geri kalanı, AI teknolojilerinin mevcut önyargıları nasıl öğrenebileceğini ve eşitsizlikleri nasıl sürdürebileceğini belgeliyor.

“Temel modellerin adaletsiz sonuçlar doğurma potansiyeli var: Özellikle tarihsel ayrımcılığı birleştiren hatlar boyunca eşitsiz dağılım nedeniyle insanlara adaletsiz muamele…. Herhangi bir AI sistemi gibi, vakıf modelleri de haksız sonuçlar üreterek, güç sistemlerini güçlendirerek ve teknolojinin olumsuz sonuçlarını zaten marjinalleştirilmiş olanlara orantısız bir şekilde dağıtarak mevcut eşitsizlikleri birleştirebilir…”

LIMoE araştırmacıları, uzmanların belirli konularda nasıl uzmanlaştığının doğası nedeniyle, bu belirli modelin yeterince temsil edilmeyen gruplara karşı bazı önyargıların etrafında çalışabileceğini belirtti. Bu tür olumsuz sonuçlar teori değil, gerçektir ve işe alım algoritmalarının getirdiği haksız ırk temelli önyargılar gibi gerçek dünya uygulamalarında yaşamları zaten olumsuz yönde etkilemiştir . LIMoE makalesinin yazarları, uyarıcı bir uyarı görevi gören kısa bir paragrafta bu potansiyel eksiklikleri kabul ediyor. Ancak, bu yeni yaklaşımla bazı önyargıları ele alma potansiyeli olabileceğini de belirtiyorlar.

“…Modelleri derinlemesine uzmanlaşabilecek uzmanlarla ölçeklendirme yeteneği, yeterince temsil edilmeyen gruplarda daha iyi performansla sonuçlanabilir.”

Son olarak, bu yeni teknolojinin belirtilmesi gereken önemli bir özelliği, bunun için açık bir kullanım belirtilmemiş olmasıdır. Basitçe, görüntüleri ve metni verimli bir şekilde işleyebilen bir teknolojidir. Nasıl uygulanabileceği, bu formda mı yoksa gelecekteki bir formda mı uygulanacağı asla ele alınmaz. Ve bu, uyarı belgesi tarafından gündeme getirilen önemli bir faktördür ( Fırsatlar ve Riskler Vakfı Modelleri ) , araştırmacıların yapay zeka için yetenekleri nasıl kullanılabileceklerini ve mahremiyet ve güvenlik.

“Temel modeller, uyarlanmadan önce belirli bir amacı olmayan aracı varlıklardır; zararlarını anlamak, hem özellikleri hem de göreve özel modeller oluşturmada oynadıkları rol hakkında akıl yürütmeyi gerektirir.”

Bu uyarıların tümü, Google’ın duyuru makalesinin dışında bırakılmıştır, ancak araştırma belgesinin kendisinin PDF versiyonunda atıfta bulunulmuştur.

ilgili konu Google arama sayfasına çeviri işlevi

Pathways AI Mimarisi ve LIMoE

Metin, resimler, ses verileri, tabiri caizse, modaliteler, farklı veri türleri veya görev uzmanlığı olarak adlandırılır. Modaliteler aynı zamanda konuşma dili ve sembolleri anlamına da gelebilir. Dolayısıyla, bilimsel makalelerde ve araştırma makalelerinde “çok modlu” veya “modaliteler” ifadesini gördüğünüzde, genellikle farklı veri türlerinden bahsediyorlar. Google’ın AI için nihai hedefi, Pathways Yeni Nesil AI Mimarisi dediği şeydir. Pathways, bir şeyi gerçekten iyi yapan (böylece binlercesini gerektiren) makine öğrenimi modellerinden her şeyi gerçekten iyi yapan tek bir modele geçişi temsil eder. Yollar (ve LIMoE), sorunları çözmek için çok modlu bir yaklaşımdır. Şöyle anlatılıyor :

“İnsanlar dünyayı algılamak için birden fazla duyuya güvenirler. Bu, çağdaş AI sistemlerinin bilgiyi nasıl sindirdiğinden çok farklıdır. Günümüzün modellerinin çoğu, bir seferde yalnızca bir bilgi biçimini işler. Metin, görüntü veya konuşma alabilirler – ancak genellikle üçünü aynı anda alamazlar. Yollar, aynı anda görme, işitsel ve dil anlamayı kapsayan çok modlu modelleri mümkün kılabilir.”

LIMoE’yi önemli kılan, araştırmacılar tarafından “ …Pathways vizyonuna doğru önemli bir adım… ” olarak adlandırılan multimodal bir mimari olmasıdır. Araştırmacılar LIMoE’yi bir ” adım ” olarak tanımlıyorlar çünkü yapılacak daha çok iş var ve bu yaklaşımın sadece görseller ve metinlerin ötesindeki modalitelerle nasıl çalışabileceğini keşfetmeyi de içeriyor. Bu araştırma makalesi ve beraberindeki özet makale, Google’ın yapay zeka araştırmasının hangi yöne gittiğini ve oraya nasıl ulaştığını gösterir.

Google LIMoE – Tek Bir Yapay Zeka Hedefine Doğru Bir Adım

Kaynaklar: