Google CALM Yeni Bir Dil Modeli

Beytullah Güneş

2 yıl önce

Google CALM, performans düzeylerinden ödün vermeden büyük dil modellerini (GPT-3 ve LaMDA gibi) hızlandıran CALM adlı çığır açan bir teknolojiyi duyurdu.

Daha Büyük Eğitim Verileri Daha İyi Ama Bir Maliyeti Var

Büyük Dil Modelleri (LLM’ler) büyük miktarda veri üzerinde çalışır. Dil modellerini daha büyük miktarda veri üzerinde eğitmek, modelin her zaman planlanmayan yeni yetenekler öğrenmesiyle sonuçlanır.

Örneğin, bir dil modeline daha fazla eğitim verisi eklemek, bunun için eğitilmemiş olsa bile beklenmedik bir şekilde farklı diller arasında çeviri yapma yeteneği kazanmasıyla sonuçlanabilir.

Bu yeni yeteneklere ortaya çıkan yetenekler, mutlaka planlanmayan yetenekler denir. Ortaya çıkan yetenekler hakkında farklı bir araştırma makalesi ( PDF ) şöyle der:

“Ortaya çıkan yeteneklere dair düzinelerce örnek olmasına rağmen, şu anda bu tür yeteneklerin neden bu şekilde ortaya çıktığına dair çok az ikna edici açıklama var.”
araştırma makalesi

Farklı yeteneklerin neden öğrenildiğini açıklayamazlar. Ancak, makineyi eğitmek için veri miktarını artırmanın, makinenin daha fazla yetenek kazanmasını sağladığı iyi bilinir.

Eğitim verilerini ölçeklendirmenin dezavantajı, bir çıktı üretmek için daha fazla hesaplama gücü gerektirmesidir, bu da AI’yı bir metin çıktısı oluştururken (“çıkarım zamanı” olarak adlandırılan bir an) daha yavaş hale getirir.

Dolayısıyla, yapay zekayı daha fazla veriyle daha akıllı hale getirmenin takası, yapay zekanın çıkarım zamanında da yavaşlamasıdır. Google‘ın yeni araştırma makalesi ( Confident Adaptive Language Modeling PDF) sorunu şu şekilde açıklıyor:

“Transformer tabanlı büyük dil modellerindeki (LLM’ler) son gelişmeler, birçok görevde önemli performans iyileştirmelerine yol açtı. Bu kazanımlar, modellerin boyutunda ciddi bir artışla birlikte gelir ve potansiyel olarak çıkarım zamanında yavaş ve maliyetli kullanıma yol açar.”
Confident Adaptive Language Modeling PDF

Kendine Güvenen Uyarlanabilir Dil Modellemesi (CALM)

Google’daki araştırmacılar, yüksek performansı korurken dil modellerini hızlandırmak için ilginç bir çözüm buldular. Çözüm, bir benzetme yapmak gerekirse, kolay bir soruyu yanıtlamakla daha zor bir soruyu çözmek arasındaki fark gibidir. Gökyüzü ne renk gibi kolay bir soru biraz düşünülerek cevaplanabilir.

ilgili konu Wordpress Film Temsı - Ücretsiz - Mobil Uyumlu - İndir

Ancak zor bir cevap, cevabı bulmak için biraz daha durup düşünmeyi gerektirir. Hesaplama açısından, büyük dil modelleri, bir metin oluşturma görevinin zor kısmı ile kolay kısmı arasında bir ayrım yapmaz.

Çıkarım zamanında tam bilgi işlem güçlerini kullanarak hem kolay hem de zor kısımlar için metin üretirler. Google’ın çözümüne Confident Adaptive Language Modeling (CALM) adı verilir.

Bu yeni çerçevenin yaptığı şey, bir metin oluşturma görevinin önemsiz bölümlerine daha az kaynak ayırmak ve tüm gücü daha zor bölümlere ayırmaktır. CALM üzerine araştırma makalesi, sorunu ve çözümü şu şekilde ifade eder:

“Transformer tabanlı büyük dil modellerindeki (LLM’ler) son gelişmeler, birçok görevde önemli performans iyileştirmelerine yol açtı. Bu kazanımlar, modellerin boyutunda ciddi bir artışla birlikte gelir ve potansiyel olarak çıkarım zamanında yavaş ve maliyetli kullanıma yol açar. Bununla birlikte, uygulamada, LLM’ler tarafından yapılan nesiller serisi, değişen zorluk seviyelerinden oluşur. Belirli tahminler, modellerin tam kapasitesinden gerçekten yararlanırken, diğer devamlar daha önemsizdir ve azaltılmış bilgi işlemle çözülebilir. …Genel olarak büyük modeller daha iyi performans gösterse de, benzer performansa ulaşmak için her girdi için aynı miktarda hesaplama gerekmeyebilir (örneğin, girdinin kolay mı zor mu olduğuna bağlı olarak).
CALM üzerine araştırma makalesi

Google CALM Nedir ve Çalışıyor mu?

CALM, bir şeyin tam veya kısmi kaynaklara ihtiyaç duyup duymadığını tahmin etmek için bir algoritma kullanarak, görevin bireysel bölümünün karmaşıklığına bağlı olarak kaynakları dinamik olarak tahsis ederek çalışır.

Araştırma raporu, yeni sistemi çeşitli doğal dil işleme görevleri (“metin özetleme, makine çevirisi ve soru yanıtlama”) için test ettiklerini ve çıkarımı yaklaşık üç kat (%300) hızlandırabildiklerini keşfettiklerini paylaşıyor. .