Chatbotlar Artık Gün Boyu Konuşabilir: Sürekli Sohbet Eden Yapay Zekâ Çözümü

İnsanlarla sürekli diyalog halinde olan yapay zekâ modelleri, bir süre sonra tıpkı ChatGPT gibi performans düşüklüğü yaşıyor ve sohbet imkansız hale geliyordu.
MIT ve diğer kurumlardan araştırmacılar, bu sorunun kaynağını bulup, robotların kesintisiz sohbet etmesine imkan veren bir çözüm geliştirdiler. Çözüm, büyük dil modellerinin hafızası sayılabilecek "anahtar-değer önbelleğinde" yapılan bir değişiklikle çalışıyor. Bazı yöntemlerde, bu önbellek dolduğunda en eski bilgiler siliniyordu. Ancak bu durum, modelin çökmesine yol açabiliyordu.
Araştırmacıların geliştirdiği yöntem sayesinde, ilk birkaç veri noktası hafızadan silinmeden kalıyor ve robot ne kadar uzun konuşursa konuşsun sohbeti sürdürebiliyor. "StreamingLLM" adı verilen bu yöntem, 4 milyon kelimelik bir sohbette bile modelin performansını korumasını sağlıyor.
Bu yenilik, robotların gün boyu, sürekli yeniden başlatılmadan sohbet etmesine imkan vererek, metin yazarlığı, kodlama gibi görevlerde verimli yapay zekâ asistanları oluşturmamızı sağlayabilir.
"Bu yöntem sayesinde artık bu modelleri kesintisiz bir şekilde konuşmaya açabiliyoruz. Sürekli konuşabilen ve geçmiş sohbetlere dayanarak bize yanıt verebilen robotlar, yeni uygulamalarda yer alabilir" diyor Guangxuan Xiao, StreamingLLM hakkındaki makalenin baş yazarı ve MIT Elektrik-Elektronik Mühendisliği ve Bilgisayar Bilimleri yüksek lisans öğrencisi.
Xiao'nun çalışma arkadaşları arasında danışmanı, MIT-IBM Watson AI Laboratuvarı üyesi ve NVIDIA'da üst düzey bilim insanı olan EECS Doçent Dr. Song Han, Meta AI araştırma bilimcisi Yuandong Tian, Carnegie Mellon Üniversitesi yardımcı profesörü Beidi Chen ve Meta AI araştırma bilimcisi kıdemli yazar Mike Lewis yer alıyor. Çalışma, Uluslararası Temsil Öğrenme Konferansı'nda sunulacak.
Gizemli Bir Olay
Büyük dil modelleri, kullanıcı sorgusundaki kelimeler gibi verileri sembol adı verilen temsillere dönüştürüyor. Birçok model, bu sembolleri yeni metin oluşturmak için kullanan "dikkat mekanizması" adı verilen bir teknik kullanıyor.
Normalde bir yapay zekâ robotu, yeni metinleri daha önce gördüğü metinlere dayanarak yazar. Bu nedenle, daha sonra kullanmak üzere son sembolleri bir KV Önbelleği adı verilen hafızada saklar. Dikkat mekanizması, önbellekteki tüm sembolleri içeren bir grid oluşturur; bu "dikkat haritası", her sembolün veya kelimenin diğer sembollere ne kadar güçlü bir şekilde bağlı olduğunu gösterir.
Bu ilişkileri anlamak, büyük dil modellerinin insan benzeri metinler üretmesini sağlayan özelliklerden biridir.
Ancak önbellek çok büyüdüğünde, dikkat haritası da büyüyebilir ve bu da hesaplamayı yavaşlatır.
Ayrıca, içeriği kodlamak daha fazla sembol gerektiriyorsa, modelin performansı düşer. Örneğin, popüler bir model 4.096 sembol saklayabilir, ancak bir akademik makalede yaklaşık 10.000 sembol bulunur.
Araştırmacılar bu sorunları aşmak için en eski sembolleri silerek yeni semboller ekleyen bir "kayar önbellek" kullanıyor. Ancak, ilk sembol silindiği anda modelin performansı genellikle düşüyor ve yeni üretilen kelimelerin kalitesi hızla azalıyor.
Bu yeni çalışmada, araştırmacılar ilk sembolü kayar önbellekte tutarlarsa, önbellek boyutu aşıldığında bile modelin performansının korunduğunu keşfetti.
Ancak bu mantıklı değildi. Yeni bir cümlede ilk kelime muhtemelen son kelimeyle hiçbir ilgisi yoktur, o halde ilk kelime neden yeni kelimeyi üretmek için bu kadar önemli olsun?
Araştırmacılar, bu yeni çalışmada bu fenomenin nedenini de ortaya çıkardı.
Dikkat Yönlendiriciler
Bazı modeller dikkat mekanizmalarında Softmax operasyonunu kullanıyor. Bu işlem her kelimeye diğerleriyle olan ilişkisini gösteren bir puan atıyor. Softmax işlemi tüm dikkat puanlarının toplamının 1'e eşit olmasını gerektirir. Çoğu kelime güçlü bir şekilde ilişkili olmadığından dikkat puanları çok düşüktür. Model kalan dikkat puanlarını ilk kelimeye aktarır.
Araştırmacılar bu ilk kelimeyi "dikkat yönlendiricisi" olarak adlandırıyor.
"Bir dikkat yönlendiricisine ihtiyacımız var ve model her diğer kelime tarafından görülebildiği için ilk kelimeyi kullanmaya karar veriyor. Model dinamiklerini korumak için dikkat yönlendiricisini her zaman önbellekte tutmamız gerektiğini keşfettik," diyor Han.
Araştırmacılar, StreamingLLM'yi geliştirirken, kayar önbelleğin başında dört adet dikkat yönlendirici simgesi bulundurmanın en iyi performansa yol açtığını keşfetti.
Ayrıca, yeni semboller eklenirken ve diğerleri atılırken bile her sembolün konumsal kodlamasının aynı kalması gerektiğini buldular. 5. simge kaldırılsa bile, 6. simge artık önbellekte beşinci olsa da kodlaması 6 olarak kalmalıdır.
Bu iki fikri birleştirerek, StreamingLLM'nin yeniden hesaplama kullanan popüler bir yöntemden daha üstün performans gösterirken sürekli bir sohbeti sürdürmesini sağladılar.
Örneğin, önbellek 256 simgeye sahipken yeniden hesaplama yöntemi yeni bir simgeyi çözmek için 63 milisaniye sürerken, StreamingLLM sadece 31 milisaniye sürer. Ancak önbellek boyutu 4.096 simgeye çıktığında, yeniden hesaplama yeni bir simge için 1.411 milisaniye gerektirirken, StreamingLLM'nin yalnızca 65 milisaniye ihtiyacı vardır.
Bu çalışmaya dahil olmayan Singapur Ulusal Üniversitesi'nde bilgisayar bilimleri alanında genç profesör Yang You, "StreamingLLM'nin yenilikçi yaklaşımı, dikkat yönlendirici mekanizması merkezinde kalarak, 4 milyon simgeye kadar uzunluktaki metinleri işlerken bile istikrarlı bellek kullanımı ve performans sağlar" diyor. "Bu yetenek sadece etkileyici değil, dönüştürücü. StreamingLLM'nin çok çeşitli yapay zeka uygulamalarında kullanılmasını mümkün kılıyor. StreamingLLM'nin performansı ve çok yönlülüğü, yapay zeka destekli metin üretme uygulamalarına yaklaşımımızda devrim yaratmaya hazır, oldukça umut verici bir teknoloji olduğunu gösteriyor."
Carnegie Mellon Üniversitesi'nin makine öğrenimi ve bilgisayar bilimleri bölümlerinde yardımcı profesör olan ve bu araştırmaya dahil olmayan Tianqi Chen ise, "Streaming LLM, büyük dil modellerinin konuşma uzunluğunun sorunsuz bir şekilde genişletilmesini sağlıyor. Bunu başarıyla iPhone'larda Mistral modellerinin konuşlandırılmasını sağlamak için kullanıyoruz" diyor.
Araştırmacılar ayrıca model eğitimi sırasında dikkat yönlendiricilerinin kullanımını da incelediler. Tüm eğitim örneklerine birkaç yer tutucu simgesi ekliyorlardı.
Dikkat yönlendiricileriyle eğitim verilen bir modelin, önceden eğitilmiş bir modelin performansını stabilize etmek için genellikle gerekli olan dört yerine yalnızca bir dikkat yönlendiricisi ile performansını koruyabildiğini keşfettiler.
Ancak StreamingLLM bir modelin sürekli bir sohbet gerçekleştirmesini sağlasa da, model önbellekte saklanmayan kelimeleri hatırlayamıyor. Araştırmacılar gelecekte atılan simgeleri geri almak veya modelin önceki sohbetleri hatırlamasını sağlayan yöntemleri araştırarak bu kısıtlamayı hedeflemeyi planlıyor.
Kaynak: https://news.mit.edu/2024/new-way-let-ai-chatbots-converse-all-day-without-crashing-0213
Yorumlar (0)
Yorum yapmak için giriş yapmalısınız.
