Microsoft CodeBERT İsimli Bir Araştırma Yayınladı

0 79

Microsoft Research doğal dil işleme (ddi) kullanarak kod aramayı ve kodları belgelemeyi kolaylaştıran Microsoft CodeBERT isimli bir araştırma makalesi yayınladı. Doğal dil işleme (NLP); dil çevirisi, duyarlılık analizi, anlamsal arama ve düzinelerce diğer dilsel görevleri kapsayan yapay zekanın (AI) alt kategorisidir.  Metin ayrıştırmada kullanılabilecek, yapay zeka sistemlerini eğitecek kadar büyük veri kümelerinin sağlanması araştırmacılar için devam eden bir sorundur. İnsan beynindeki nöronların davranışını taklit eden modern derin öğrenme modelleri, milyonlarca, hatta milyarlarca veriler ile eğitildiğinde gelişir.

Microsoft CodeBERT Nedir?

Microsoft Research Asia’daki bir araştırmacı ekibi makalelerinde ,  doğal dil anlama yöntemlerini kullanarak CodeBERT ismini verdikleri bir sistem geliştirdiklerini yazıyorlar.  Bu sitem sayesinde özellikle Python, Java, JavaScript, PHP gibi dillerde arama yapmak ve yazılmış kodların dökümantasyonunu çıkarmak mümkün oluyor.

CodeBERT ismi Google’ın doğal dil işleme için hazırladığı açık kaynak kodlu BERT mimarisininden geliyor. Google Bert yine açık kaynak kodlu öncdeden eğitilmiş doğal dil işlme için kullanılabilecek modelleri ve Tensorflow kodlarını içeriyor.  

CodeBERT çok katmanlı, çift yönlü bir derin sinir ağı kütüphanesi üzerine kuruludur. Tüm derin sinir ağlarında olduğu gibi, dönüştürücüler giriş verilerinden sinyaller ileten ve her bağlantının sinaptik kuvvetini (ağırlıkları) yavaşça ayarlayan birbirine bağlı katmanlar halinde düzenlenmiş nöronlar (matematiksel fonksiyonlar) içerir. Tüm AI (Yapay Zeka) modellerinin özellikleri bu şekilde çıkarılır ve tahminler yapmayı öğrenir, ancak dönnüştürücüler her çıkış elemanının her giriş elemanına bağlı olmasına dikkat eder. Aralarındaki ağırlıklar aslında dinamik olarak hesaplanır.

Microsoft CodeBERT için eğitim veri seti olarak GitHub veri havuzundan yaralanıldı. Özellikle Python, Java, JavaScript, PHP genelinde 2,1 milyon bimodal veri noktası (içerisinde eşleştirilmiş belgeler içeren kodlar)  ve 6.4 milyon tek modimli (eşleştirilmiş belge içermeyen kodlar) içeren bir veri kümesi oluşturuldu.

Araştırmacılar, CodeBERT’nin hem doğal dil kodu aramada hem de koddan dokümantasyon oluşturmada son derecede başarılı bir performans elde ettiğini söylüyorlar. Gelecekteki çalışmalarda, daha iyi nesiller ve daha karmaşık sinir mimarilerinin yanı sıra yeni nesil ile ilgili öğrenme hedeflerini araştırmayı planlıyorlar.

Sitemizden Doğal Dil İşleme Nedir? konulu yazımız ve Doğal Dil İşleme konusundaki diğer yazılarımı ilginizi çekebilir. Konu hakkındaki soru ve yorumlarınızı bekliyoruz.

Cevap bırakın

E-posta hesabınız yayımlanmayacak.

Bu web sitesi deneyiminizi geliştirmek için çerezleri kullanır. Bununla iyi olduğunuzu varsayacağız, ancak isterseniz vazgeçebilirsiniz. Kabul etmek Mesajları Oku