Makine Öğrenimi Artık Kayıp Dillerden Çeviri Yapabiliyor

Yazının icadı bundan binlerce yıl öncesine dayanıyor. O günlerden bu yana her toplum kendi lisanını, kendi alfabesini kullandı. Kimi lisanlar vakit içerisinde büyüyüp gelişti, kimileri ise kayboldu gitti.

İngiliz arkeolog Arthur Evans, Akdeniz’de bulduğu taşlarda bir alfabenin kayıtlı olduğunu keşfetmişti. Daha sonra bu taşlarda aslında Linear A ve Linear B isimli iki farklı alfabe ve lisan olduğunu keşfeden araştırmacı, bu lisanları çözmeyi başaramadı. Linear B’nin sırrı, 1953 yılında amatör dilbilimci Michael Ventris tarafından çözüldü.

Ventris’in bulduğu tahlilin temelinde ise iki fikir yatıyordu. Bunlardan biri, metinde çok geçen sözcüklerin, taşların bulunduğu Girit Adası’ndaki yer ve insanların isimleri olduğu idi. Bahtına, bu yaklaşımı yanlışsız çıktı. Öbür niyeti ise lisanın, erken devir Yunan lisanlarından biri olduğu idi. Daha sonra metin süratle çözüldü. 

Linear A ise çözülemeyen bir lisan olarak akıllarda kaldı. Günümüzde kullanılan makine çeviri sistemleri ve makine öğrenmesi teknolojisi, bu noktada bilim beşerlerine yeni bir umut oldu. 

MIT’den Jiaming Luo ile Regina Barzilay ve Google’dan Yuan Cao, yeni bir makine öğrenmesi sistemi geliştirdi. Bu sistem, kayıp lisanlarda çeviri yapabiliyor. Üretilen yeni yazılım, Linear B lisanını otomatik olarak çevirdi. Bir kayıp lisanın otomatik olarak çevirisinin yapılması ise tarihte bir birinci oldu.

Normalde makine öğrenmesi, emsal metinleri karşılaştırma temeline dayanır. Bilgi tabanındaki lisanlarda bir ortada bulunan sözcükleri, sözcük etkileşimlerini takip eder. Daha sonra da kolay matematiksel hesaplamalar yapar. Haliyle makine öğrenmesini çok az metin bulunan lisanlara uyarlamak mümkün değil üzere gözüküyordu. 

Bundan birkaç yıl evvel ise bu inanış değişti. Alman bilim insanları, makine öğrenmesini çok büyük olmayan data setleriyle de gerçekleştirmeyi başardı. Luo ve takımı ise bu çalışmayı bir adım daha ileri taşıyarak meyyit lisanların çevirisini mümkün kıldı.

Çalışmalarda, lisanların yapısal olarak belirli çeşitlerde evrim geçirdikleri ve ona nazaran şekillendikleri bilgisinden yola çıkıldı. Böylelikle çerçevesi ve etkileşimleri net olarak belirli olan lisanların çevirisi mümkün oldu. Linear B ve İbranice’nin atası diyebileceğimiz Ugaritik lisanında makine çevirisi büyük muvaffakiyet sağladı. 

Şimdi gözler, Linear A’nın nasıl çözümleneceğine dönmüş durumda. Luo ve takımı makalelerinde hiç bahsetmese de lisan bilimciler için büyük merak konusu olan bu alfabenin tahlili için de makine öğrenmesinden dayanak alınması bekleniyor. Sonuçta makineler, bizden daha süratli denemeler yaparken yorulmak nedir bilmiyor. 

Makale, arXiv üzerinde yayımlandı.

Başa dön tuşu