Google TranslateGemma Tanıtıldı: 55 Dil Destekli ve İnternetsiz Çalışabilen Yeni Çeviri Modeli

Google, TranslateGemma adını verdiği yeni çeviri modelini geliştiriciler için herkese açık hale getirdi. Bu sistem, klasik yapay zekâ asistanlarından farklı olarak yalnızca çeviri işlemi için optimize edilmiş kompakt dil modellerinden oluşuyor.

İçerik Tablosu

Yeni model, 55 farklı dili desteklemesi, çevrimdışı çalışabilmesi ve aynı anda metin ile görüntü çevirisi yapabilmesiyle dikkat çekiyor.

TranslateGemma Neden Önemli?

Günümüzde kullanılan Google Translate gibi hizmetler genellikle bulut tabanlı çalışıyor. Yani yapılan her çeviri isteği Google sunucularına gönderiliyor, işleniyor ve sonuç tekrar kullanıcıya iletiliyor.

Bireysel kullanım için bu yöntem sorun yaratmasa da bazı sektörlerde ciddi riskler oluşturabiliyor. Özellikle şu alanlarda:

Sağlık sektörü
Hukuk hizmetleri
Kurumsal şirketler
Kamu kurumları

Bu kurumlar hassas verilerin dış sunuculara gönderilmesini istemiyor. TranslateGemma ise bu sorunu ortadan kaldırıyor çünkü model tamamen yerel cihazda (offline) çalışabiliyor.

Ayrıca bulut tabanlı API’ler yoğun kullanımda ücret gerektirirken, yerel modelde yalnızca tek seferlik indirme yeterli oluyor.

Gemma 3 Mimarisine Dayanıyor

TranslateGemma’nın temelinde Google’ın Gemma 3 mimarisi bulunuyor. Bu mimari, Google’ın bazı multimodal yapay zekâ modellerinde kullandığı altyapıyla aynı teknolojiyi temel alıyor.

Model şu veri setleriyle eğitildi:

4,3 milyar token paralel metin verisi
Çok sayıda orijinal metin – çeviri dil çifti
10,2 milyon token ile yapılan pekiştirmeli öğrenme eğitimi

Bu eğitim süreci sayesinde modelin çeviri doğruluğu ve dil akıcılığı önemli ölçüde geliştirildi.

Küçük Boyut, Güçlü Performans

TranslateGemma yaklaşık 4 milyar parametre içeriyor. Karşılaştırma yapmak gerekirse GPT-4 modelinin yaklaşık 1,8 trilyon parametreye sahip olduğu tahmin ediliyor.

Bu da TranslateGemma’nın yaklaşık 450 kat daha küçük olduğu anlamına geliyor. Buna rağmen model, kendi alanı olan çeviri görevlerinde çok daha büyük sistemlerle benzer performans gösterebiliyor.

Modelin bağlam penceresi ise yaklaşık 2000 token. Bu da tek bir istekte ortalama 1500 kelimelik metinlerin çevrilebileceği anlamına geliyor.

Görsellerden Metin Okuyup Çeviri Yapabiliyor

TranslateGemma’nın dikkat çeken özelliklerinden biri de görüntü içindeki metinleri okuyup doğrudan çevirebilmesi.

Sistem şu şekilde çalışıyor:

Görsel 896 × 896 piksel çözünürlüğe normalize ediliyor
Görüntü 256 token olarak kodlanıyor
Ardından model metin ve görseli birlikte işliyor

Pratikte bu özellik şu senaryolarda kullanılabiliyor:

Yabancı bir restoran menüsünü fotoğraflamak
Yol tabelalarını çevirmek
Sözleşme belgelerini anlamak
Yabancı bir uygulama arayüzünü çevirmek

Üstelik tüm bu işlemler için ayrı bir OCR adımına ihtiyaç duyulmuyor.

Nasıl Kullanılıyor?

TranslateGemma’yı çalıştırmak için birkaç farklı yöntem bulunuyor.

Yerel kullanım için:

Python Transformers kütüphanesi üzerinden çalıştırılabiliyor
CUDA destekli Nvidia ekran kartı gerekiyor
Birkaç GB VRAM yeterli oluyor

Alternatif olarak model:

WebGPU desteğiyle
Transformers.js v4 üzerinden
Doğrudan tarayıcı içinde çalıştırılabiliyor.

Bu sayede geliştiriciler modeli web uygulamalarına entegre ederek, çeviriyi doğrudan kullanıcı cihazında gerçekleştirebiliyor.

Geliştiriciler İçin Açık ve Ticari Kullanıma Uygun

TranslateGemma modeli geliştiriciler için HuggingFace platformunda yayımlandı. Google’ın Gemma Terms of Use lisansı kapsamında modelin ticari kullanımına da izin veriliyor.

Bu yeni çeviri modeli özellikle şu kullanıcılar için büyük avantaj sağlayabilir:

Gizli belgelerle çalışan şirketler
Ürünlerine çeviri özelliği eklemek isteyen yazılım geliştiriciler
Araştırmacılar ve veri bilimcileri
Aylık abonelik olmadan 55 dilde çeviri yapmak isteyen kullanıcılar

TranslateGemma, özellikle veri gizliliği, offline çalışma ve maliyet avantajı sayesinde çeviri teknolojilerinde önemli bir alternatif olarak görülüyor.