Yapay Zeka Araçları

Yerli Yapay Zeka Kumru AI

Türkiye'nin yapay zeka alanındaki bağımsızlık arayışı önemli bir kilometre taşına ulaştı. Türk mühendisler tarafından sıfırdan geliştirilen ve Meta'nın LLaMA-3 modelinin mimarisinden ilham alan Yerli Yapay Zeka Kumru, metin işleme, özetleme ve soru-cevap gibi görevleri yerine getirebilen güçlü bir Türkçe Büyük Dil Modeli (LLM) olarak kullanıma sunuldu.

yeni kullanıma sunulan yerli yapay zeka kumru ai hataları ile dikkat çekiyor

VNGRS şirketi tarafından geliştirilen Kumru AI, özellikle veri gizliliği ve yüksek performans gerektiren kurumsal ihtiyaçlara cevap vermek üzere tasarlandı. Bu gelişme, ChatGPT rakibi olup olmayacağı tartışmalarını gündeme getirse de, Kumru’nun asıl misyonu son kullanıcıdan ziyade, Türkiye'deki regülasyona tabi sektörlere yerinde (on-premise) çözüm sunmak.

Kumru AI Nedir ve Neden Sıfırdan Geliştirildi?

Kumru AI, 7.4 milyar parametreye sahip, çözücü (decoder-only) mimariye dayalı bir Büyük Dil Modelidir (LLM). Modelin geliştirilmesindeki temel motivasyon, Türkiye’nin veri güvenliği regülasyonları ve Türkçe dilindeki mükemmellik hususları göz önüne alındığında, kurum içinde kullanılabilecek temel bir LLM modeline olan derin ihtiyaçtır.

  • Sıfırdan Eğitim Avantajı: LLaMA veya Gemma gibi çok dilli modeller üzerine ince ayar yapmak yerine, Kumru'nun Türkçe için sıfırdan eğitilmesi stratejik bir karardı. Hazır modellerin tokenizer’ları (metin kodlayıcıları) Türkçe metinleri işlerken çok daha fazla token harcar, bu da eğitim ve kullanım maliyetini artırır. Kumru ise Türkçe'nin ihtiyaçlarına özel geliştirilen modern bir tokenizer kullanarak, metinleri %38 ila %98 daha az token ile temsil edebilmektedir. Bu verimlilik, Kumru’yu hız ve maliyet açısından yerinde dağıtım için ideal hale getirir.
  • Hafif ve Erişilebilir: Kumru, 16 GB VRAM'e sahip RTX A4000 veya RTX 3090 gibi tüketici sınıfı GPU'larda bile yüksek performansla çalışabilmesi sayesinde, büyük donanım yatırımları gerektirmeden kurumsal sistemlere entegre edilebilir. Bu özellik, veri güvenliği regülasyonlarına tabi sektörler (finans, sağlık vb.) için kritik önem taşır.

Kumru Yapay Zeka Nasıl Eğitildi ve Teknik Özellikleri Nelerdir?

Kumru'nun geliştirme süreci, tamamen Türk mühendislerden oluşan küçük bir ekip tarafından, dikkatli bir mühendislik çalışmasıyla yürütüldü:

  • Ön Eğitim Aşaması: Model, 45 gün süren ön eğitim aşamasında NVIDIA'nın H100 ve H200 GPU'ları kullanılarak 500 GB büyüklüğünde temizlenmiş ve tekilleştirilmiş Türkçe metinler üzerinde eğitildi. Bu süreçte Kumru, 300 milyar token'a maruz kaldı.
  • Mimari ve Destek: Kumru'nun mimarisi, yüksek performansıyla bilinen Mistral-v0.3'e dayanıyor ve bu mimari, LLaMA-3’ün tasarım kararlarından (toplu iş boyutu, optimize edici ve öğrenme hızı) destek aldı.
  • Bağlam Uzunluğu: Kumru'nun 8.192 Türkçe token'lık bağlam uzunluğuna sahiptir. Bu da, tek bir işlemde yaklaşık 20 A4 sayfaya kadar belge işleyebileceği anlamına gelir.
  • İnce Ayar (Fine-Tuning): Ön eğitimin ardından, çeşitli kullanım senaryolarını desteklemek için yaklaşık 1 milyon örnekten oluşan bir karışım üzerinde ince ayar yapıldı.

X Üzerinden Gelen Sorulara VNGRS'ten Yanıtlar: Yerli Yapay Zeka Kumru'yu Nasıl Konumlandırmalıyız?

VNGRS, Kumru’ya gösterilen yoğun ilginin ardından, sosyal medya (X) üzerinden gelen en kritik soruları yanıtlayarak modelin konumlandırmasını netleştirdi:

https://twitter.com/VNGRS/status/1977344813646172659

Kumru, ChatGPT'ye Rakip mi?

Yanıt: Hayır. Kumru, son kullanıcıya (B2C) yönelik bir ürün değil, kurum içi (B2B) çözümler için geliştirilmiş, küçük, hızlı ve ucuz bir çözümdür. ChatGPT hem B2C hem B2B için konumlandırılmış devasa bir model ailesidir.

Neden Hata Yapıyor (Halüsinasyon)?

Yanıt: Yapay zeka modellerindeki hatalı bilgi verme (halüsinasyon) problemi, pekiştirmeli öğrenme (RLHF) aşamasında en aza indirilir. Kumru, OpenAI'ın ilk Davinci modelleri gibi, henüz RLHF aşamasından geçmediği için hatalı bilgiler verebilmektedir. Bu eksiklik, gelecekteki geliştirmelerle giderilecektir.

kumru ai matematikte çok kötü

Kumru Matematikte Neden Kötü?

Yanıt: Dil modelleri kelimelerden oluşur ve bilgiyi eğitildikleri metinlerden istatistiksel olarak öğrenirler; kendi içlerinde bir hesap makinesi mekanizmasına sahip değildirler. Kumru, Türkçe yetkinlik için geliştirildiği ve henüz RLHF aşamasından geçmediği için matematikte hata yapmaktadır.

Sıfırdan Eğitim Neden Seçildi?

Yanıt: Hazır (pre-trained) modelleri (LLaMA gibi) alıp ince ayar yapmak, orijinal modelin tokenizer’ını (metin kodlayıcısı) kullanmayı gerektirir. Bu da Türkçe metinler işlenirken maliyeti iki katına kadar artırır. VNGRS, bu nedenle tamamen sıfırdan, Türkçe'nin ihtiyaçlarına özel, maliyet ve hız açısından optimize edilmiş modern bir tokenizer ile Kumru'yu eğitmeyi seçti. Bu, uzun vadede verimlilik ve maliyet avantajı sağlamaktadır.

7 Milyarlık Model Açık Kaynak Yayınlanacak mı?

Yanıt: Daha büyük ve çok modlu modeller üretildikçe, 7 milyarlık versiyondan başlayarak eski modellerin yayınlanması planlanmaktadır. Şu an için 2 milyar parametreli Kumru-2B açık kaynak olarak yayınlanmıştır.

Verdiğim Kelimedeki Harfleri Sorunca Yanlış Cevap Veriyor, Neden?

Yanıt: Popüler dil modelleri için işledikleri en küçük birim kelime ya da kelimeciktir (token). Model, metinleri işlerken onu oluşturan harfleri değil, token'ları görür. Bu nedenle harflere dair sorularda sıklıkla hata yaparlar.

kumru yapay zeka harf hataları

Model Mimarisinin Mistral Olması Ne Anlama Geliyor?

Yanıt: Model mimarisinin Mistral olması, önden eğitilmiş bir Mistral modelinin alınıp eğitilmeye devam edildiği anlamına gelmiyor. Kumru, tokenizer'ı ve model weight'leri ile uçtan uca tamamen sıfırdan yaratıldı ve eğitildi. Mimari, binanın kaba mimarisi gibi, modelin genel yapısını tanımlar.

Kumru AI Kullanıma Nasıl Sunuldu ve Gelecek Planları Neler?

Kumru AI, kumru.ai adresi üzerinden bir demo sürümü ile erişime açılmış durumda.

Gelecek Planları:

  • Pekiştirmeli Öğrenme (RLHF): Modelin hatalarını en aza indirmek ve matematik yeteneğini geliştirmek için hızla bu aşamaya geçirilmesi planlanmaktadır.
  • Multimodalite: Görselleri ve taranmış belgeleri işleme kabiliyeti (image encoder entegrasyonu) kazandırılarak Kumru'nun multimodal bir model haline getirilmesi hedeflenmektedir.
  • Daha Büyük Modeller: Daha büyük ve maharetli Kumru versiyonlarının, daha büyük ve güncel veri setleriyle eğitilmesi ve daha sonra eski modellerin açık kaynak olarak yayınlanması planlanmaktadır.

Bu gelişmeler, VNGRS'nin sadece bir ürün sunmakla kalmayıp, Türkiye'nin kendi diline özel yapay zeka ekosistemine uzun vadeli yatırım yapma misyonunu da gösteriyor.

 

Etiket:
LLM

0 yorum

Henüz yorum yapılmamış.


Yorum bırak

Profilim
Misafir Kullanıcı
@

Dünyayı değiştirmek isterdim, ama bana kaynak kodunu vermiyorlar.

0
Gönderi
0
Takipçi
0
Takip