Yapay zeka dünyasında Türkçe dil modellerinin geliştirilmesi, COSMOS YZ Araştırma Grubu‘nun öncelikli hedefleri arasında. Yıldız Teknik Üniversitesi bünyesinde faaliyet gösteren bu cosmos araştırma grubu, açık kaynak Türkçe dil modeli projeleriyle dikkat çekiyor ve yerel YZ ekosistemine önemli katkılar sağlıyor.

COSMOS YZ Araştırma Grubu’nu Yakından Tanıyalım
Yıldız Teknik Üniversitesi Doğal Dil İşleme (NLP) Araştırma Grubu olarak faaliyet gösteren COSMOS, Prof. Dr. Mehmet Fatih Amasyalı liderliğinde, Türkçe dil modelleri ve araştırma makaleleri yayınlayarak sektörde öncü rol oynuyor.
Çalışma Alanları:
- Doğal Dil İşleme: Özellikle Türkçe dili üzerine yoğunlaşıyorlar.
- Finansal Marketlerde Yapay Zeka: Yapay zekanın finans sektöründeki uygulamalarını araştırıyorlar.

Üyeler:
- Prof. Dr. M. Fatih Amasyalı
- Prof. Dr. Banu Diri
- Arş. Gör. H. Toprak Kesgin
- Arş. Gör. M. Kaan Yüce
- Lisans ve Lisansüstü Öğrencileri
Güncel Gelişmeler:
- 29/05/2025: COSMOS mobil uygulaması yayınlandı
- 21/05/2025: CosmosGemma dil modeli Hugging Face üzerinden yayınlandı. Bu, açık kaynak Türkçe dil modeli alanında önemli bir adım.
- 13/04/2025: Önceki Token Tahmin Modeli Hugging Face üzerinden yayınlandı.
- 22/02/2025: “Creating a Large Clean Web Corpus for Turkish” başlıklı makaleleri ICMI konferansında kabul edildi.
COSMOS YZ’nin Araştırma Yazıları: Türkçe Yapay Zeka Yolculuğu
COSMOS’un çalışmaları, Türkçe yapay zeka alanındaki boşlukları doldurmaya odaklanıyor.
1. Türkçe Dil Modellerinin Performans Karşılaştırması:
Bu araştırma, Türkçe dil modellerinin kapsamlı bir performans değerlendirmesini sunuyor. Ticari modellerin aksine, açık kaynak Türkçe dil modeli seçeneklerinin performansını incelemek, kullanıcılar için maliyet, veri gizliliği ve regülasyonlar açısından önemli. Çalışma, yedi farklı dil modelinin bağlamda öğrenme ve soru cevaplama yeteneklerini hem otomatik hem de insan değerlendirmeleriyle analiz ediyor.
Elde edilen sonuçlar, çok dilli modellerin Türkçeye uyarlanmasında talimat veri kümeleriyle eğitimden önce ön eğitime devam etmenin daha başarılı olduğunu ve bağlamda öğrenme yeteneği ile soru cevaplama yeteneğinin çok ilişkili olmadığını gösteriyor. Bu araştırma, cosmos araştırma grubunun metodolojik derinliğini ortaya koyuyor.

2. Introducing cosmosGPT: Monolingual Training for Turkish Language Models:
Bu çalışma, COSMOS YZ Araştırma Grubu’nun geliştirdiği cosmosGPT modellerini tanıtıyor. Geleneksel yaklaşımların aksine, sadece Türkçe metinlerle eğitilen bu tek dilli modeller, daha küçük boyutlarına rağmen umut vadeden performans sergiliyor. Bu yaklaşım, Türkçe’ye özgü ve verimli dil modelleri geliştirme potansiyelini vurguluyor. Ayrıca, temel dil modellerinin kullanıcı isteklerini yerine getirmesi için yeni ince ayar veri setleri ve Türkçe dil modellerinin yeteneklerini ölçmek için yeni değerlendirme veri setleri sunuluyor. Bu, açık kaynak Türkçe dil modeli ekosistemine değerli bir katkı.
3. Optimizing Large Language Models for Turkish: New Methodologies in Corpus Selection and Training:
Bu araştırma, Büyük Dil Modellerinin Türkçe için daha etkili hale getirilmesine yönelik yenilikçi metodolojileri inceliyor. LLM tarafından üretilen veri setlerinin ve İngilizce veri setlerinin Türkçeye çevrilerek eğitim süreçlerine entegrasyonu, hem “few-shot” hem de “zero-shot” öğrenme senaryolarında model doğruluğunda önemli iyileşmeler sağlıyor. Bu uyarlanmış modellerin birleştirilmesiyle performansın arttığı da gözlemleniyor.
İnsan değerlendirmeleri, bu adapte edilmiş modellerin Türkçeyi anlama ve mantık tabanlı sorguları yanıtlama konusunda daha yüksek yeteneğe sahip olduğunu gösteriyor. Bu çalışma, cosmos araştırma grubunun Türkçe gibi “az kaynaklı” diller için LLM’leri optimize etme konusundaki kararlılığını sergiliyor.

4. Cosmos-LLaVA: Chatting with the Visual (2025):
COSMOS YZ Araştırma Grubu‘nun 2025’teki son yayımlanan çalışması olan Cosmos-LLaVA, Türkçeye özel bir görsel talimat modelinin geliştirilmesine odaklanıyor. Bu model, farklı büyük dil modelleri ve görüntü kodlayıcılarını birleştirerek Türkçe dilindeki görsel anlama eksikliklerini gidermeyi hedefliyor.
Çalışma, model mimarisi ve veri kümesi seçiminin performans üzerindeki önemli etkilerini detaylıca analiz ediyor. Bu proje, yapay zekanın görsel anlama yeteneklerini Türkçe’ye taşıyarak çok daha zengin ve etkileşimli uygulamaların önünü açıyor. Bu gelişme, açık kaynak Türkçe dil modeli ekosistemi için büyük bir adım niteliğinde.
Konferansta COSMOS YZ Araştırma Grubu: CosmosGemma Modeli
26 Temmuz’da gerçekleşecek olan Diva: Dive into AI konferansında, COSMOS YZ Araştırma Grubu araştırmacılarından Atahan Uz ve Mehmet Egemen Uzun “COSMOS YZ Araştırma Grubu: Açık Kaynak Türkçe Dil Modeli Eğitimi” başlıklı bir konuşma yapacaklar.
Bu konuşmada, grubun eğittiği en son ve en başarılı model olan CosmosGemma modelinin eğitim süreciyle ilgili tüm detayları öğreneceksiniz. Bu, açık kaynak Türkçe dil modeli alanındaki en güncel gelişmeleri yakından takip etmek için harika bir fırsat sunuyor.
COSMOS YZ Araştırma Grubu’nun bu ve benzeri çalışmaları, Türkçe yapay zeka alanında ilerlemeye devam ediyor. Grubun projeleri, açık kaynak Türkçe dil modeli alanında önemli bir referans noktası olmayı sürdürüyor.