Yapay zeka araştırma kuruluşu EleutherAI, devasa büyüklükte bir veri seti yayınladı. Lisanslı ve açık kaynaklı metinlerden oluşan Common Pile v0.1′ in , oldukça kapsamlı olduğu için yapay zeka şirketlerinin gelişimine katkı sağlar nitelikte bir veri seti olduğu öngörülüyor.
EleutherAI Yapay Zeka Labaratuvarı
EleutherAI kar amacı gütmeyen bir yapay zeka araştırma kuruluşudur. OpenAI’ın açık kaynaklı hali denilebilir. Başlangıçta GPT‑3 hakkında konuşmak üzere açılan bir Discord sunucusu topluluğu iken günümüzde büyük ölçekli yapay zeka araştırmalarına odaklanan bir araştırma kuruluşuna dönüştü. Son günlerde Common Pile v0.1 isimli veri seti ile karşımıza çıkan topluluk büyük bir gelişime katkı sunuyor.
Common Pile v0.1 Veri Seti

Common Pile v0.1 veri seti, Poolside, Hugging Face ve diğer AI girişimleri ile birlikte birkaç akademik kurumla iş birliği içinde, iki yıl içinde geliştirildi. Toplamda 8 terabayt boyutunda olan bu veri kümesi EletheurAI’ın, Comma v0.1-1T ve Comma v0.1-2T adlı iki yeni AI modelini eğitmek üzerine oluşturuldu. Bu iki modelin büyük yapay zeka modelleri ile aynı performansı gösterdiği iddia ediliyor.
İçinde OpenAI’ın da bulunduğu bazı AI şirketleri, web’i tarayarak telif hakkıyla korunan verileri eğitim sırasında kullandığı gerekçesiyle bazı davalara karıştı. EleheurAI’ın yönetici direktörü Stella Biderman, bir blog yazısında bu tür davaların şirketlerin şeffaflığına zarar verdiğini, bazı şirketlerdeki araştırmacıların ise davalar sebebiyle araştırmalarını yayınlayamadıklarını belirttiğini yazdı.
Common Pile v0.1 veri seti, Hugging Face’in AI geliştirme platformundan ve GitHub’dan indirilebilir. Bu veri kümesi ayrıca 300.000 kaynaktan yararlanılarak ve hukuk uzmanlarıyla birlikte oluşturuldu. EleutherAI ayrıca ses içeriğini yazıya dökmek için OpenAI’nin açık kaynaklı konuşma-metne modeli olan Whisper’ı kullandı.
İleriye Dönük Hedefler

EleutherAI, böylesine büyük ve açık kaynaklı bir veri setini oluşturmanın önemli bir adım olduğunu fakat bunun devamının da geleceğini belirtiyor. Daha fazla veriyi açığa çıkarmak, daha iyi sürümler üretmek konusunda istekli olduklarını da belirtiyorlar. Ayrıca eğitim sonrası verilerle de ilgilenerek Comma v0.1 modellerine katkı sunmayı da hedefliyorlar.