ProtHyena Mimarisi: Protein Dil Modellerinde Yeni Yaklaşım

ProtHyena, Tokyo Teknoloji Enstitüsü’nden araştırmacılar tarafından geliştirilen yenilikçi bir protein dili modelidir. Bu model, protein verilerini analiz etmek için Hyena operatörü‘nü kullanan hızlı ve kaynak açısından verimli bir temel model olarak tasarlanmıştır. Geleneksel dikkat tabanlı yöntemlerin aksine, ProtHyena hem uzun menzilli bağlamı hem de gerçek protein dizilerinde tek amino asit çözünürlüğünü yakalayabilme özelliğine sahiptir. Araştırmacılar modeli Pfam veri seti kullanarak önceden eğitmiş ve çeşitli proteinle ilgili görevler için ince ayar yapmışlardır. Bu süreçte, bazı durumlarda mevcut en iyi yaklaşımlarla karşılaştırılabilir veya hatta daha iyi performans sergileyebilmiştir.

ProtHyena Mimarisi

Geleneksel dil modelleri Transformer ve BERT mimarilerine dayanırken, bu modellerin dikkat mekanizmasının kuadratik hesaplama karmaşıklığına sahip olmaları nedeniyle, verimlilikleri ve işleyebilecekleri bağlamın uzunluğu sınırlıdır. ProtHyena, bu sınırlamaları aşmak için Hyena operatörünü kullanan bir yaklaşımdır. Hyena operatörü, Doğal protein kelime dağarcığını kullanır ve her amino asidi ayrı bir token olarak ele alırken, dolgu, ayrılma ve bilinmeyen karakterler için özel karakter tokenları da içerir. Hyena operatörü, uzun konvolüsyonlar ve eleman bazında kapılamalar içeren yinelemeli bir yapıdan oluşur. ProtHyena’nın mimarisi, protein tahmincilerini eğitmek için son derece etkili bir çözüm sunar ve biyolojik dizilerin hızlı ve verimli analizi için umut verici bir yol açar.

ProtHyena’nın yetenekleri açısından, uzun protein dizilerini modelleme konusunda dikkat tabanlı modelleri geçebilir ve belirli görevlerde en son teknoloji sonuçlar elde edebilir. Bu model, uzun protein dizilerini işleyebilme ve çeşitli akış aşağı görevlerde en son teknoloji performansı sunma konusunda etkili olduğunu göstermiştir. Özellikle, Uzak Homoloji ve Floresans tahmini gibi görevlerde, çağdaş modelleri geride bırakmıştır. Uzak Homoloji‘de en yüksek doğruluk oranı %31.7’ye ulaşmış, Floresans tahmininde ise Spearman‘ın r değeri 0.678 olarak belirlenmiştir. Ayrıca İkincil Yapı Tahmini (SSP) ve Kararlılık görevlerinde de umut verici sonuçlar göstermiştir.

Sonuç olarak, ProtHyena, dikkat tabanlı modellerin karşılaştığı hesaplama zorluklarını çözmek için Hyena operatörünü kombine eden bir protein dili modelidir. ProtHyena, uzun protein dizilerini verimli bir şekilde işleyebilir ve çeşitli akış aşağı görevlerde yüksek performans sunar. Bu, protein dizisi analizinde önemli bir ilerleme olup, proteinlerin yapıları ve işlevleri hakkında daha derin bir anlayışa katkıda bulunabilir.

Hyena Operatörü

Hyena operatörü, ProtHyena modelinde kullanılan bir teknik olup, geleneksel dikkat mekanizmalarının yerini alarak bazı avantajlar sağlar.

Dil modellerinde kullanılan operatörler genellikle, veriyi işlerken belirli matematiksel işlemleri gerçekleştirir. Bu işlemler sayesinde, modelin veriyi daha etkili bir şekilde anlamasına ve analiz etmesine olanak tanır. Örneğin, dikkat mekanizmaları, modelin girdi olarak aldığı veri içindeki önemli kısımlara “dikkat” sağlar. Bu sayede model, verinin bütününe eşit ağırlık vermek yerine, önemli bulduğu kısımlara odaklanır. Hyena operatörü ise kullanılan geleneksek attention mekanizmaları yerine kendi operatorlarını koymuşlar.

Aşağıda bu operatörün nasıl çalıştığına dair detayları anlatacağım.

Protein Embedding: İlk olarak, protein dizileri, onları nümerik vektörler haline getirecek bir embedding katmanı ile işlenir.
ProtHyena Block: Bu, modelin temel bileşenlerinden biridir ve şu adımları içerir:
- Add & Norm: Ekleme ve normalizasyon işlemleri.
- Feed Forward: İleri besleme ağı.
- Add & Norm: Bir başka ekleme ve normalizasyon işlemi.
- Hyena Operator: Asıl yenilikçi bileşen olan Hyena operatörü.
Hyena Operator: Bu kısım, Hyena operatörünün iç yapısını gösterir ve şu adımlardan oluşur:
- Dense & Conv: Yoğun (Dense) ve evrişimli (Convolution) katmanlar.
- Long Convolution: Uzun aralıklı evrişim işlemi.
- Element-wise Gate: Eleman bazında kapı işlemi, ki bu non-lineer bir aktivasyon ve bir tür filtreleme işlemi olarak görülebilir.
- Dense & Conv: Bir başka yoğun ve evrişimli katman dizisi.
Hyena Filter: Bu kısım, operatörün içindeki filtreyi tanımlar ve şu adımları içerir:
- Window, Linear, Sine Act, Linear: Belirli bir pencere boyutu üzerinden lineer ve trigonometrik aktivasyon işlevleri kullanarak işlem yapılır.
- Position Embed: Pozisyonel embedding, modelin dizideki her amino asitin konumunu dikkate almasını sağlar.

Hyena operatörü dikkat mekanizmasına alternatif bir yöntem olarak uzun aralıklı bağlamları ve non-lineer aktivasyonları nasıl kullandığını gösteriyor. Hyena operatörü, geleneksel dikkat mekanizmalarının yerine, daha az hesaplama karmaşıklığıyla aynı veya daha iyi performansı elde etmeyi amaçlıyor. Bu operatör, modelin uzun protein dizilerini daha verimli bir şekilde işlemesine olanak tanır ve bu da genel model performansını artırır.