LLM'leri anlama

Tamamlandı

Büyük dil modeli (LLM), doğal dil metnini işleyebilen ve üretebilen bir yapay zeka türüdür. Dil desenlerini ve kurallarını keşfetmek için kitaplar, makaleler, web sayfaları ve resimler gibi kaynaklardan toplanan çok miktarda veriden öğrenir.

Ne kadar büyükler?

LLM, sinir ağı mimarisi kullanılarak oluşturulur. Bir giriş alır, dilin farklı yönlerini parçalayan ve çıkış katmanında üreten birkaç gizli katmanı vardır.

İnsanlar genellikle en son temel modelin son modelden ne kadar büyük olduğunu rapor eder, ancak bu ne anlama gelir? Kısacası, bir modelde ne kadar çok parametre varsa o kadar fazla veri işleyebilir, bu verilerden ders alabilir ve oluşturabilir.

Sinir ağı mimarisinin iki nöronları arasındaki her bağlantı için bir işlev vardır: weight * input + bias. Bu ağ, modelin dili nasıl işlediğini belirleyen sayısal değerler üretir.

LLM'ler gerçekten büyük ve hızla büyüyor. Bazı modeller 2018'de milyonlarca parametreyi hesaplayabilir. Ancak bugün GPT-4 trilyonlarca parametre hesaplayabilir.

Her modelin sahip olduğu parametre sayısıyla ilişkili farklı LLM nesillerini gösteren diyagram.

Temel modeller LLM'lere nereye uyar?

Temel model, LLM'nin belirli bir örneğini veya sürümünü ifade eder. Örneğin, GPT-3, GPT-4 veya Codex.

Temel modeller, büyük bir metin veya Codex model örneğiyse kod üzerinde eğitilir ve ince ayarlar yapılır.

Temel bir model, tüm farklı biçimlerdeki eğitim verilerini alır ve genel bir model oluşturmak için transformatör mimarisi kullanır. Belirli görevleri istemler veya ince ayarlamalar aracılığıyla gerçekleştirmek için uyarlamalar ve uzmanlıklar oluşturulabilir.

LLM'nin daha geleneksel doğal dil işlemeden (NLP) farkı nedir?

Geleneksel NLP'leri LLM'lerden ayıran birkaç şey vardır.

Geleneksel NLP Büyük dil modelleri
Yetenek başına bir model gereklidir. Birçok doğal dil kullanım örneği için tek bir model kullanılır.
ML modelini eğitmek için etiketlenmiş bir veri kümesi sağlar. Temel modelde birçok terabaytlık etiketlenmemiş veri kullanır.
Modelin ne yapmasını istediğinizi doğal dilde açıklar. Belirli kullanım örnekleri için yüksek oranda iyileştirilmiştir.

LLM ne yapmaz?

LLM'nin neler yapabileceğini anlamak ne kadar önemli olsa da, iş için doğru aracı seçmeniz için neleri yapamayacaını anlamak da aynı derecede önemlidir.

  • Dili anlama: LLM, daha fazla metin oluşturmak için önceden var olan metne göre desenleri bir araya getiren tahmine dayalı bir altyapıdır. Dili veya matematiği anlamıyor.

  • Olguları anlama: LLM'de bilgi alma ve yaratıcı yazma için ayrı modlar yoktur; yalnızca bir sonraki en olası belirteci tahmin eder.

  • Kuralları, duyguları veya etikleri anlama: LLM antropomorfizmi sergileyemez veya etik anlayışını anlayamaz. Temel bir modelin çıktısı, eğitim verileri ve istemlerinin bir birleşimidir.