Görünmeyen Dirichlet Ayırması
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- Makine öğrenmesi projelerini ML Studio'dan (klasik) Azure Machine Learning.
- Daha fazla bilgi Azure Machine Learning.
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
VW LDA gerçekleştirmek için Vowpal Wabbit kitaplığını kullanma
Kategori: Metin Analizi
Not
Uygulama: Machine Learning Studio (yalnızca klasik)
Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.
Modüle genel bakış
Bu makalede, sınıflandırılmamış metinleri bir dizi kategoriye gruplamak için Machine Learning Studio'da (klasik) Latent Dirichlet Ayırma modülünün nasıl kullanımı açıklanmıştır. Latent Dirichlet Allocation (LDA), benzer metinleri bulmak için genellikle doğal dil işlemede (NLP) kullanılır. Bir diğer yaygın terim de konu modellemesidir.
Bu modül bir metin sütunu alır ve şu çıkışları oluşturur:
Kaynak metin ve her kategori için bir puan
Her kategori için ayıklanan terimleri ve katsayıları içeren bir özellik matrisi
Giriş olarak kullanılan yeni metni kaydeden ve yeniden gerçekleştirebilirsiniz
Bu modül Vowpal Wabbit kitaplığını kullandığı için çok hızlıdır. Vowpal Wabbit hakkında daha fazla bilgi için öğreticileri ve algoritmanın açıklamasını içeren GitHub deposuna bakın.
Latent Dirichlet Allocation (LDA) hakkında daha fazla bilgi
Genel olarak, LDA se başına sınıflandırma için bir yöntem değildir, ancak bir genlik yaklaşımı kullanır. Bu, bilinen sınıf etiketleri sağlamanın ve ardından desenlerin çıkarımını yapmak zorunda olmadığınız anlamına gelir. Bunun yerine algoritma, konu gruplarını tanımlamak için kullanılan bir olasılık modeli üretir. Olasılık modeli kullanarak var olan eğitim durumlarını veya modele giriş olarak sağlayabildirilen yeni servis durumlarını sınıflandırarak kullanabilirsiniz.
Metin ve kategoriler arasındaki ilişkiyle ilgili güçlü varsayımlarda bulunulması ve yalnızca sözcüklerin matematiksel modellere dağıtılmasını kullandığından, bir model tercih edilebilir.
Teori şu yazıda ele alınmıştır: PDF indirme olarak kullanılabilir: Latent Dirichlet Allocation: Blei, Ng ve Jordan
Bu modülde uygulama LDA için Vowpal Wabbit kitaplığına (sürüm 8) dayalıdır.
Daha fazla bilgi için Teknik notlar bölümüne bakın.
Latent Dirichlet Ayırmayı yapılandırma
Bu modül, ham veya önceden işlenmemiş metin sütunu içeren bir veri kümesi gerektirir.
Denemenize Latent Dirichlet Allocation modülünü ekleyin.
Modülün girişi olarak, bir veya daha fazla metin sütunu içeren bir veri kümesi girin.
Hedef sütunlar için analiz etmek istediğiniz metni içeren bir veya daha fazla sütun seçin.
Birden çok sütun seçebilirsiniz, ancak bunlar dize veri türünde olmalıdır.
Genel olarak, LDA metinden büyük bir özellik matrisi oluşturduğundan genellikle tek bir metin sütununu analiz edersiniz.
Model yapılacak konu sayısı için, giriş metninden kaç kategori veya konu türetmek istediğinizi belirten 1 ile 1000 arasında bir tamsayı yazın.
Varsayılan olarak 5 konu oluşturulur.
N-gram için, karma sırasında oluşturulan en fazla N-gram uzunluğunu belirtin.
Varsayılan değer 2'dir, yani hem bigrams hem de unigram oluşturulur.
Çıkış değerlerini olasılıklara dönüştürmek için Normalleştir seçeneğini belirleyin. Bu nedenle, dönüştürülen değerleri tamsayı olarak temsil etmek yerine, çıktı ve özellik veri kümesinde değerler aşağıdaki gibi dönüştürüler:
Veri kümesinde değerler bir olasılık olarak temsil eder, burada
P(topic|document)
.Özellik konu başlığı matrisinde değerler bir olasılık olarak temsil eder, burada
P(word|topic)
.
Tüm seçenekleri göster seçeneğini belirleyin ve ardından ek gelişmiş parametreleri görüntülemek ve ayarlamak için TRUE olarak ayarlayın.
Bu parametreler LDA'nın Vowpal Wabbit uygulamasına özeldir. Vowpal Wabbit online'da LDA hakkında bazı iyi öğreticiler ve resmi Vowpal Wabbit Wiki'leri vardır.
Sürüm 8'de örnekler ve Azure ML'da VW kullanımı için bu ML.
Parametreyi kullanın. Konu dağıtımlarının sparsitesi için önceki bir olasılık sağlar. VW'nin parametresine karşılık
lda_rho
gelen. Sözcük dağılımının düz olmasını bekliyorsanız 1 değerini kullanırsanız; Başka bir deyişle, tüm sözcüklerin donatılabilir olduğu varsayılır. Çoğu sözcük seyrek görünüyorsa, bunu çok daha düşük bir değere ayarlayın.Alfa parametresi. Belge başına konu ağırlıklarının sparsitesi için önceki bir olasılık belirtin. VW'nin parametresine karşılık
lda_alpha
gelen.Tahmini belge sayısı. İşlenecek belge (satır) sayısıyla ilgili en iyi tahmininizi temsil eden bir sayı yazın. Bu, modülün yeterli boyutta bir karma tablo ayırmasını sağlar.
lda_D
Vowpal Wabbit'te parametresine karşılık geliyor.Toplu iş boyutu. Vowpal Wabbit'e gönderilen her metin toplu işlerinin kaç satır içereceklerini belirten bir sayı yazın.
batch_sz
Vowpal Wabbit'te parametresine karşılık geliyor.Öğrenme güncelleştirme zamanlaması için kullanılan yinelemenin ilk değeri. Öğrenme hızı için başlangıç değerini belirtin.
initial_t
Vowpal Wabbit'te parametresine karşılık geliyor.Güncelleştirmeler sırasında yinelemeye uygulanan güç. Çevrimiçi güncelleştirmeler sırasında yineleme sayısına uygulanan güç düzeyini gösterir.
power_t
Vowpal Wabbit'te parametresine karşılık geliyor.Verilerin geçiş sayısı. Algoritmanın veriler üzerinde kaç kez döngüde olduğunu belirtin.
epoch_size
Vowpal Wabbit'te parametresine karşılık geliyor.
Metni sınıflendirmeden önce ilk geçişte n-gram listesini oluşturmak için, Ngram sözlüğü oluştur veya LDA'dan önceki ngram sözlüklerini oluştur seçeneğini belirleyin.
İlk sözlüğü önceden oluşturmanız, daha sonra modeli gözden geçirme sırasında sözlüğü kullanabilirsiniz. Sonuçları sayısal dizinler yerine metne eşlemek genellikle yorumlamak için daha kolaydır. Ancak, sözlüğü kaydetme daha uzun sürer ve ek depolama alanı kullanır.
Maksimum ngram sözlüğü boyutu için, n-gram sözlüğünde oluşturulacak toplam satır sayısını yazın.
Bu seçenek sözlüğün boyutunu denetlemek için yararlıdır. Ancak, girişte ngram sayısı bu boyutu aşarsa, çakışmalar oluşabilir.
Denemeyi çalıştırın. LDA modülü, tek tek sözcüklerle ilişkilendirilecek konuları belirlemek için Bayes teoremi kullanır. Sözcükler yalnızca herhangi bir konu veya grupla ilişkili değildir; bunun yerine, her n-gram bulunan sınıfların herhangi biri ile ilişkilendirilen bir öğrenme olasılığına sahip olur.
Sonuçlar
Modülün iki çıkışı vardır:
Dönüştürülen veri kümesi: Giriş metnini ve belirtilen sayıda bulunan kategoriyi ve her kategoriye ait her metin örneğinin puanlarını içerir.
Özellik konusu matrisi: En soldaki sütun ayıklanan metin özelliğini içerir ve her kategori için bu kategorideki bu özelliğin puanını içeren bir sütun vardır.
Ayrıntılar için bkz . LDA sonuçları örneği.
LDA dönüşümü
Bu modülde ayrıca, ITransform arabirimi olarak veri kümesine LDA'yı uygulanan dönüştürme de çıkışını sağlar.
Bu dönüştürmeyi kaydedebilir ve diğer veri kümeleri için yeniden kullanabilirsiniz. Büyük bir corpus üzerinde eğittiy ve katsayıları veya kategorileri yeniden kullanmak istiyorsanız bu yararlı olabilir.
LDA modelini veya sonuçlarını yeniden değerlendirme
Genellikle tüm ihtiyaçları karşılayacak tek bir LDA modeli oluşturamaz ve hatta tek bir görev için tasarlanmış bir model bile doğruluğu artırmak için birçok yineleme gerektirir. Modelinizi geliştirmek için bu yöntemlerin hepsini denemenizi öneririz:
- Model parametrelerini değiştirme
- Sonuçları anlamak için görselleştirme kullanma
- Konu uzmanlarının, oluşturulan konuların yararlı olup olmadığını tespit etmek için geri bildirim alma.
Nitel ölçüler, sonuçları değerlendirmek için de yararlı olabilir. Konu modelleme sonuçlarını değerlendirmek için şunları göz önünde bulundurabilirsiniz:
- Doğruluk - Benzer öğeler gerçekten benzer mi?
- Çeşitlilik - İş sorunu için gerekli olduğunda model benzer öğeler arasında ayrımcılığa neden olabilir mi?
- Ölçeklenebilirlik - Çok çeşitli metin kategorilerinde mi yoksa yalnızca dar bir hedef etki alanında mı çalışıyor?
LDA'yı temel alan modellerin doğruluğu genellikle metni temizlemek, özetlemek ve basitleştirmek veya kategorilere ayırmak için doğal dil işleme kullanılarak geliştirlenebilir. Örneğin, aşağıdaki tekniklerin hepsi Machine Learning sınıflandırma doğruluğunu geliştirebilir:
Sözcük kaldırmayı durdurma
Büyük/harf normalleştirme
Kökleştirme veya kökleştirme
Adlandırılmış varlık tanıma
Daha fazla bilgi için bkz . Metin ön işleme ve Adlandırılmış Varlık Tanıma.
Studio'da (klasik) metin işleme için R veya Python kitaplıklarını da kullanabilirsiniz: R Betiği Yürütme, Python Betiği Yürütme
Örnekler
Metin analizi örnekleri için aşağıdaki denemelere bakın Azure Yapay Zeka Galerisi:
- Python Betiği Yürütme: Metinleri temizlemek ve dönüştürmek için Python'da doğal dil işlemeyi kullanır.
Ayrıntılar ve müşteri inceleme metnini temel alan bir örnek için bkz. LDA Sonuçlarını Anlama.
LDA sonuçları örneği
Latent Dirichlet Ayırma modülünün nasıl çalıştığını göstermek için aşağıdaki örnek, Machine Learning Studio'da (klasik) sağlanan Kitap İncelemesi veri kümesine varsayılan ayarlarla LDA uygular.
Kaynak veri kümesi
Veri kümesi, kullanıcılar tarafından sağlanan tam açıklama metninin yanı sıra bir derecelendirme sütunu içerir.
Bu tabloda yalnızca birkaç temsili örnek verilmiştir.
metin |
---|
Bu kitabın iyi noktaları var. Herhangi bir şey olursa, bir gözetmenden ne istediğinizi sözcüklere koymanıza yardımcı olur. |
Kabul ediyorum, bu kitabı bitirmedim. Uyku moduna kalmama sorunlarım olduğu için bir arkadaş bunu bana önerdi... |
Kötü yazılmış bu kitabı okumaya çalıştım ama bu kitabı o kadar turgid ve kötü yazılmış olarak buldum ki hayal alelade bir yere koydum. ... |
Birkaç yıl önce geçen arkadaştan köpek kulaklı bir kopyayı ödünç almamdan bu yana, kısa süreli bir favori haline gelen bu kitabı ele alamadim |
Bu kitabın çizimi ilginçti ve iyi bir kitap olabilir. Ne yazık ki öyle değildi. Benim için asıl sorun... |
İşleme sırasında Latent Dirichlet Allocation modülü belirttiğiniz parametrelere göre metni temizler ve analiz eder. Örneğin, metni otomatik olarak belirteçlere ek olarak noktalama işaretlerini kaldırabilir ve aynı zamanda her konu başlığı için metin özelliklerini bulabilir.
LDA dönüştürülen veri kümesi
Aşağıdaki tabloda, Kitap İncelemesi örneğini temel alan dönüştürülmüş veri kümesi yer alır. Çıkış, giriş metnini ve belirtilen sayıda bulunan kategoriyi ve her kategorinin puanlarını içerir.
Film adı | Konu 1 | Konu 2 | Konu 3 | Konu 4 | Konu 5 |
---|---|---|---|---|---|
Bu kitabın iyi noktaları var | 0.001652892 | 0.001652892 | 0.001652892 | 0.001652892 | 0.9933884 |
arkadaş bunu bana önerdi | 0.00198019 | 0.001980198 | 0.9920791 | 0.001980198 | 0.001980198 |
bu kitabı okumayı deneme | 0.002469135 | 0.002469135 | 0.9901233 | 0.002469135 | 0.002469135 |
arkadaştan ödünç alma | 0.9901232 | 0.002469135 | 0.002469135 | 0.002469135 | 0.002469135 |
bu kitabın çizimi ilginçti | 0.001652892 | 0.001652892 | 0.9933884 | 0.001652892 | 0.001652892 |
Bu örnekte model olarak kullanılacak konu sayısı için varsayılan 5 değerini kullandık. Bu nedenle, LDA modülü ilk beş ölçekli derecelendirme sistemine kabaca karşılık gelecek olan beş kategori oluşturur.
Modül ayrıca konu başlıklarını temsil eden beş kategorinin her biri için her girişe bir puan atar. Puan, satırın belirli bir kategoriye atanma olasılığını gösterir.
Özellik konusu matrisi
Modülün ikinci çıktısı özellik konusu matrisidir. Bu, Özellik sütunundaki özellik kazandıran metni ve kalan Konu 1, Konu 2, ... sütunlarında yer alan kategorilerin her biri için bir puan içeren tablosal bir veri kümesidir.Konu N. Puan katsayıyı temsil eder.
Özellik | Konu 1 | Konu 2 | Konu 3 | Konu 4 | Konu 5 |
---|---|---|---|---|---|
Ilginç | 0.0240282071983144 | 0.0354678954779375 | 0.363051866576914 | 0.0276637824315893 | 0.660663576149515 |
was (was) | 0.0171478729532397 | 0.0823969031108669 | 0.00452966877950789 | 0.0408714510319233 | 0.025077322689733 |
değerini | 0.0148224220349217 | 0.0505086981492109 | 0.00434423322461094 | 0.0273389126293824 | 0.0171484355106826 |
Arsa | 0.0227415889348212 | 0.0408709456489325 | 0.182791041345191 | 0.086937090812819 | 1 0.0169680136708971 |
okuma | 0.0227415889348212 | 0.0408709456489325 | 0.182791041345191 | 0.0869370908128191 | 0.0169680136708971 |
Çalıştı | 0.0269724979147211 | 0.039026263551767 | 0.00443749106785087 | 0.0628829816088284 | 0.0235340728818033 |
Beni | 0.0262656945140134 | 0.0366941302751921 | 0.00656837975179138 | 0.0329214576160066 | 0.0214121851106808 |
kullanıcısı | 0.0141026103224462 | 0.043359976919215 | 0.00388640531859447 | 0.0305925953440055 | 0.0228993750526364 |
bu | 0.0264490547105951 | 0.0356674440311847 | 0.00541759897864314 | 0.0314539386250293 | 0.0140606468587681 |
arkadaş | 0.0135971322960941 | 0.0346118171467234 | 0.00434999437350706 | 0.0666507321888536 | 0.018156863779311 |
points | 0.0227415889348212 | 0.0396233855719081 | 0.00404663601474112 | 0.0381156510019025 | 0.0337788009496797 |
Iyi | 0.651813073836783 | 0.0598646397444108 | 0.00446809691985617 | 0.0358975694646062 | 0.0138989124411206 |
onun | 0.0185385588647078 | 0.144253986783184 | 0.00408876416453866 | 0.0583049240441475 | 0.015442805566858 |
/ | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
Ödünç | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
Hsa | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
Kitap | 0.0143157047920681 | 0.069145948535052 | 0.184036340170983 | 0.0548757337823903 | 0.0156837976985903 |
Önerilen | 0.0161486848419689 | 0.0399143326399534 | 0.00550113530229642 | 0.028637149142764 | 0.0147675139039372 |
this | 0.0161486848419689 | 0.0399143326399534 | 0.00550113530229642 | 0.028637149142764 | 0.0147675139039372 |
Teknik notlar
Bu bölümde, sık sorulan soruların uygulama ayrıntıları, ipuçları ve yanıtları yer almaktadır.
Uygulama ayrıntıları
Varsayılan olarak, dönüştürülmüş veri kümesi ve özellik konu matrisi için çıkış dağıtımları, olasılıklara göre normalleştirillerdir.
Dönüştürülmüş veri kümesi, bir belge verilen konuların koşullu olasılığı olarak normalleştirilir. Bu durumda, her satırın toplamı 1 eşittir.
Özellik konu matrisi, bir konu verilen sözcüklerin koşullu olasılığı olarak normalleştirilir. Bu durumda, her sütunun toplamı 1 ' dir.
İpucu
Bazen modül, genellikle algoritmanın sözde rastgele başlatılmasından kaynaklanan boş bir konu döndürebilir. Bu durumda, N-gram sözlüğünün en büyük boyutu veya özellik karması için kullanılacak bit sayısı gibi ilgili parametreleri değiştirmeyi deneyebilirsiniz.
LDA ve konu modelleme
Latent Dirichlet ayırması (LDA), genellikle sınıflandırılmayan metinden daha fazla bilgi edinmek için içerik tabanlı konu modellemeiçin kullanılır. İçerik tabanlı konu modellemesinde, bir konu, sözcüklerden bir dağıtım olur.
Örneğin, çok sayıda ürün içeren müşteri incelemeleriyle ilgili bir yapı sağladığınızı varsayalım. Zaman içinde birçok müşteri tarafından gönderilen incelemelerin metni, bazıları birden çok konuda kullanılan birçok terim içerir.
LDA işlemi tarafından tanımlanan Konu , tek bir ürüne yönelik İncelemeleri temsil edebilir veya bir ürün incelemeleri grubunu temsil edebilir. LDA, konunun kendisi bir sözcük kümesi için zaman içinde yalnızca bir olasılık dağılımı olur.
Koşullar bir ürüne nadiren özeldir, ancak diğer ürünlere başvurabilir veya her şeye ("harika", "en uygun") uygulanabilecek genel koşullar olabilir. Diğer terimler gürültü kelimeleri olabilir. Ancak, LDA yönteminin, Universe 'deki tüm sözcükleri yakalamak ya da sözcüklerin nasıl ilişkili olduğunu anlamak için, ortak oluşumun olasılıkların yanı sıra, LDA yönteminin bir bağlantı noktası olduğunu anlamak önemlidir. Yalnızca hedef etki alanında kullanılan kelimeleri grupleyebilir.
Dizin terimi hesaplandıktan sonra, tek tek metin satırları, iki metin parçasının birbiriyle aynı olup olmadığını anlamak için uzaklık tabanlı bir benzerlik ölçüsü kullanılarak karşılaştırılır. Örneğin, ürünün kesin bağıntılı birden çok adı olduğunu fark edebilirsiniz. Ya da kesin negatif koşulların genellikle belirli bir ürünle ilişkili olduğunu fark edebilirsiniz. İlgili terimleri tanımlamak ve öneriler oluşturmak için, benzerlik ölçüsünü her ikisini de kullanabilirsiniz.
Beklenen girişler
Ad | Tür | Description |
---|---|---|
Veri kümesi | Veri tablosu | Giriş veri kümesi |
Modül parametreleri
Ad | Tür | Aralık | İsteğe Bağlı | Varsayılan | Description |
---|---|---|---|---|---|
Karma bitlerin sayısı | Tamsayı | [1; 31] | Tüm seçenekleri göster onay kutusu seçili olmadığında geçerlidir | 12 | Özellik karma için kullanılacak bit sayısı |
Hedef sütun (ler) | Sütun seçimi | Gerekli | StringFeature | Hedef sütun adı veya dizini | |
Modeledilecek Konu sayısı | Tamsayı | [1; 1000] | Gerekli | 5 | Belge dağıtımını N konu başlıklarına göre modelleyin |
N-gram | Tamsayı | [1; 10] | Gerekli | 2 | Karma oluşturma sırasında oluşturulan N-gram sırası |
Normalleştir | Boole | Gerekli | true | Çıktıyı olasılıklara normalleştirin. Dönüştürülmüş veri kümesi P (konu | belge) olur ve özellik konu matrisi P (Word | konu başlığı) olacaktır. | |
Tüm seçenekleri göster | Boole | True veya false | Gerekli | Yanlış | Vowpal Wabbit çevrimiçi LDA 'ya özgü ek parametreler sunar |
Ro parametresi | Float | [0.00001; 1.0] | Tüm seçenekleri göster onay kutusu seçildiğinde geçerlidir | 0.01 | Ro parametresi |
Alpha parametresi | Float | [0.00001; 1.0] | Tüm seçenekleri göster onay kutusu seçildiğinde geçerlidir | 0.01 | Alpha parametresi |
Tahmini belge sayısı | Tamsayı | [1; int. Değerini | Tüm seçenekleri göster onay kutusu seçildiğinde geçerlidir | 1000 | Tahmini belge sayısı (lda_D parametreye karşılık gelir) |
Toplu işin boyutu | Tamsayı | [1; 1024] | Tüm seçenekleri göster onay kutusu seçildiğinde geçerlidir | 32 | Toplu iş boyutu |
Öğrenme hızı güncelleştirme zamanlaması için kullanılan ilk yineleme değeri | Tamsayı | [0;int. MaxValue] | Tüm seçenekleri göster onay kutusu seçildiğinde geçerlidir | 0 | Öğrenme hızı güncelleştirme zamanlaması için kullanılan yineleme sayısına ilişkin ilk değer (Initial_t parametresine karşılık gelir) |
Güncelleştirmeler sırasında yinelemeye uygulanan güç | Float | [0.0;1.0] | Tüm seçenekleri göster onay kutusu seçildiğinde geçerlidir | 0,5 | Çevrimiçi güncelleştirmeler sırasında yineleme sayısına uygulanan güç (Power_t parametresine karşılık gelir) |
Eğitim yinelemelerinin sayısı | Tamsayı | [1;1024] | Tüm seçenekleri göster onay kutusu seçildiğinde geçerlidir | 25 | Eğitim yinelemelerinin sayısı |
Ngram'ların derleme sözlüğü | Boole | True veya False | Tüm seçenekleri göster onay kutusu seçili değilken geçerlidir | Doğru | LDA'yı hesaplamadan önce ngram içeren bir sözlük derleme. Model denetleme ve yorumlama için yararlıdır |
Özellik karması için kullanmak üzere bit sayısı | Tamsayı | [1;31] | Ngram sözlüğü oluşturma seçeneği False olduğunda geçerlidir | 12 | Özellik karması sırasında kullanmak üzere bit sayısı |
En büyük ngram sözlüğü boyutu | Tamsayı | [1;int. MaxValue] | Ngram sözlüğü oluşturma seçeneği True olduğunda geçerlidir | 20000 | ngrams sözlüğü en büyük boyutu. Girişte belirteç sayısı bu boyutu aşarsa çakışmalar oluşabilir |
LDA'dan önceki ngram'ların sözlüğü oluşturma | Boole | True veya False | Tüm seçenekleri göster onay kutusu seçildiğinde geçerlidir | Doğru | LDA'dan önce ngram içeren bir sözlük derleme. Model denetleme ve yorumlama için yararlıdır |
Sözlükte en fazla ngram sayısı | Tamsayı | [1;int. MaxValue] | Ngram sözlüğü oluşturma seçeneği True olduğunda ve Tüm seçenekleri göster onay kutusu seçildiğinde geçerlidir | 20000 | Sözlüğün en büyük boyutu. Girişte belirteç sayısı bu boyutu aşarsa çakışmalar oluşabilir |
Çıkışlar
Ad | Tür | Description |
---|---|---|
Dönüştürülen veri kümesi | Veri Tablosu | Çıktı veri kümesi |
Özellik konusu matrisi | Veri Tablosu | LDA tarafından üretilen özellik konusu matrisi |
LDA dönüşümü | ITransform arabirimi | Veri kümesine LDA uygulanan dönüştürme |
Özel durumlar
Özel durum | Description |
---|---|
Hata 0002 | Belirtilen bir veya daha fazla veri kümesi sütunu bulunamasa özel durum oluşur. |
Hata 0003 | Bir veya daha fazla giriş null veya boşsa özel durum oluşur. |
Hata 0004 | Parametre belirli bir değerden küçük veya ona eşitse özel durum oluşur. |
Hata 0017 | Belirtilen bir veya daha fazla sütun türü geçerli modül tarafından desteklenmiyorsa özel durum oluşur. |
Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.
API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.
Ayrıca bkz.
Metin Analizi
Özellik Karma
Adlandırılmış Varlık Tanıma
Vowpal Wabbit 7-4 Modelini Puanla
Vowpal Wabbit 7-4 Modelini Eğitin
Vowpal Wabbit 8 Modelini Eğitin