Metin bileşeni başvurusundan N-Gram Özelliklerini Ayıklama

Makale
09/01/2024

Bu makalede Azure Machine Learning tasarımcısındaki bir bileşen açıklanmaktadır. Yapılandırılmamış metin verilerini öne çıkarmak için Metinden N-Gram Özelliklerini Ayıkla bileşenini kullanın.

Metin bileşeninden N-Gram Özelliklerini Ayıklama Yapılandırması

Bileşen, n-gram sözlüğü kullanmak için aşağıdaki senaryoları destekler:

Serbest metin sütunundan yeni bir n gramlık sözlük oluşturun.
Boş metin sütununu öne çıkarmak için mevcut bir metin özellikleri kümesini kullanın.
N gram kullanan bir modeli puanlar veya dağıtır.

Yeni bir n-gram sözlüğü oluşturma

Metinden N-Gram Özelliklerini Ayıkla bileşenini işlem hattınıza ekleyin ve işlemek istediğiniz metnin yer aldığı veri kümesini bağlayın.
Ayıklamak istediğiniz metni içeren dize türünde bir sütun seçmek için Metin sütununu kullanın. Sonuçlar ayrıntılı olduğundan, aynı anda yalnızca tek bir sütunu işleyebilirsiniz.
Yeni bir n gram özellik listesi oluşturduğunuzu belirtmek için Sözlük modunu Oluştur olarak ayarlayın.
Ayıklanıp depolanacağı n gram boyutunun üst sınırını belirtmek için N-Gram boyutunu ayarlayın.

Örneğin, 3 girerseniz, tek birimleri, bigram'ları ve trigramları oluşturulur.
Weighting işlevi , belge özellik vektörlerinin nasıl derlenmesi ve belgelerden sözcük dağarcığının nasıl ayıklanması yapılacağını belirtir.
- İkili Ağırlık: Ayıklanan n grama ikili bir iletişim durumu değeri atar. Her n-gram değeri belgede mevcut olduğunda 1, aksi takdirde 0'dır.
- TF Ağırlığı: Ayıklanan n grama bir terim sıklığı (TF) puanı atar. Her n gram için değer, belgedeki oluşum sıklığıdır.
- IDF Ağırlığı: Ayıklanan n grama ters belge sıklığı (IDF) puanı atar. Her n-gram için değer, corpus boyutunun tüm corpus içindeki oluşum sıklığına bölünen günlüğüdür.
  
  IDF = log of corpus_size / document_frequency
- TF-IDF Ağırlığı: Ayıklanan n grama terim sıklığı/ters belge sıklığı (TF/IDF) puanı atar. Her n gram için değer, TF puanının IDF puanıyla çarpılmasıdır.
En küçük sözcük uzunluğunu, n-gram cinsinden herhangi bir tek sözcükte kullanılabilecek en küçük harf sayısına ayarlayın.
N-gram cinsinden herhangi bir sözcükte kullanılabilecek en fazla harf sayısını ayarlamak için En fazla sözcük uzunluğu'nu kullanın.

Varsayılan olarak, sözcük veya belirteç başına en çok 25 karaktere izin verilir.
Herhangi bir n gramın n-gram sözlüğüne dahil edilmesi için gereken en düşük oluşumları ayarlamak için En düşük n-gram belge mutlak sıklığını kullanın.

Örneğin, varsayılan 5 değerini kullanırsanız, n-gram sözlüğüne eklenmesi için herhangi bir n-gram en az beş kez corpus içinde görünmelidir.
En fazla n gramlık belge oranını, belirli bir n gram içeren satır sayısının, genel corpus içindeki satır sayısı üzerinden en yüksek oranına ayarlayın.

Örneğin, 1 oranı her satırda belirli bir n-gram olsa bile n-gram değerinin n-gram sözlüğüne eklenebileceğini gösterir. Daha tipik olarak, her satırda oluşan bir sözcük bir gürültü sözcüğü olarak kabul edilir ve kaldırılır. Etki alanına bağlı kirlilik sözcüklerini filtrelemek için bu oranı azaltmayı deneyin.

Önemli

Belirli sözcüklerin oluşma oranı tekdüzen değildir. Belgeden belgeye değişir. Örneğin, belirli bir ürünle ilgili müşteri yorumlarını analiz ediyorsanız, ürün adı çok yüksek frekanslı ve kirli bir sözcüğe yakın olabilir, ancak diğer bağlamlarda önemli bir terim olabilir.
Özellik vektörlerini normalleştirmek için n gram özellik vektörlerini normalleştir seçeneğini belirleyin. Bu seçenek etkinleştirilirse, her n gramlık özellik vektörleri L2 normlarına bölünür.
İşlem hattını gönderin.

Var olan bir n-gram sözlüğü kullanma

Metinden N-Gram Özelliklerini Ayıkla bileşenini işlem hattınıza ekleyin ve işlemek istediğiniz metnin yer aldığı veri kümesini Veri Kümesi bağlantı noktasına bağlayın.
Öne çıkarmak istediğiniz metni içeren metin sütununu seçmek için Metin sütununu kullanın. Varsayılan olarak, bileşen dize türündeki tüm sütunları seçer. En iyi sonuçları elde için tek seferde tek bir sütunu işleyin.
Daha önce oluşturulmuş bir n-gram sözlüğü içeren kaydedilmiş veri kümesini ekleyin ve giriş sözlüğü bağlantı noktasına bağlayın. Ayrıca, Metinden N-Gram Özelliklerini Ayıkla bileşeninin yukarı akış örneğinin Sonuç sözlük çıkışını da bağlayabilirsiniz.
Sözlük modu için açılan listeden ReadOnly update seçeneğini belirleyin.

ReadOnly seçeneği, giriş sözlüğü için giriş corpus'unu temsil eder. Yeni metin veri kümesindeki terim sıklıklarını hesaplama yerine (sol girişte), giriş kelime dağarcığındaki n gram ağırlıkları olduğu gibi uygulanır.

İpucu

Metin sınıflandırıcısı puanlarken bu seçeneği kullanın.
Diğer tüm seçenekler için önceki bölümdeki özellik açıklamalarına bakın.
İşlem hattını gönderin.

Gerçek zamanlı uç nokta dağıtmak için n gram kullanan çıkarım işlem hattı oluşturma

Test veri kümesinde tahminde bulunmak için Metinden N Gram Özelliğini Ayıklama ve Modeli Puanla özelliğini içeren bir eğitim işlem hattı aşağıdaki yapıda yerleşiktir:

N-Gram eğitim işlem hattı örneği ayıklama

Metinden N Gram Ayıkla özelliğinin sözcük dağarcığı modu Oluştur ve Modeli Puanla bileşenine bağlanan bileşenin Sözlük modu ReadOnly'dir.

Yukarıdaki eğitim işlem hattını başarıyla gönderdikten sonra, daire içine alınmış bileşenin çıkışını veri kümesi olarak kaydedebilirsiniz.

veri kümesini kaydetme

Ardından gerçek zamanlı çıkarım işlem hattı oluşturabilirsiniz. Çıkarım işlem hattı oluşturduktan sonra çıkarım işlem hattınızı aşağıdaki gibi el ile ayarlamanız gerekir:

çıkarım işlem hattı

Ardından çıkarım işlem hattını gönderin ve gerçek zamanlı bir uç nokta dağıtın.

Sonuçlar

Metinden N-Gram Özelliklerini Ayıkla bileşeni iki tür çıkış oluşturur:

Sonuç veri kümesi: Bu çıkış, ayıklanan n gram ile birleştirilen analiz edilen metnin özetidir. Metin sütunu seçeneğinde seçmediğiniz sütunlar çıkışa geçirilir. Çözümlediğiniz her metin sütunu için bileşen şu sütunları oluşturur:
- N-gram oluşumlarının matrisi: Bileşen, toplam corpus içinde bulunan her n gram için bir sütun oluşturur ve bu satır için n-gram kalınlığını belirtmek üzere her sütuna bir puan ekler.
Sonuç sözlüğü: Sözlük, analizin bir parçası olarak oluşturulan terim sıklığı puanları ile birlikte gerçek n gramlık sözlüğü içerir. Veri kümesini farklı bir giriş kümesiyle yeniden kullanmak veya daha sonraki bir güncelleştirme için kaydedebilirsiniz. Ayrıca modelleme ve puanlama terimlerini yeniden kullanabilirsiniz.

Sonuç sözlüğü

Sözlük, çözümlemenin bir parçası olarak oluşturulan sıklık puanlarını içeren n-gram sözlüğü içerir. DF ve IDF puanları diğer seçeneklerden bağımsız olarak oluşturulur.

Kimlik: Her benzersiz n gram için oluşturulan bir tanımlayıcı.
NGram: N-gram. Boşluklar veya diğer sözcük ayırıcıları, alt çizgi karakteriyle değiştirilir.
DF: Özgün korpustaki n-gram için terim sıklığı puanı.
IDF: Özgün korpustaki n gram için ters belge sıklığı puanı.

Bu veri kümesini el ile güncelleştirebilirsiniz, ancak hatalara neden olabilirsiniz. Örneğin:

Bileşen, giriş sözlüğünde aynı anahtara sahip yinelenen satırlar bulursa bir hata oluşur. Sözlükteki iki satırın aynı sözcükte olmadığından emin olun.
Sözlük veri kümelerinin giriş şeması, sütun adları ve sütun türleri de dahil olmak üzere tam olarak eşleşmelidir.
Kimlik sütunu ve DF sütunu tamsayı türünde olmalıdır.
IDF sütunu float türünde olmalıdır.

Not

Veri çıkışını Modeli Eğit bileşenine doğrudan bağlamayın. Eğitim Modeli'ne beslenmeden önce serbest metin sütunlarını kaldırmanız gerekir. Aksi takdirde, serbest metin sütunları kategorik özellikler olarak değerlendirilir.

Sonraki adımlar

Bkz. Azure Machine Learning için kullanılabilen bileşenler kümesi.

Aracılığıyla paylaş