Aracılığıyla paylaş


Adlandırılmış Varlık Tanıma

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Metin sütunundaki adlandırılmış varlıkları tanır

Kategori: Metin Analizi

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Modüle genel bakış

Bu makalede, Adlandırılmış Varlık Tanıma Studio'daki (klasik) Machine Learning Adlandırılmış Varlık Tanıma modülünü kullanarak bir metin sütunundaki kişiler, şirketler veya konumlar gibi şeylerin adlarını tanımlama açıklanmıştır.

Adlandırılmış varlık tanıma, makine öğrenmesi ve doğal dil işleme (NLP) alanında önemli bir araştırma alanıdır çünkü şu gibi birçok gerçek dünya sorularını yanıtlamak için kullanılabilir:

  • Tweet bir kişinin adını içeriyor mu? Tweet geçerli konumunu da sağlar mı?

  • Bir haber makalesinde hangi şirketlerden bahsedildi?

  • Şikayetlerde veya incelemelerde belirtilen ürünlerden bahsedildi mi?

Adlandırılmış varlıkların listesini almak için, metin sütunu içeren giriş olarak bir veri kümesi sağlarsınız. Bu Adlandırılmış Varlık Tanıma üç varlık türü tanımlanacak: kişiler (PER), konumlar (LOC) ve kuruluşlar (ORG).

Modül ayrıca bu sözcüklerin bulunduğu yere göre dizileri etiketler, böylece terimleri daha fazla analizde kullanabilirsiniz.

Örneğin, aşağıdaki tabloda basit bir giriş cümlesi ve modül tarafından oluşturulan terimler ve değerler yer alır:

Girdi metni Modül çıkışı
"Boston yaşam için harika bir yerdir." 0,Boston,0,6,LOC

Çıkış aşağıdaki gibi yorumlanabilir:

  • İlk '0', bu dizenin modüle ilk makale girişi olduğu anlamına gelir.

    Tek bir makalede, çıkışta makale satır numarası da dahil olmak üzere birden çok varlık olabilir, çünkü özellikleri makalelere eşlemek için önemlidir.

  • Boston tanınan varlıktır.

  • Aşağıdaki 0 , varlığın Boston giriş dizesinin Boston ilk harfinden başladığı anlamına gelir. Dizinler sıfır tabanlıdır.

  • 6 , varlığın uzunluğunun Boston 6 olduğu anlamına gelir.

  • LOC varlığın bir Boston yer veya konum olduğu anlamına gelir. Desteklenen diğer adlandırılmış varlık türleri kişi (PER) ve kuruluş ()'dırORG.

Adlandırılmış Varlık Tanıma

  1. Adlandırılmış Varlık Tanıma modülünü Studio'da (klasik) denemenize ekleyin. Modülü Metin Analizi bulabilirsiniz.

  2. Story adlı girişte analiz etmek istediğiniz metni içeren bir veri kümesine bağlanabilirsiniz.

    "Hikaye", adlandırılmış varlıkların ayıklandırılamayacak metni içermesi gerekir.

    Story olarak kullanılan sütun, her satırın bir dizeden oluşan birden çok satır içermesi gerekir. dize bir cümle gibi kısa veya haber makalesi gibi uzun olabilir.

    Metin sütunu içeren herhangi bir veri kümesine bağlanabilirsiniz. Ancak, giriş veri kümesi birden çok sütun içeriyorsa, yalnızca analiz etmek istediğiniz metni içeren sütunu seçmek için Veri Kümesinde Sütunları Seç seçeneğini kullanın

    Not

    İkinci giriş olan Özel Kaynaklar (Zip) şu anda desteklenmiyor.

    Gelecekte, farklı varlık türlerini tanımlamak için buraya özel kaynak dosyaları eklemeye devam edersiniz.

  3. Denemeyi çalıştırın.

Sonuçlar

Modül, farklarla birlikte tanınan her varlık için bir satır içeren bir veri kümesi çıkışı oluşturur.

Giriş metninin her satırı birden çok adlandırılmış varlık içereyeb olabileceği için, adlandırılmış varlığı içeren giriş satırı tanımlamak için otomatik olarak bir makale kimlik numarası oluşturulur ve çıkışa eklenir. Makale kimliği, giriş veri kümesinde satırların doğal sırasına göredir.

Bu çıkış veri kümelerini csv'ye dönüştürebilirsiniz veya yeniden kullanmak üzere bir veri kümesi olarak kaydedebilirsiniz.

Bir web hizmette adlandırılmış varlık tanımayı kullanma

Machine Learning Studio'dan (klasik) bir web hizmeti yayımlar ve C#, Python veya R gibi başka bir dil kullanarak web hizmetini kullanmak için önce web hizmetinin yardım sayfasında sağlanan hizmet kodunu uygulamanız gerekir.

Web hizmetiniz birden çok çıkış satırı sağlarsa C#, Python veya R kodunuz için ekley istediğiniz web hizmetinin URL'sinde yerine soneki scoremultirow olmalıdır score.

Örneğin, web hizmetiniz için aşağıdaki URL'yi kullanın: https://ussouthcentral.services.azureml.net/workspaces/<workspace id>/services/<service id>/score

Çok satırlı çıkışı etkinleştirmek için URL'yi olarak değiştirme https://ussouthcentral.services.azureml.net/workspaces/<workspace id>/services/<service id>/scoremultirow

Bu web hizmetini yayımlamak için, çok satırlı çıkışı noktalı virgülle (Adlandırılmış Varlık Tanıma) ayrılmış tek bir çıkışa dönüştürmek için Adlandırılmış Varlık Tanıma modülüne ek bir R Betiği Yürütme modülü ;). Çıktının birden çok satırlarını tek bir satırda birleştirmenin nedeni, giriş satırı başına birden çok varlık dönmektir.

Örneğin, iki adlandırılmış varlı giriş cümlesine sahip olduğunu varsayalım. Her giriş satırı için iki satır dönmek yerine, burada gösterildiği gibi noktalı virgülle ayrılmış birden çok varlı tek bir satır döndürebilirsiniz:

Giriş Metni Web Hizmetinin Çıkışı
Microsoft'un Boston'da iki ofisi vardır. 0,Microsoft,0,9,ORG,;,0,Boston,38,6,LOC,;

Aşağıdaki kod örneğinde bunun nasıl gerçekleştir olduğu gösterildi:

# Map 1-based optional input ports to variables  
d <- maml.mapInputPort(1) # class: data.frame  
y=length(d) ##size of cols  
x=dim(d)[1] ##size of rows  
longd=matrix("NA",nrow=1,ncol=x*(y+1))  
for (i in 1:x)  
  {   
     for (j in 1:y)  
     {  
       longd[1,j+(i-1)*(y+1)]=toString(d[i,j])   
     }  
     longd[1,j+(i-1)*(y+1)+1]=c(";")  
  }   

final_output=as.data.frame(longd)  
# Select data.frame to be sent to the output Dataset port  
maml.mapOutputPort("final_output");  

Örnekler

Bu blog, adlandırılmış varlık tanımanın nasıl çalıştığını, arka planını ve olası uygulamalarının genişletilmiş bir açıklamasını sağlar:

Ayrıca makine öğrenmesinde yaygın olarak kullanılan metin Azure Yapay Zeka Galerisi yöntemlerinin nasıl kullanıla ilgili tanıtımlar için aşağıdaki örnek denemelere bakın:

  • Haber Kategorilere Ayırma örneği: Makaleleri önceden tanımlanmış bir kategori listesine sınıflandırmak için özellik karmasını kullanır.

  • Benzer Şirketler örneği: Şirketleri kategorilere ayırmak için Wikipedia makalelerinin metnini kullanır.

  • Metin Sınıflandırması Adım 1/5: Veri hazırlama: Metin sınıflandırmanın bu beş bölümden biri olan kılavuzda, yaklaşım analizi gerçekleştirmek için Twitter iletilerinden metinler kullanılır. Çeşitli metin ön işleme teknikleri de gösterildi.

Teknik notlar

Dil desteği

Şu anda Adlandırılmış Varlık Tanıma modülü yalnızca İngilizce metinleri destekler. Kuruluş adlarını, kişisel adları ve konumları İngilizce cümlelerle algılanabilir. Modülü diğer dillerde kullanırsanız hatayla sonuç alamayabilirsiniz, ancak sonuçlar İngilizce metinler için o kadar iyi değildir.

Gelecekte, Doğal Dil Araç Seti'ne sağlanan çok dilli bileşenleri tümleştirerek Office destek etkinleştirilebilir.

Beklenen girişler

Ad Tür Description
Hikaye Veri Tablosu Analiz etmek istediğiniz metin sütununu içeren bir giriş veri kümesi (DataTable).
CustomResources Zip (İsteğe bağlı) Ek özel kaynaklar içeren ZIP biçiminde bir dosya.

Bu seçenek şu anda kullanılamaz ve yalnızca ileriye dönük uyumluluk için sağlanır.

Çıkışlar

Ad Tür Description
Varlıklar Veri Tablosu Karakter uzaklıklarının ve varlıkların listesi

Ayrıca bkz.

Metin Analizi
Özellik Karma
Vowpal Wabbit 7-4 Modelini Puanla
Vowpal Wabbit 7-4 Modelini Eğitin