Keterampilan kognitif Pengenalan Entitas (v3)
Keterampilan Pengenalan Entitas (v3) mengekstrak entitas dari berbagai jenis dari teks. Entitas tersebut termasuk dalam 14 kategori berbeda, mulai dari orang dan organisasi hingga URL dan nomor telepon. Keterampilan ini menggunakan model pembelajaran mesin Pengenalan Entitas Bernama yang disediakan oleh Bahasa Azure AI.
Catatan
Keterampilan ini terikat ke layanan Azure AI dan memerlukan sumber daya yang dapat ditagih untuk transaksi yang melebihi 20 dokumen per pengindeks per hari. Eksekusi keterampilan bawaan dibebankan pada harga prabayar layanan Azure AI yang ada.
@odata.type
Microsoft.Skills.Text.V3.EntityRecognitionSkill
Batasan data
Ukuran maksimum rekaman harus 50.000 karakter sebagaimana diukur oleh String.Length
. Jika Anda perlu memecah data sebelum mengirimkannya ke keterampilan EntityRecognition, pertimbangkan untuk menggunakan keterampilan Pemisahan Teks. Saat menggunakan keterampilan terpisah, atur panjang halaman ke 5000 untuk performa terbaik.
Parameter keterampilan
Parameter peka terhadap huruf besar/kecil, dan semuanya bersifat opsional.
Nama Parameter | Deskripsi |
---|---|
categories |
Kategori array yang harus diekstrak. Jenis kategori yang memungkinkan: "Person" , "Location" , "Organization" , "Quantity" , "DateTime" , "URL" , "Email" , "personType" , "Event" , "Product" , "Skill" , "Address" , "phoneNumber" , "ipAddress" . Jika tidak ada kategori yang disediakan, semua jenis akan dikembalikan. |
defaultLanguageCode |
Kode bahasa dari teks input. Jika kode bahasa default tidak ditentukan, bahasa Inggris (en) akan digunakan sebagai kode bahasa default. Lihat daftar lengkap bahasa yang didukung. Tidak semua kategori entitas didukung untuk semua bahasa; lihat catatan di bawah ini. |
minimumPrecision |
Nilai antara 0 dan 1. Jika skor keyakinan (dalam output namedEntities ) lebih rendah dari nilai ini, entitas tidak ditampilkan. Defaultnya adalah 0. |
modelVersion |
(Opsional) Menentukan versi model yang akan digunakan saat memanggil API pengenalan entitas. Ini akan default ke yang terbaru yang tersedia saat tidak ditentukan. Kami sarankan Anda tidak menentukan nilai ini kecuali diperlukan. |
Input keterampilan
Masukkan nama | Deskripsi |
---|---|
languageCode |
String yang menunjukkan bahasa rekaman. Jika parameter ini tidak ditentukan, kode bahasa default akan digunakan untuk menganalisis rekaman. Lihat daftar lengkap bahasa yang didukung. |
text |
Teks yang akan dianalisis. |
Output keterampilan
Catatan
Tidak semua kategori entitas didukung untuk semua bahasa. Lihat Kategori entitas Pengenalan Entitas Bernama (NER) yang Didukung untuk mengetahui kategori entitas mana yang didukung untuk bahasa yang akan Anda gunakan.
Nama output | Deskripsi |
---|---|
persons |
Array dari string yang setiap string-nya mewakili nama seseorang. |
locations |
Array dari string yang setiap string-nya mewakili lokasi. |
organizations |
Array dari string yang setiap string-nya mewakili organisasi. |
quantities |
Array dari string yang setiap string-nya mewakili kuantitas. |
dateTimes |
Array dari string yang setiap string-nya mewakili nilai DateTime (seperti yang muncul dalam teks). |
urls |
Array dari string yang setiap string-nya mewakili URL |
emails |
Array dari string yang setiap string-nya mewakili email |
personTypes |
Array dari string yang setiap string-nya mewakili PersonType |
events |
Array dari string yang setiap stringnya mewakili suatu kejadian |
products |
Array dari string yang setiap string-nya mewakili produk |
skills |
Array dari string yang setiap string-nya mewakili keterampilan |
addresses |
Array dari string yang setiap string-nya mewakili alamat |
phoneNumbers |
Array dari string yang setiap string-nya mewakili nomor telepon |
ipAddresses |
Array dari string yang setiap string-nya mewakili Alamat IP |
namedEntities |
Array jenis kompleks yang berisi bidang berikut:
|
Definisi sampel
{
"@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
"context": "/document",
"categories": [ "Person", "Email"],
"defaultLanguageCode": "en",
"minimumPrecision": 0.5,
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "persons",
"targetName": "people"
},
{
"name": "emails",
"targetName": "emails"
},
{
"name": "namedEntities",
"targetName": "namedEntities"
}
]
}
Input sampel
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Contoso Corporation was founded by Jean Martin. They can be reached at contact@contoso.com",
"languageCode": "en"
}
}
]
}
Sampel output
{
"values": [
{
"recordId": "1",
"data" :
{
"people": [ "Jean Martin"],
"emails":["contact@contoso.com"],
"namedEntities":
[
{
"category": "Person",
"subcategory": null,
"length": 11,
"offset": 35,
"confidenceScore": 0.98,
"text": "Jean Martin"
},
{
"category": "Email",
"subcategory": null,
"length": 19,
"offset": 71,
"confidenceScore": 0.8,
"text": "contact@contoso.com"
}
],
}
}
]
}
Offset yang dikembalikan untuk entitas dalam output keterampilan ini langsung dikembalikan dari API Layanan Bahasa, yang berarti jika Anda menggunakannya untuk mengindeks ke dalam string asli, Anda harus menggunakan kelas StringInfo di .NET untuk mengekstrak konten yang benar. Untuk informasi selengkapnya, lihat Dukungan multibahasa dan emoji dalam fitur layanan Bahasa.
Kasus peringatan
Jika kode bahasa untuk dokumen tidak didukung, peringatan akan ditampilkan dan tidak ada entitas yang diekstraksi.
Baca juga
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk