Keterampilan kognitif Pengenalan Entitas (v2)
Keterampilan Pengenalan Entitas (v2) mengekstrak entitas dari berbagai jenis dari teks. Keterampilan ini menggunakan model pembelajaran mesin yang disediakan oleh Text Analytics di layanan Azure AI.
Penting
Keterampilan Pengenalan Entitas (v2) (Microsoft.Skills.Text.EntityRecognitionSkill) sekarang dihentikan digantikan oleh Microsoft.Skills.Text.V3.EntityRecognitionSkill. Ikuti rekomendasi dalam Keterampilan yang tidak digunakan lagi untuk bermigrasi ke keterampilan yang didukung.
Catatan
Saat Anda memperluas cakupan dengan meningkatkan frekuensi pemrosesan, menambahkan lebih banyak dokumen, atau menambahkan lebih banyak algoritma AI, Anda harus melampirkan sumber daya layanan Azure AI yang dapat ditagih. Biaya bertambah saat memanggil API di layanan Azure AI, dan untuk ekstraksi gambar sebagai bagian dari tahap pemecahan dokumen di Azure AI Search. Tidak ada biaya untuk ekstraksi teks dari dokumen.
Eksekusi keterampilan bawaan dibebankan pada harga prabayar layanan Azure AI yang ada. Harga ekstraksi gambar dijelaskan di halaman harga Azure AI Search.
@odata.type
Microsoft.Skills.Text.EntityRecognitionSkill
Batasan data
Ukuran maksimum rekaman harus 50.000 karakter sebagaimana diukur oleh String.Length
. Jika Anda perlu memecah data Anda sebelum mengirimkannya ke ekstraktor frasa kunci, pertimbangkan untuk menggunakan keterampilan Pemisahan Teks. Jika Anda menggunakan keterampilan pemisahan teks, atur panjang halaman ke 5000 untuk performa terbaik.
Parameter keterampilan
Parameter peka terhadap huruf besar/kecil, dan semuanya bersifat opsional.
Nama Parameter | Deskripsi |
---|---|
categories |
Kategori array yang harus diekstrak. Jenis kategori yang memungkinkan: "Person" , "Location" , "Organization" , "Quantity" , "Datetime" , "URL" , "Email" . Jika tidak ada kategori yang disediakan, semua jenis akan dikembalikan. |
defaultLanguageCode |
Kode bahasa dari teks input. Bahasa berikut ini telah didukung: ar, cs, da, de, en, es, fi, fr, hu, it, ja, ko, nl, no, pl, pt-BR, pt-PT, ru, sv, tr, zh-hans . Tidak semua kategori entitas didukung untuk semua bahasa; lihat catatan di bawah ini. |
minimumPrecision |
Nilai antara 0 dan 1. Jika skor keyakinan (dalam output namedEntities ) lebih rendah dari nilai ini, entitas tidak ditampilkan. Defaultnya adalah 0. |
includeTypelessEntities |
Setel ke true jika Anda ingin mengenali entitas terkenal yang tidak sesuai dengan kategori saat ini. Entitas yang dikenali ditampilkan dalam bidang output kompleks entities . Misalnya, "Windows 10" adalah entitas terkenal (produk), tetapi karena "Produk" bukan merupakan kategori yang didukung, entitas ini akan disertakan dalam bidang output entitas. Standarnya adalah false |
Input keterampilan
Masukkan nama | Deskripsi |
---|---|
languageCode |
Opsional. Defaultnya adalah "en" . |
text |
Teks yang akan dianalisis. |
Output keterampilan
Catatan
Tidak semua kategori entitas didukung untuk semua bahasa. Jenis kategori entitas "Person"
, "Location"
, dan "Organization"
didukung untuk daftar lengkap bahasa di atas. Hanya de, en, es, fr, dan zh-hans yang mendukung ekstraksi dari jenis "Quantity"
, "Datetime"
, "URL"
, dan "Email"
. Untuk informasi selengkapnya, lihat Dukungan bahasa dan wilayah untuk API Analisis Teks.
Nama output | Deskripsi |
---|---|
persons |
Array dari string yang setiap string-nya mewakili nama seseorang. |
locations |
Array dari string yang setiap string-nya mewakili lokasi. |
organizations |
Array dari string yang setiap string-nya mewakili organisasi. |
quantities |
Array dari string yang setiap string-nya mewakili kuantitas. |
dateTimes |
Array dari string yang setiap string-nya mewakili nilai DateTime (seperti yang muncul dalam teks). |
urls |
Array dari string yang setiap string-nya mewakili URL |
emails |
Array dari string yang setiap string-nya mewakili email |
namedEntities |
Array jenis kompleks yang berisi bidang berikut:
|
entities |
Array jenis kompleks yang berisi informasi kaya tentang entitas yang diekstrak dari teks, dengan bidang berikut
|
Definisi sampel
{
"@odata.type": "#Microsoft.Skills.Text.EntityRecognitionSkill",
"categories": [ "Person", "Email"],
"defaultLanguageCode": "en",
"includeTypelessEntities": true,
"minimumPrecision": 0.5,
"inputs": [
{
"name": "text",
"source": "/document/content"
}
],
"outputs": [
{
"name": "persons",
"targetName": "people"
},
{
"name": "emails",
"targetName": "contact"
},
{
"name": "entities"
}
]
}
Input sampel
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Contoso corporation was founded by John Smith. They can be reached at contact@contoso.com",
"languageCode": "en"
}
}
]
}
Sampel output
{
"values": [
{
"recordId": "1",
"data" :
{
"persons": [ "John Smith"],
"emails":["contact@contoso.com"],
"namedEntities":
[
{
"category":"Person",
"value": "John Smith",
"offset": 35,
"confidence": 0.98
}
],
"entities":
[
{
"name":"John Smith",
"wikipediaId": null,
"wikipediaLanguage": null,
"wikipediaUrl": null,
"bingId": null,
"type": "Person",
"subType": null,
"matches": [{
"text": "John Smith",
"offset": 35,
"length": 10
}]
},
{
"name": "contact@contoso.com",
"wikipediaId": null,
"wikipediaLanguage": null,
"wikipediaUrl": null,
"bingId": null,
"type": "Email",
"subType": null,
"matches": [
{
"text": "contact@contoso.com",
"offset": 70,
"length": 19
}]
},
{
"name": "Contoso",
"wikipediaId": "Contoso",
"wikipediaLanguage": "en",
"wikipediaUrl": "https://en.wikipedia.org/wiki/Contoso",
"bingId": "349f014e-7a37-e619-0374-787ebb288113",
"type": null,
"subType": null,
"matches": [
{
"text": "Contoso",
"offset": 0,
"length": 7
}]
}
]
}
}
]
}
Perhatikan bahwa offset yang ditampilkan untuk entitas dalam output keterampilan ini langsung ditampilkan dari API Text Analytics, yang berarti jika Anda menggunakannya untuk mengindeks menuju string asli, Anda harus menggunakan kelas StringInfo di .NET untuk mengekstrak konten yang benar. Detail selengkapnya dapat ditemukan di sini.
Kasus peringatan
Jika kode bahasa untuk dokumen tidak didukung, peringatan akan ditampilkan dan tidak ada entitas yang diekstraksi.