Keterampilan kognitif Ekstraksi Frase Kunci
Keterampilan Ekstraksi Frasa Kunci mengevaluasi teks yang tidak terstruktur, dan untuk setiap rekaman, mengembalikan daftar frasa kunci. Keterampilan ini menggunakan model pembelajaran mesin Frasa Kunci yang disediakan oleh Bahasa Azure AI.
Kemampuan ini berguna jika Anda perlu dengan cepat mengidentifikasi poin pembicaraan utama dalam catatan. Misalnya, diberi teks input "Makanannya lezat dan ada staf yang luar biasa", layanan mengembalikan "makanan" dan "staf yang luar biasa".
Catatan
Keterampilan ini terikat ke layanan Azure AI dan memerlukan sumber daya yang dapat ditagih untuk transaksi yang melebihi 20 dokumen per pengindeks per hari. Eksekusi keterampilan bawaan dibebankan pada harga prabayar layanan Azure AI yang ada.
@odata.type
Microsoft.Skills.Text.KeyPhraseExtractionSkill
Batasan data
Ukuran maksimum rekaman harus 50.000 karakter sebagaimana diukur oleh String.Length
. Jika Anda perlu memecah data Anda sebelum mengirimkannya ke ekstraktor frasa kunci, pertimbangkan untuk menggunakan keterampilan Pemisahan Teks. Jika Anda menggunakan keterampilan pemisahan teks, atur panjang halaman ke 5000 untuk performa terbaik.
Parameter keterampilan
Parameternya peka huruf besar/kecil.
Input | Deskripsi |
---|---|
defaultLanguageCode |
(Opsional) Kode bahasa yang akan diterapkan ke dokumen yang tidak menentukan bahasa secara eksplisit. Jika kode bahasa default tidak ditentukan, bahasa Inggris (en) digunakan sebagai kode bahasa default. Lihat daftar lengkap bahasa yang didukung. |
maxKeyPhraseCount |
(Opsional) Jumlah maksimum frasa kunci yang akan dihasilkan. |
modelVersion |
(Opsional) Menentukan versi model yang akan digunakan saat memanggil API frasa kunci. Ini default ke yang terbaru yang tersedia ketika tidak ditentukan. Kami sarankan Anda tidak menentukan nilai ini kecuali diperlukan. |
Input keterampilan
Input | Deskripsi |
---|---|
text |
Teks yang akan dianalisis. |
languageCode |
String yang menunjukkan bahasa rekaman. Jika parameter ini tidak ditentukan, kode bahasa default digunakan untuk menganalisis rekaman. Lihat daftar lengkap bahasa yang didukung. |
Output keterampilan
Output | Deskripsi |
---|---|
keyPhrases |
Daftar frasa kunci yang diekstrak dari teks input. Frase kunci dikembalikan dalam urutan kepentingan. |
Definisi sampel
Pertimbangkan catatan SQL yang memiliki bidang berikut:
{
"content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world’s glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes – from the Canadian Rockies to the Mount Everest region of the Himalayas – lose almost all their glaciers by the end of the century.",
"language": "en"
}
Kemudian definisi keterampilan Anda mungkin terlihat seperti ini:
{
"@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "keyPhrases",
"targetName": "myKeyPhrases"
}
]
}
Sampel output
Untuk contoh sebelumnya, output keterampilan Anda ditulis ke simpul baru di pohon yang diperkaya yang disebut "document/myKeyPhrases" karena itulah yang targetName
kami tentukan. Jika Anda tidak menentukan targetName
, maka itu akan menjadi "dokumen/keyPhrases".
dokumen/myKeyPhrases
[
"world’s glaciers",
"huge rivers of ice",
"Canadian Rockies",
"iconic landscapes",
"Mount Everest region",
"Continued warming"
]
Anda dapat menggunakan "document/myKeyPhrases" sebagai input ke keterampilan lain, atau sebagai sumber pemetaan bidang output.
Peringatan
Jika Anda memberikan kode bahasa yang tidak didukung, peringatan dibuat dan frasa kunci tidak diekstrak. Jika teks Anda kosong, peringatan akan dihasilkan. Jika teks Anda lebih besar dari 50.000 karakter, hanya 50.000 karakter pertama yang dianalisis dan peringatan dikeluarkan.