Keterampilan kognitif Ekstraksi Frase Kunci

Artikel
09/01/2024

Keterampilan Ekstraksi Frasa Kunci mengevaluasi teks yang tidak terstruktur, dan untuk setiap rekaman, mengembalikan daftar frasa kunci. Keterampilan ini menggunakan model pembelajaran mesin Frasa Kunci yang disediakan oleh Bahasa Azure AI.

Kemampuan ini berguna jika Anda perlu dengan cepat mengidentifikasi poin pembicaraan utama dalam catatan. Misalnya, diberi teks input "Makanannya lezat dan ada staf yang luar biasa", layanan mengembalikan "makanan" dan "staf yang luar biasa".

Catatan

Keterampilan ini terikat ke layanan Azure AI dan memerlukan sumber daya yang dapat ditagih untuk transaksi yang melebihi 20 dokumen per pengindeks per hari. Eksekusi keterampilan bawaan dibebankan pada harga prabayar layanan Azure AI yang ada.

@odata.type

Microsoft.Skills.Text.KeyPhraseExtractionSkill

Batasan data

Ukuran maksimum rekaman harus 50.000 karakter sebagaimana diukur oleh String.Length. Jika Anda perlu memecah data Anda sebelum mengirimkannya ke ekstraktor frasa kunci, pertimbangkan untuk menggunakan keterampilan Pemisahan Teks. Jika Anda menggunakan keterampilan pemisahan teks, atur panjang halaman ke 5000 untuk performa terbaik.

Parameter keterampilan

Parameternya peka huruf besar/kecil.

Input	Deskripsi
`defaultLanguageCode`	(Opsional) Kode bahasa yang akan diterapkan ke dokumen yang tidak menentukan bahasa secara eksplisit. Jika kode bahasa default tidak ditentukan, bahasa Inggris (en) digunakan sebagai kode bahasa default. Lihat daftar lengkap bahasa yang didukung.
`maxKeyPhraseCount`	(Opsional) Jumlah maksimum frasa kunci yang akan dihasilkan.
`modelVersion`	(Opsional) Menentukan versi model yang akan digunakan saat memanggil API frasa kunci. Ini default ke yang terbaru yang tersedia ketika tidak ditentukan. Kami sarankan Anda tidak menentukan nilai ini kecuali diperlukan.

Input keterampilan

Input	Deskripsi
`text`	Teks yang akan dianalisis.
`languageCode`	String yang menunjukkan bahasa rekaman. Jika parameter ini tidak ditentukan, kode bahasa default digunakan untuk menganalisis rekaman. Lihat daftar lengkap bahasa yang didukung.

Output keterampilan

Output	Deskripsi
`keyPhrases`	Daftar frasa kunci yang diekstrak dari teks input. Frase kunci dikembalikan dalam urutan kepentingan.

Definisi sampel

Pertimbangkan catatan SQL yang memiliki bidang berikut:

{
    "content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world’s glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes – from the Canadian Rockies to the Mount Everest region of the Himalayas – lose almost all their glaciers by the end of the century.",
    "language": "en"
}

Kemudian definisi keterampilan Anda mungkin terlihat seperti ini:

 {
    "@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/content"
      },
      {
        "name": "languageCode",
        "source": "/document/language" 
      }
    ],
    "outputs": [
      {
        "name": "keyPhrases",
        "targetName": "myKeyPhrases"
      }
    ]
  }

Sampel output

Untuk contoh sebelumnya, output keterampilan Anda ditulis ke simpul baru di pohon yang diperkaya yang disebut "document/myKeyPhrases" karena itulah yang targetName kami tentukan. Jika Anda tidak menentukan targetName, maka itu akan menjadi "dokumen/keyPhrases".

dokumen/myKeyPhrases

[
  "world’s glaciers", 
  "huge rivers of ice", 
  "Canadian Rockies", 
  "iconic landscapes",
  "Mount Everest region",
  "Continued warming"
]

Anda dapat menggunakan "document/myKeyPhrases" sebagai input ke keterampilan lain, atau sebagai sumber pemetaan bidang output.

Peringatan

Jika Anda memberikan kode bahasa yang tidak didukung, peringatan dibuat dan frasa kunci tidak diekstrak. Jika teks Anda kosong, peringatan akan dihasilkan. Jika teks Anda lebih besar dari 50.000 karakter, hanya 50.000 karakter pertama yang dianalisis dan peringatan dikeluarkan.

Bagikan melalui