Keterampilan kognitif deteksi bahasa

Artikel
11/15/2023

Keterampilan Deteksi Bahasa mendeteksi bahasa teks input dan melaporkan satu kode bahasa untuk setiap dokumen yang dikirimkan pada permintaan. Kode bahasa dipasangkan dengan skor yang menunjukkan kekuatan analisis. Keterampilan ini menggunakan model pembelajaran mesin yang disediakan dalam Bahasa Azure AI.

Kemampuan ini sangat berguna saat Anda perlu menyediakan bahasa teks sebagai input ke keterampilan lain (misalnya, keterampilan Analisis Sentimen atau keterampilan Pemisahan Teks).

Lihat bahasa yang didukung untuk Deteksi Bahasa. Jika Anda memiliki konten yang dinyatakan dalam bahasa yang tidak didukung, responsnya adalah (Unknown).

Catatan

Keterampilan ini terikat ke layanan Azure AI dan memerlukan sumber daya yang dapat ditagih untuk transaksi yang melebihi 20 dokumen per pengindeks per hari. Eksekusi keterampilan bawaan dibebankan pada harga prabayar layanan Azure AI yang ada.

@odata.type

Microsoft.Skills.Text.LanguageDetectionSkill

Batasan data

Ukuran maksimum rekaman harus 50.000 karakter sebagaimana diukur oleh String.Length. Jika Anda perlu memecah data sebelum mengirimkannya ke keterampilan deteksi bahasa, Anda dapat menggunakan keterampilan Pemisahan Teks.

Parameter keterampilan

Parameternya peka huruf besar/kecil.

Input	Deskripsi
`defaultCountryHint`	(Opsional) Kode negara dua huruf ISO 3166-1 alpha-2 dapat disediakan untuk digunakan sebagai petunjuk model deteksi bahasa jika tidak dapat membedakan bahasa. Secara khusus, parameter `defaultCountryHint` digunakan dengan dokumen yang tidak menentukan input `countryHint` secara eksplisit.
`modelVersion`	(Opsional) Menentukan versi model yang akan digunakan saat memanggil deteksi bahasa. Ini default ke yang terbaru yang tersedia ketika tidak ditentukan. Kami sarankan Anda tidak menentukan nilai ini kecuali diperlukan.

Input keterampilan

Parameternya peka huruf besar/kecil.

Input	Deskripsi
`text`	Teks yang akan dianalisis.
`countryHint`	Kode negara dua huruf ISO 3166-1 alpha-2 untuk digunakan sebagai petunjuk model deteksi bahasa jika tidak dapat membedakan bahasa.

Output keterampilan

Nama Output	Deskripsi
`languageCode`	Kode bahasa ISO 6391 untuk bahasa yang diidentifikasi. Misalnya, "en".
`languageName`	Nama bahasa. Misalnya, "Bahasa Inggris".
`score`	Nilai antara 0 dan 1. Kemungkinan bahasa tersebut diidentifikasi dengan benar. Skor dapat lebih rendah dari 1 jika kalimat memiliki bahasa campuran.

Definisi sampel

 {
    "@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/text"
      },
      {
        "name": "countryHint",
        "source": "/document/countryHint"
      }
    ],
    "outputs": [
      {
        "name": "languageCode",
        "targetName": "myLanguageCode"
      },
      {
        "name": "languageName",
        "targetName": "myLanguageName"
      },
      {
        "name": "score",
        "targetName": "myLanguageScore"
      }

    ]
  }

Input sampel

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. "
           }
      },
      {
        "recordId": "2",
        "data":
           {
             "text": "Estamos muy felices de estar con ustedes."
           }
      },
      {
        "recordId": "3",
        "data":
           {
             "text": "impossible",
             "countryHint": "fr"
           }
      }
    ]

Sampel output

{
    "values": [
      {
        "recordId": "1",
        "data":
            {
              "languageCode": "en",
              "languageName": "English",
              "score": 1,
            }
      },
      {
        "recordId": "2",
        "data":
            {
              "languageCode": "es",
              "languageName": "Spanish",
              "score": 1,
            }
      },
      {
        "recordId": "3",
        "data":
            {
              "languageCode": "fr",
              "languageName": "French",
              "score": 1,
            }
      }
    ]
}

Bagikan melalui