Mulai Cepat: Pengenalan entitas bernama kustom

Artikel
12/19/2023

Gunakan artikel ini untuk mulai membuat proyek NER kustom di mana Anda bisa melatih model kustom untuk pengenalan entitas kustom. Model adalah perangkat lunak kecerdasan buatan yang dilatih untuk melakukan tugas tertentu. Untuk sistem ini, model mengekstrak entitas bernama dan dilatih dengan belajar dari data yang ditandai.

Pada artikel ini, kami menggunakan Language Studio untuk menunjukkan konsep utama Pengenalan Entitas Bernama (NER). Sebagai contoh, kita membangun model NER kustom untuk mengekstrak entitas yang relevan dari perjanjian pinjaman, seperti:

Tanggal perjanjian
Nama, alamat, kota, dan negara peminjam
Nama, alamat, kota, dan negara pemberi pinjaman
Jumlah pinjaman dan bunga

Prasyarat

Langganan Azure - Buat langganan secara gratis

Membuat sumber daya Bahasa Azure AI baru dan akun penyimpanan Azure

Sebelum dapat menggunakan NER kustom, Anda harus membuat sumber daya Bahasa Azure AI, yang akan memberi Anda kredensial yang Anda butuhkan untuk membuat proyek dan mulai melatih model. Anda juga memerlukan akun penyimpanan Azure, tempat Anda dapat mengunggah himpunan data yang akan digunakan untuk membangun model Anda.

Penting

Untuk memulai dengan cepat, sebaiknya buat sumber daya Bahasa Azure AI baru menggunakan langkah-langkah yang disediakan dalam artikel ini. Menggunakan langkah-langkah dalam artikel ini, Anda dapat membuat sumber daya Bahasa dan akun penyimpanan secara bersamaan, yang lebih mudah daripada melakukannya nanti.

Jika Anda memiliki sumber daya yang sudah ada sebelumnya yang ingin digunakan, Anda harus menghubungkannya ke akun penyimpanan. Lihat panduan menggunakan sumber daya yang sudah ada sebelumnya untuk informasi.

Buat sumber daya baru menggunakan portal Microsoft Azure

Masuk ke portal Azure untuk membuat sumber daya Bahasa Azure AI baru.
Di jendela yang muncul, pilih Klasifikasi teks kustom & pengenalan entitas bernama kustom dari fitur kustom. Pilih Lanjutkan untuk membuat sumber daya Anda di bagian bawah layar.

Buat sumber daya Bahasa dengan detail berikut.

Nama	Deskripsi
Langganan	Langganan Azure Anda.
Grup sumber daya	Grup sumber daya yang akan berisi sumber daya Anda. Anda dapat menggunakan ruang kerja yang sudah ada atau membuat baru.
Wilayah	Wilayah sumber daya Bahasa Anda. Misalnya, "US Barat 2".
Nama	Nama sumber daya Anda.
Tingkatan harga	Tingkat harga untuk sumber daya Bahasa Anda. Anda dapat menggunakan tingkat Gratis (F0) untuk mencoba layanan.

Catatan

Jika Anda mendapatkan pesan yang mengatakan "akun masuk Anda bukan pemilik grup sumber daya akun penyimpanan yang dipilih", akun Anda harus memiliki peran pemilik yang ditetapkan pada grup sumber daya sebelum Anda dapat membuat sumber daya Bahasa. Hubungi pemilik langganan Azure Anda untuk bantuan.

Di bagian Klasifikasi teks kustom & pengenalan entitas bernama kustom, pilih akun penyimpanan yang sudah ada atau pilih Akun penyimpanan baru. Nilai ini untuk membantu Anda memulai, dan belum tentu menjadi nilai akun penyimpanan yang ingin Anda gunakan di lingkungan produksi. Untuk menghindari latensi selama membangun proyek Anda, sambungkan ke akun penyimpanan di wilayah yang sama dengan sumber daya Bahasa Anda.

Nilai akun penyimpanan Nilai yang direkomendasikan

Nama akun penyimpanan Nama apa pun

Jenis akun penyimpanan LRS Standar
Pastikan Pemberitahuan AI yang Bertanggung Jawab diperiksa. Lalu, pilih Tinjau + buat di bagian bawah halaman, kemudian pilih Buat.

Nilai akun penyimpanan	Nilai yang direkomendasikan
Nama akun penyimpanan	Nama apa pun
Jenis akun penyimpanan	LRS Standar

Unggah data sampel ke kontainer blob

Setelah Anda membuat akun penyimpanan Azure dan menghubungkannya ke sumber daya Bahasa, Anda perlu mengunggah dokumen dari himpunan data sampel ke direktori akar kontainer Anda. Dokumen ini akan digunakan untuk melatih model Anda.

Unduh kumpulan data sampel dari GitHub.
Buka file .zip, dan ekstrak folder yang berisi dokumen.
Di portal Azure, buka akun penyimpanan yang Anda buat, dan pilih.
Di akun penyimpanan Anda, pilih Kontainer dari menu kiri, yang terletak di bawah Penyimpanan data. Pada layar yang muncul, pilih + Kontainer. Beri kontainer nama contoh-data dan tinggalkan Tingkat akses publik default.
Setelah kontainer Anda dibuat, pilih itu. Lalu pilih tombol Unggah untuk memilih file dan .json yang .txt Anda unduh sebelumnya.

Himpunan data sampel yang disediakan berisi 20 perjanjian pinjaman. Setiap perjanjian menyertakan dua pihak: peminjam dan pemberi pinjaman. Anda dapat menggunakan file sampel yang disediakan untuk mengekstrak informasi yang relevan untuk: kedua belah pihak, tanggal perjanjian, jumlah pinjaman, dan suku bunga.

Membuat proyek pengenalan entitas karakter kustom

Setelah akun sumber daya dan penyimpanan Anda dikonfigurasi, buat proyek NER kustom baru. Proyek adalah area kerja untuk membuat model ML kustom berdasarkan data Anda. Proyek Anda hanya dapat diakses oleh Anda dan orang lain yang memiliki akses ke sumber daya Bahasa yang digunakan.

Masuk ke Studio Bahasa. Sebuah jendela akan muncul yang memungkinkan Anda memilih langganan dan sumber daya Language. Pilih sumber daya yang Anda buat pada langkah di atas.
Di bawah bagian Ekstrak informasi dari Language Studio, pilih Pengenalan entitas bernama kustom.
Pilih Buat proyek baru dari menu atas di halaman proyek Anda. Membuat proyek akan memungkinkan Anda memberi tag pada data, melatih, mengevaluasi, meningkatkan, dan menyebarkan model Anda.
Setelah Anda mengeklik, Buat proyek baru, layar akan muncul untuk memungkinkan Anda menghubungkan akun penyimpanan Anda. Jika Anda sudah menyambungkan akun penyimpanan, Anda akan melihat akun penyimpanan tersambung. Jika tidak, pilih akun penyimpanan Anda dari menu dropdown yang muncul dan pilih akun penyimpanan Koneksi; ini akan mengatur peran yang diperlukan untuk akun penyimpanan Anda. Langkah ini mungkin akan mengembalikan kesalahan jika Anda tidak ditetapkan sebagai pemilik di akun penyimpanan.
Catatan
- Anda hanya perlu melakukan langkah ini sekali untuk setiap sumber daya baru yang Anda gunakan.
- Proses ini tidak dapat diubah, jika Anda menghubungkan akun penyimpanan ke sumber daya Bahasa, Anda tidak dapat memutuskannya nanti.
- Anda hanya dapat menghubungkan sumber daya Bahasa Anda ke satu akun penyimpanan.
Masukkan informasi proyek, termasuk nama, deskripsi, dan bahasa pemrogram file dalam proyek Anda. Jika Anda menggunakan contoh himpunan data, pilih Bahasa Inggris. Anda tidak akan dapat mengubah nama proyek Anda nanti. Pilih Selanjutnya

Tip

Himpunan data Anda tidak harus sepenuhnya dalam bahasa pemrogram yang sama. Anda dapat memiliki beberapa dokumen, masing-masing dengan bahasa yang didukung berbeda. Jika himpunan data Anda berisi dokumen dari bahasa yang berbeda atau jika Anda mengharapkan teks dari bahasa yang berbeda selama waktu proses, pilih opsi aktifkan himpunan data multi-bahasa saat Anda memasukkan informasi dasar untuk proyek Anda. Opsi ini dapat diaktifkan nanti dari halaman Pengaturan proyek.
Pilih kontainer tempat Anda mengunggah himpunan data Anda. Jika Anda telah melabeli data pastikan data mengikuti format yang didukung dan memilih Ya, file saya sudah diberi label dan saya telah memformat file label JSON dan memilih file label dari menu drop-down. Pilih Selanjutnya.
Tinjau data yang Anda masukkan dan pilih Buat Project.

Melatih model

Biasanya setelah Anda membuat proyek, Anda melanjutkan dan mulai memberi tag dokumen yang Anda miliki di kontainer yang terhubung ke proyek Anda. Untuk mulai cepat ini, Anda sudah mengimpor sampel himpunan data yang ditandai dan menginisialisasi proyek Anda dengan sampel file tag JSON.

Untuk mulai melatih model Anda dari dalam Language Studio:

Pilih Pekerjaan pelatihan dari menu sebelah kiri.
Pilih Mulai pekerjaan pelatihan dari menu atas.
Pilih Latih model baru dan ketik nama model di kotak teks. Anda juga dapat menimpa model yang ada dengan memilih opsi ini dan memilih model yang ingin Anda timpa dari menu drop-down. Menimpa model terlatih tidak dapat diubah, tetapi tidak akan memengaruhi model yang Anda sebarkan hingga Anda menyebarkan model baru.
Pilih metode pemisahan data. Anda dapat memilih Memisahkan set pengujian secara otomatis dari data pelatihan di mana sistem akan membagi data berlabel Anda antara set pelatihan dan pengujian, sesuai dengan persentase yang ditentukan. Atau Anda dapat Menggunakan pemisahan manual data pelatihan dan pengujian, opsi ini hanya diaktifkan jika Anda telah menambahkan dokumen ke set pengujian Anda selama pelabelan data. Lihat Cara melatih model untuk informasi tentang pemisahan data.
Pilih tombol Latih.
Jika Anda memilih ID Pekerjaan Pelatihan dari daftar, panel samping akan muncul di mana Anda dapat memeriksa kemajuan Pelatihan, Status pekerjaan, dan detail lainnya untuk pekerjaan ini.
Catatan
- Hanya pekerjaan pelatihan yang berhasil diselesaikan yang akan menghasilkan model.
- Pelatihan dapat memakan waktu antara beberapa menit dan beberapa jam berdasarkan ukuran data berlabel Anda.
- Anda hanya dapat memiliki satu pekerjaan pelatihan yang berjalan pada satu waktu. Anda tidak dapat memulai pekerjaan pelatihan lain dalam proyek yang sama sampai pekerjaan yang sedang berjalan selesai.

Sebarkan model anda

Biasanya setelah melatih model, Anda akan meninjau detail evaluasi dan melakukan peningkatan jika perlu. Dalam mulai cepat ini, Anda akan menyebarkan model dan membuatnya tersedia untuk dicoba di Language Studio, atau Anda dapat memanggil API prediksi.

Untuk menyebarkan model Anda dari dalam Language Studio:

Pilih Menyebarkan model dari menu sebelah kiri.
Pilih Tambahkan penyebaran untuk memulai pekerjaan penyebaran baru.
Pilih Buat penyebaran baru untuk membuat penyebaran baru dan tetapkan model terlatih dari menu drop-down di bawah ini. Anda juga dapat Menimpa penyebaran yang ada dengan memilih opsi ini dan memilih model terlatih yang ingin Anda tetapkan dari menu drop-down di bawah ini.

Catatan

Menimpa penyebaran yang ada tidak memerlukan perubahan pada panggilan API prediksi Anda tetapi hasil yang Anda dapatkan akan didasarkan pada model yang baru ditetapkan.
Pilih Sebarkan untuk memulai pekerjaan penyebaran.
Setelah penyebaran berhasil, tanggal kedaluwarsa akan muncul di sampingnya. Kedaluwarsa penyebaran adalah ketika model yang Anda sebarkan tidak akan tersedia untuk digunakan untuk prediksi, yang biasanya terjadi dua belas bulan setelah konfigurasi pelatihan kedaluwarsa.

Uji model Anda

Setelah model disebarkan, Anda dapat mulai menggunakannya untuk mengekstrak entitas dari teks Anda melalui API Prediksi. Untuk mulai cepat ini, Anda akan menggunakan Language Studio untuk mengirimkan teks tugas pengenalan entitas kustom dan memvisualisasikan hasilnya. Dalam himpunan data sampel yang Anda unduh sebelumnya, Anda dapat menemukan beberapa dokumen pengujian yang dapat Anda gunakan dalam langkah ini.

Untuk menguji model disebarkan dari dalam Language Studio:

Pilih Menguji penyebaran dari menu sebelah kiri.
Pilih penyebaran yang ingin Anda uji. Anda hanya dapat menguji model yang ditetapkan untuk penyebaran.
Untuk proyek multi-bahasa, dari menu dropdown bahasa, pilih bahasa teks yang sedang Anda uji.
Pilih penyebaran yang ingin Anda kueri/uji dari menu dropdown.
Anda dapat memasukkan teks yang ingin dikirimkan ke permintaan atau unggah file .txt yang akan digunakan.
Pilih Jalankan pengujian dari menu atas.
Di tab Hasil, Anda dapat melihat entitas yang diekstraksi dari teks dan jenisnya. Anda juga dapat melihat respons JSON pada tab JSON.

Membersihkan sumber daya

Jika Anda tidak memerlukan proyek lagi, Anda dapat menghapus proyek menggunakan Language Studio. Pilih Pengenalan entitas bernama kustom (NER) dari bagian atas, pilih proyek yang ingin Anda hapus, lalu pilih Hapus dari menu atas.

Prasyarat

Langganan Azure - Buat langganan secara gratis

Membuat sumber daya Bahasa Azure AI baru dan akun penyimpanan Azure

Penting

Untuk memulai dengan cepat, sebaiknya buat sumber daya Bahasa Azure AI baru menggunakan langkah-langkah yang disediakan dalam artikel ini, yang akan memungkinkan Anda membuat sumber daya Bahasa, dan membuat dan/atau menghubungkan akun penyimpanan secara bersamaan, yang lebih mudah daripada melakukannya nanti.

Jika Anda memiliki sumber daya yang sudah ada sebelumnya yang ingin digunakan, Anda harus menghubungkannya ke akun penyimpanan. Lihat membuat proyek untuk informasi.

Buat sumber daya baru menggunakan portal Microsoft Azure

Masuk ke portal Azure untuk membuat sumber daya Bahasa Azure AI baru.
Di jendela yang muncul, pilih Klasifikasi teks kustom & pengenalan entitas bernama kustom dari fitur kustom. Pilih Lanjutkan untuk membuat sumber daya Anda di bagian bawah layar.

Buat sumber daya Bahasa dengan detail berikut.

Nama	Deskripsi
Langganan	Langganan Azure Anda.
Grup sumber daya	Grup sumber daya yang akan berisi sumber daya Anda. Anda dapat menggunakan ruang kerja yang sudah ada atau membuat baru.
Wilayah	Wilayah sumber daya Bahasa Anda. Misalnya, "US Barat 2".
Nama	Nama sumber daya Anda.
Tingkatan harga	Tingkat harga untuk sumber daya Bahasa Anda. Anda dapat menggunakan tingkat Gratis (F0) untuk mencoba layanan.

Catatan

Di bagian Klasifikasi teks kustom & pengenalan entitas bernama kustom, pilih akun penyimpanan yang sudah ada atau pilih Akun penyimpanan baru. Nilai ini untuk membantu Anda memulai, dan belum tentu menjadi nilai akun penyimpanan yang ingin Anda gunakan di lingkungan produksi. Untuk menghindari latensi selama membangun proyek Anda, sambungkan ke akun penyimpanan di wilayah yang sama dengan sumber daya Bahasa Anda.

Nilai akun penyimpanan Nilai yang direkomendasikan

Nama akun penyimpanan Nama apa pun

Jenis akun penyimpanan LRS Standar
Pastikan Pemberitahuan AI yang Bertanggung Jawab diperiksa. Lalu, pilih Tinjau + buat di bagian bawah halaman, kemudian pilih Buat.

Nilai akun penyimpanan	Nilai yang direkomendasikan
Nama akun penyimpanan	Nama apa pun
Jenis akun penyimpanan	LRS Standar

Unggah data sampel ke kontainer blob

Unduh kumpulan data sampel dari GitHub.
Buka file .zip, dan ekstrak folder yang berisi dokumen.
Di portal Azure, buka akun penyimpanan yang Anda buat, dan pilih.
Di akun penyimpanan Anda, pilih Kontainer dari menu kiri, yang terletak di bawah Penyimpanan data. Pada layar yang muncul, pilih + Kontainer. Beri kontainer nama contoh-data dan tinggalkan Tingkat akses publik default.
Setelah kontainer Anda dibuat, pilih itu. Lalu pilih tombol Unggah untuk memilih file dan .json yang .txt Anda unduh sebelumnya.

Dapatkan kunci sumber daya dan titik akhir Anda

Buka halaman gambaran umum sumber daya Anda di portal Microsoft Azure
Dari menu sebelah kiri, pilih Kunci dan Titik Akhir. Anda akan menggunakan titik akhir dan kunci untuk permintaan API

Buat proyek NER kustom

Gunakan file tag yang Anda unduh dari data sampel pada langkah sebelumnya dan tambahkan ke isi permintaan berikut.

Memicu pekerjaan proyek impor

Kirim permintaan POST menggunakan URL, header, dan isi JSON berikut untuk mengimpor file label Anda. Pastikan file label Anda mengikuti format yang diterima.

Jika sebuah proyek dengan nama yang sama sudah ada, data proyek tersebut diganti.

{Endpoint}/language/authoring/analyze-text/projects/{projectName}/:import?api-version={API-VERSION}

Placeholder	Value	Contoh
`{ENDPOINT}`	Titik akhir untuk mengautentikasi permintaan API Anda.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nama untuk proyek Anda. Nilai ini peka huruf besar/kecil.	`myProject`
`{API-VERSION}`	Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Lihat Siklus hidup model untuk mempelajari selengkapnya tentang versi API lain yang tersedia.	`2022-05-01`

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Tombol	Nilai
`Ocp-Apim-Subscription-Key`	Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Isi

Gunakan JSON berikut dalam permintaan Anda. Ganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

{
    "projectFileVersion": "{API-VERSION}",
    "stringIndexType": "Utf16CodeUnit",
    "metadata": {
        "projectName": "{PROJECT-NAME}",
        "projectKind": "CustomEntityRecognition",
        "description": "Trying out custom NER",
        "language": "{LANGUAGE-CODE}",
        "multilingual": true,
        "storageInputContainerName": "{CONTAINER-NAME}",
        "settings": {}
    },
    "assets": {
    "projectKind": "CustomEntityRecognition",
        "entities": [
            {
                "category": "Entity1"
            },
            {
                "category": "Entity2"
            }
        ],
        "documents": [
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "entities": [
                    {
                        "regionOffset": 0,
                        "regionLength": 500,
                        "labels": [
                            {
                                "category": "Entity1",
                                "offset": 25,
                                "length": 10
                            },
                            {
                                "category": "Entity2",
                                "offset": 120,
                                "length": 8
                            }
                        ]
                    }
                ]
            },
            {
                "location": "{DOCUMENT-NAME}",
                "language": "{LANGUAGE-CODE}",
                "dataset": "{DATASET}",
                "entities": [
                    {
                        "regionOffset": 0,
                        "regionLength": 100,
                        "labels": [
                            {
                                "category": "Entity2",
                                "offset": 20,
                                "length": 5
                            }
                        ]
                    }
                ]
            }
        ]
    }
}

Tombol	Placeholder	Value	Contoh
`api-version`	`{API-VERSION}`	Versi API yang Anda panggil. Versi yang digunakan di sini harus versi API yang sama dengan di URL. Pelajari selengkapnya tentang versi API lain yang tersedia	`2022-03-01-preview`
`projectName`	`{PROJECT-NAME}`	Nama proyek Anda. Nilai ini peka huruf besar/kecil.	`myProject`
`projectKind`	`CustomEntityRecognition`	Jenis proyek Anda.	`CustomEntityRecognition`
`language`	`{LANGUAGE-CODE}`	String yang menentukan kode bahasa untuk dokumen yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multibahasa, pilih kode bahasa dari sebagian besar dokumen.	`en-us`
`multilingual`	`true`	Nilai boolean yang memungkinkan Anda memiliki dokumen dalam beberapa bahasa dalam kumpulan data Anda dan ketika model Anda disebarkan, Anda dapat membuat kueri model dalam bahasa apa pun yang didukung (tidak harus disertakan dalam dokumen pelatihan Anda. Lihat dukungan bahasa untuk informasi tentang dukungan multi-bahasa.	`true`
`storageInputContainerName`	{CONTAINER-NAME}	Nama kontainer penyimpanan Azure tempat Anda mengunggah dokumen.	`myContainer`
`entities`		Array yang berisi semua jenis entitas yang Anda miliki dalam proyek. Ini adalah jenis entitas yang akan diekstraksi dari dokumen Anda.
`documents`		Array yang berisi semua dokumen dalam proyek Anda dan daftar entitas yang diberi label dalam setiap dokumen.	[]
`location`	`{DOCUMENT-NAME}`	Lokasi dokumen dalam kontainer penyimpanan. Karena semua dokumen berada di akar kontainer, ini akan menjadi nama dokumen.	`doc1.txt`
`dataset`	`{DATASET}`	Set pengujian yang akan digunakan file ini ketika dibagi sebelum pelatihan. Lihat Cara melatih model untuk informasi selengkapnya tentang bagaimana data Anda dipisahkan. Nilai yang mungkin untuk bidang ini adalah `Train` dan `Test`.	`Train`

Setelah mengirim permintaan API, Anda akan menerima respons 202 yang menunjukkan bahwa pekerjaan telah dikirimkan dengan benar. Di header respons, ekstrak nilai operation-location. Nilai ini akan diformat seperti ini:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/import/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} digunakan untuk mengidentifikasi permintaan Anda, karena operasi ini tidak asinkron. Anda akan menggunakan URL ini untuk mendapatkan status pekerjaan impor.

Kemungkinan skenario kesalahan untuk permintaan ini:

Sumber daya yang dipilih tidak memiliki izin yang sesuai untuk akun penyimpanan.
storageInputContainerName yang ditentukan tidak ada.
Kode bahasa tidak valid digunakan, atau jika jenis kode bahasa bukan string.
Nilai multilingual adalah string dan bukan boolean.

Mendapatkan status pekerjaan impor

Gunakan permintaan GET berikut untuk mendapatkan status impor proyek Anda. Ganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

Minta URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/import/jobs/{JOB-ID}?api-version={API-VERSION}

Placeholder	Value	Contoh
`{ENDPOINT}`	Titik akhir untuk mengautentikasi permintaan API Anda.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nama proyek Anda. Nilai ini peka huruf besar/kecil.	`myProject`
`{JOB-ID}`	ID untuk menemukan status pelatihan model Anda. Nilai ini ada di nilai header `location` yang Anda terima pada langkah sebelumnya.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Lihat Siklus hidup model untuk mempelajari selengkapnya tentang versi API lain yang tersedia.	`2022-05-01`

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Tombol	Nilai
`Ocp-Apim-Subscription-Key`	Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Melatih model

Mulai pekerjaan pelatihan

Setelah proyek Anda diimpor, Anda dapat mulai melatih model Anda.

Kirim permintaan POST menggunakan URL, header, dan isi JSON berikut untuk mengirimkan pekerjaan pelatihan. Ganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Placeholder	Value	Contoh
`{ENDPOINT}`	Titik akhir untuk mengautentikasi permintaan API Anda.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nama proyek Anda. Nilai ini peka huruf besar/kecil.	`myProject`
`{API-VERSION}`	Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Lihat Siklus hidup model untuk mempelajari selengkapnya tentang versi API lain yang tersedia.	`2022-05-01`

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Tombol	Nilai
`Ocp-Apim-Subscription-Key`	Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Isi permintaan

Gunakan JSON berikut di isi permintaan Anda. Model akan diberi {MODEL-NAME} setelah pelatihan selesai. Hanya pekerjaan pelatihan yang berhasil yang akan menghasilkan model.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Tombol	Placeholder	Value	Contoh
modelLabel	`{MODEL-NAME}`	Nama model yang akan ditetapkan ke model Anda setelah berhasil dilatih.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Ini adalah versi model yang akan digunakan untuk melatih model.	`2022-05-01`
evaluationOptions		Opsi untuk membagi data Anda di seluruh set pelatihan dan pengujian.	`{}`
jenis	`percentage`	Memisahkan metode. Nilai yang mungkin adalah `percentage` atau `manual`. Lihat Cara melatih model untuk informasi selengkapnya.	`percentage`
trainingSplitPercentage	`80`	Persentase data Anda yang diberi tag untuk disertakan dalam set pelatihan. Nilai yang disarankan adalah `80`.	`80`
testingSplitPercentage	`20`	Persentase data Anda yang diberi tag untuk disertakan dalam set pengujian. Nilai yang disarankan adalah `20`.	`20`

Catatan

trainingSplitPercentage dan testingSplitPercentage hanya diperlukan jika Kind diatur ke percentage dan jumlah kedua persentase harus sama dengan 100.

Setelah mengirim permintaan API, Anda akan menerima respons 202 yang menunjukkan bahwa pekerjaan telah dikirimkan dengan benar. Di header respons, ekstrak nilai location. Nilai ini akan diformat seperti ini:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} digunakan untuk mengidentifikasi permintaan Anda, karena operasi ini tidak asinkron. Anda dapat menggunakan URL ini untuk mendapatkan status pelatihan.

Dapatkan status pekerjaan pelatihan

Pelatihan dapat memakan waktu antara 10 dan 30 menit untuk himpunan data sampel ini. Anda dapat menggunakan permintaan berikut untuk terus melakukan polling status pekerjaan pelatihan hingga berhasil diselesaikan.

Gunakan permintaan GET berikut untuk mendapatkan status kemajuan pelatihan model Anda. Ganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

Minta URL

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Placeholder	Value	Contoh
`{ENDPOINT}`	Titik akhir untuk mengautentikasi permintaan API Anda.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nama proyek Anda. Nilai ini peka huruf besar/kecil.	`myProject`
`{JOB-ID}`	ID untuk menemukan status pelatihan model Anda. Nilai ini ada di nilai header `location` yang Anda terima pada langkah sebelumnya.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Lihat Siklus hidup model untuk mempelajari selengkapnya tentang versi API lain yang tersedia.	`2022-05-01`

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Tombol	Nilai
`Ocp-Apim-Subscription-Key`	Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Isi Respons

Setelah mengirim permintaan, Anda akan mendapatkan respons berikut.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Sebarkan model anda

Biasanya setelah melatih model, Anda akan meninjau detail evaluasi dan melakukan perbaikan jika perlu. Dalam mulai cepat ini, Anda hanya akan menyebarkan model Anda, dan membuatnya tersedia untuk Anda coba di Language Studio, atau Anda dapat memanggil API prediksi.

Mulai pekerjaan penyebaran

Kirim permintaan PUT menggunakan URL, header, dan isi JSON berikut untuk mengirimkan tugas penyebaran. Ganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

{Endpoint}/language/authoring/analyze-text/projects/{projectName}/deployments/{deploymentName}?api-version={API-VERSION}

Placeholder	Value	Contoh
`{ENDPOINT}`	Titik akhir untuk mengautentikasi permintaan API Anda.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nama proyek Anda. Nilai ini peka huruf besar/kecil.	`myProject`
`{DEPLOYMENT-NAME}`	Nama penyebaran Anda. Nilai ini peka huruf besar/kecil.	`staging`
`{API-VERSION}`	Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Lihat Siklus hidup model untuk mempelajari selengkapnya tentang versi API lain yang tersedia.	`2022-05-01`

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Tombol	Nilai
`Ocp-Apim-Subscription-Key`	Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Isi permintaan

Gunakan JSON berikut dalam isi permintaan Anda. Gunakan nama model yang akan Anda tetapkan ke penyebaran.

{
  "trainedModelLabel": "{MODEL-NAME}"
}

Tombol	Placeholder	Value	Contoh
trainedModelLabel	`{MODEL-NAME}`	Nama model yang akan ditetapkan ke penyebaran Anda. Anda hanya dapat menetapkan model yang berhasil dilatih. Nilai ini peka huruf besar/kecil.	`myModel`

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/deployments/{DEPLOYMENT-NAME}/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} digunakan untuk mengidentifikasi permintaan Anda, karena operasi ini tidak asinkron. Anda dapat menggunakan URL ini untuk mendapatkan status penyebaran.

Dapatkan status pekerjaan penyebaran

Gunakan permintaan GET berikut untuk menanyakan status tugas penyebaran. Anda dapat menggunakan URL yang Anda terima dari langkah sebelumnya, atau mengganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/deployments/{DEPLOYMENT-NAME}/jobs/{JOB-ID}?api-version={API-VERSION}

Placeholder	Value	Contoh
`{ENDPOINT}`	Titik akhir untuk mengautentikasi permintaan API Anda.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nama proyek Anda. Nilai ini peka huruf besar/kecil.	`myProject`
`{DEPLOYMENT-NAME}`	Nama penyebaran Anda. Nilai ini peka huruf besar/kecil.	`staging`
`{JOB-ID}`	ID untuk menemukan status pelatihan model Anda. Ini ada dalam nilai header `location` yang Anda terima di langkah sebelumnya.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Lihat Siklus hidup model untuk mempelajari selengkapnya tentang versi API lain yang tersedia.	`2022-05-01`

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Tombol	Nilai
`Ocp-Apim-Subscription-Key`	Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Isi Respons

Setelah mengirim permintaan, Anda akan mendapatkan respons berikut. Pertahankan polling titik akhir ini sampai parameter status berubah menjadi "berhasil". Anda harus mendapatkan 200 kode untuk menunjukkan keberhasilan permintaan.

{
    "jobId":"{JOB-ID}",
    "createdDateTime":"{CREATED-TIME}",
    "lastUpdatedDateTime":"{UPDATED-TIME}",
    "expirationDateTime":"{EXPIRATION-TIME}",
    "status":"running"
}

Mengekstrak entitas kustom

Setelah model disebarkan, Anda dapat mulai menggunakannya untuk mengekstrak entitas dari teks Anda menggunakan API prediksi. Dalam himpunan data sampel yang Anda unduh sebelumnya, Anda dapat menemukan beberapa dokumen pengujian yang dapat Anda gunakan pada langkah ini.

Kirimkan tugas NER kustom

Gunakan permintaan POST ini untuk memulai tugas klasifikasi teks.

{ENDPOINT}/language/analyze-text/jobs?api-version={API-VERSION}

Placeholder	Value	Contoh
`{ENDPOINT}`	Titik akhir untuk mengautentikasi permintaan API Anda.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{API-VERSION}`	Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Lihat Siklus hidup model untuk mempelajari selengkapnya tentang versi API lain yang tersedia.	`2022-05-01`

Header

Tombol	Nilai
Ocp-Apim-Subscription-Key	Kunci Anda yang menyediakan akses menuju API ini.

Isi

{
  "displayName": "Extracting entities",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "{LANGUAGE-CODE}",
        "text": "Text1"
      },
      {
        "id": "2",
        "language": "{LANGUAGE-CODE}",
        "text": "Text2"
      }
    ]
  },
  "tasks": [
     {
      "kind": "CustomEntityRecognition",
      "taskName": "Entity Recognition",
      "parameters": {
        "projectName": "{PROJECT-NAME}",
        "deploymentName": "{DEPLOYMENT-NAME}"
      }
    }
  ]
}

Tombol	Placeholder	Value	Contoh
`displayName`	`{JOB-NAME}`	Nama pekerjaan Anda.	`MyJobName`
`documents`	[{},{}]	Daftar dokumen untuk menjalankan tugas.	`[{},{}]`
`id`	`{DOC-ID}`	ID atau nama dokumen.	`doc1`
`language`	`{LANGUAGE-CODE}`	String yang menentukan kode bahasa untuk dokumen. Jika kunci ini tidak ditentukan, layanan akan menggunakan bahasa default proyek yang dipilih saat pembuatan proyek. Lihat dukungan bahasa untuk daftar kode bahasa yang didukung.	`en-us`
`text`	`{DOC-TEXT}`	Tugas dokumen untuk menjalankan tugas.	`Lorem ipsum dolor sit amet`
`tasks`		Daftar tugas yang ingin kami jalankan.	`[]`
`taskName`	`CustomEntityRecognition`	Nama tugas	CustomEntityRecognition
`parameters`		Daftar parameter untuk diteruskan ke tugas.
`project-name`	`{PROJECT-NAME}`	Nama untuk proyek Anda. Nilai ini peka huruf besar/kecil.	`myProject`
`deployment-name`	`{DEPLOYMENT-NAME}`	Nama penyebaran Anda. Nilai ini peka huruf besar/kecil.	`prod`

Respons

Anda akan menerima respons 202 yang menunjukkan bahwa tugas Anda telah berhasil dikirimkan. Di header respons, ekstrak operation-location. operation-location diformat sebagai berikut:

{ENDPOINT}/language/analyze-text/jobs/{JOB-ID}?api-version={API-VERSION}

Anda dapat menggunakan URL ini untuk mengkueri status penyelesaian tugas dan mendapatkan hasil saat tugas selesai.

Mendapatkan hasil tugas

Gunakan permintaan GET berikut untuk mengkueri status/hasil tugas pengenalan entitas kustom.

{ENDPOINT}/language/analyze-text/jobs/{JOB-ID}?api-version={API-VERSION}

Placeholder	Value	Contoh
`{ENDPOINT}`	Titik akhir untuk mengautentikasi permintaan API Anda.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{API-VERSION}`	Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Lihat Siklus hidup model untuk mempelajari selengkapnya tentang versi API lain yang tersedia.	`2022-05-01`

Header

Tombol	Nilai
Ocp-Apim-Subscription-Key	Kunci Anda yang menyediakan akses menuju API ini.

Isi Respons

Respons akan menjadi dokumen JSON dengan parameter berikut

{
  "createdDateTime": "2021-05-19T14:32:25.578Z",
  "displayName": "MyJobName",
  "expirationDateTime": "2021-05-19T14:32:25.578Z",
  "jobId": "xxxx-xxxx-xxxxx-xxxxx",
  "lastUpdateDateTime": "2021-05-19T14:32:25.578Z",
  "status": "succeeded",
  "tasks": {
    "completed": 1,
    "failed": 0,
    "inProgress": 0,
    "total": 1,
    "items": [
      {
        "kind": "EntityRecognitionLROResults",
        "taskName": "Recognize Entities",
        "lastUpdateDateTime": "2020-10-01T15:01:03Z",
        "status": "succeeded",
        "results": {
          "documents": [
            {
              "entities": [
                {
                  "category": "Event",
                  "confidenceScore": 0.61,
                  "length": 4,
                  "offset": 18,
                  "text": "trip"
                },
                {
                  "category": "Location",
                  "confidenceScore": 0.82,
                  "length": 7,
                  "offset": 26,
                  "subcategory": "GPE",
                  "text": "Seattle"
                },
                {
                  "category": "DateTime",
                  "confidenceScore": 0.8,
                  "length": 9,
                  "offset": 34,
                  "subcategory": "DateRange",
                  "text": "last week"
                }
              ],
              "id": "1",
              "warnings": []
            }
          ],
          "errors": [],
          "modelVersion": "2020-04-01"
        }
      }
    ]
  }
}

Membersihkan sumber daya

Saat tidak lagi membutuhkan proyek, Anda dapat menghapusnya dengan permintaan DELETE berikut. Ganti nilai tempat penampung dengan nilai Anda sendiri.

{Endpoint}/language/authoring/analyze-text/projects/{projectName}?api-version={API-VERSION}

Placeholder	Value	Contoh
`{ENDPOINT}`	Titik akhir untuk mengautentikasi permintaan API Anda.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nama untuk proyek Anda. Nilai ini peka huruf besar/kecil.	`myProject`
`{API-VERSION}`	Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Lihat Siklus hidup model untuk mempelajari selengkapnya tentang versi API lain yang tersedia.	`2022-05-01`

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Tombol	Nilai
Ocp-Apim-Subscription-Key	Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Setelah mengirim permintaan API, Anda akan menerima respons 202 yang menunjukkan keberhasilan, yang berarti proyek Anda telah dihapus. Hasil call yang sukses dengan header Operasi-Lokasi yang digunakan untuk memeriksa status pekerjaan.

Langkah berikutnya

Setelah membuat model ekstraksi entitas, Anda dapat:

Gunakan API Runtime untuk mengekstrak entitas

Ketika Anda mulai membuat proyek NER kustom Anda sendiri, gunakan artikel petunjuk untuk mempelajari selengkapnya tentang memberi tag, melatih dan menggunakan model Anda secara lebih detail:

Mulai Cepat: Pengenalan entitas bernama kustom

Prasyarat

Membuat sumber daya Bahasa Azure AI baru dan akun penyimpanan Azure

Buat sumber daya baru menggunakan portal Microsoft Azure

Unggah data sampel ke kontainer blob

Membuat proyek pengenalan entitas karakter kustom

Melatih model

Sebarkan model anda

Uji model Anda

Membersihkan sumber daya

Prasyarat

Membuat sumber daya Bahasa Azure AI baru dan akun penyimpanan Azure

Buat sumber daya baru menggunakan portal Microsoft Azure

Unggah data sampel ke kontainer blob

Dapatkan kunci sumber daya dan titik akhir Anda

Buat proyek NER kustom

Memicu pekerjaan proyek impor

Header

Isi

Mendapatkan status pekerjaan impor

Minta URL

Header

Melatih model

Mulai pekerjaan pelatihan

Header

Isi permintaan

Dapatkan status pekerjaan pelatihan

Minta URL

Header

Isi Respons

Sebarkan model anda

Mulai pekerjaan penyebaran

Header

Isi permintaan

Dapatkan status pekerjaan penyebaran

Header

Isi Respons

Mengekstrak entitas kustom

Kirimkan tugas NER kustom

Header

Isi

Respons

Mendapatkan hasil tugas

Header

Isi Respons

Membersihkan sumber daya

Header

Langkah berikutnya

Sumber Daya Tambahan: