Catatan transparansi: Pemahaman Konten Azure pada Alat-Alat Foundry

Penting

Terjemahan non-bahasa Inggris disediakan hanya untuk kenyamanan. Silakan lihat EN-US versi dokumen ini untuk versi definitif.

Apa itu Catatan Transparansi?

Sistem AI tidak hanya mencakup teknologi, tetapi juga orang-orang yang akan menggunakannya, orang-orang yang akan terpengaruh olehnya, dan lingkungan tempatnya disebarkan. Menciptakan sistem yang sesuai dengan tujuan yang dimaksudkan membutuhkan pemahaman tentang cara kerja teknologi, kemampuan dan batasannya, dan cara mencapai performa terbaik. Catatan Transparansi Microsoft dimaksudkan untuk membantu Anda memahami cara kerja teknologi AI kami, pilihan yang dapat dibuat pemilik sistem yang memengaruhi performa dan perilaku sistem, dan pentingnya memikirkan seluruh sistem, termasuk teknologi, orang-orang, dan lingkungan. Anda dapat menggunakan Catatan Transparansi saat mengembangkan atau menyebarkan sistem Anda sendiri atau membagikannya dengan orang-orang yang akan menggunakan atau terpengaruh oleh sistem Anda.

Catatan Transparansi Microsoft adalah bagian dari upaya yang lebih luas pada Microsoft untuk mempraktikkan Prinsip AI kami. Untuk mengetahui lebih lanjut, lihat prinsip AI Microsoft.

Dasar-dasar Pemahaman Konten Azure

Pengenalan

Pemahaman Konten menyerap konten yang tidak terstruktur dalam modalitas apa pun seperti dokumen, gambar, video, dan audio untuk menghasilkan output terstruktur dari skema bawaan atau yang ditentukan pengguna untuk paling mewakili skenario spesifik tugas dari konten. Output ini kemudian dapat dikonsumsi oleh aplikasi hilir, seperti menyimpannya dalam database, mengirim output ke sistem yang dikembangkan pelanggan untuk penalaran dengan LLM (yaitu, Pengambilan Augmented Generation atau RAG), membangun model AI/ML tertentu pada data, atau digunakan dalam alur kerja untuk mengotomatiskan proses bisnis. Pemahaman Konten akan memperluas cakupan Azure Kecerdasan Dokumen di Foundry Tools dan memanfaatkan kemampuan dari Azure Open Foundry Tool, Azure Speech di Foundry Tools, dan Azure Vision di Foundry Tools untuk mendukung skenario modal tunggal dan multimodal.

Istilah kunci

Istilah Definisi
Mengklasifikasikan Ini adalah jenis tipe bidang. Bidang akan mengklasifikasikan nilai dari data input menggunakan nama bidang. Contohnya adalah mengklasifikasikan apakah gambar memiliki cacat, atau wajah memiliki kacamata atau tidak.
Nilai keyakinan Semua output Content Understanding mengembalikan nilai keyakinan dalam rentang antara 0 dan 1 untuk semua kata yang diekstrak dan pemetaan nilai kunci. Nilai ini menunjukkan persentase perkiraan berapa kali nilai tersebut mengekstrak kata dengan benar dari 100 atau memetakan pasangan kunci-nilai dengan benar. Misalnya, kata yang diperkirakan diekstraksi dengan benar 82% waktu menghasilkan nilai keyakinan 0,82.
Diarisasi Diarisasi membedakan antara pembicara individual di setiap rekaman audio dengan menetapkan label anonim sementara ke setiap pembicara (misalnya, GUEST1, GUEST2, GUEST3, dll.) untuk menunjukkan pembicara mana yang berbicara dalam file audio.

Semua CONTENT Understanding API yang mendukung transkripsi juga mendukung diarisasi.
Ekstrak Ini adalah jenis tipe bidang. Bidang akan langsung mengekstrak nilai dari data input. Contohnya adalah mengekstrak tanggal dari faktur atau tanda tangan dari dokumen.
Deteksi wajah Menemukan wajah manusia dalam gambar dan mengembalikan kotak pembatas yang menunjukkan lokasi wajah. Model deteksi wajah tidak menemukan fitur identifikasi individu, hanya kotak pembatas yang menandai seluruh wajah. Untuk semua wajah yang terdeteksi, FACE ID ditetapkan berdasarkan penyematan. Silakan merujuk ke dokumentasi konsep Deteksi wajah untuk informasi lebih lanjut.
Pengelompokan wajah Setelah wajah terdeteksi, wajah yang diidentifikasi difilter ke dalam grup lokal. Jika seseorang terdeteksi lebih dari sekali, instans wajah yang lebih diamati dibuat untuk orang ini. Silakan lihat [Dokumentasi pengelompokan wajah](/azure/ai-services/computer-vision/overview-identity" \l "group-faces) untuk informasi selengkapnya.
Menghasilkan Ini adalah jenis tipe bidang. Bidang akan menghasilkan nilai dari konten bidang induk. Contohnya adalah menghasilkan deskripsi adegan dari video atau meringkas dari audio panggilan.
Skema Skema adalah istilah yang kami gunakan untuk nama bidang dan deskripsi yang perlu disediakan pelanggan bagi kami untuk mengekstrak nilai dari input. Pemahaman Konten menyediakan sekumpulan skema bawaan agar sesuai dengan skenario Anda. Bergantung pada skenarionya, Pemahaman Konten memiliki daftar bidang yang telah ditentukan sebelumnya yang akan diisi berdasarkan input. Anda dapat menggunakan skema bawaan ini untuk memulai proyek Anda lebih cepat tanpa harus menentukan bidang sendiri.
Transkripsi Fitur pengubahan ucapan ke teks secara otomatis dari Content Understanding, yang kadang disebut transkripsi mesin atau pengenalan ucapan otomatis (ASR). Transkripsi menggunakan Azure Speech dan sepenuhnya otomatis. Semua CONTENT Understanding API yang mendukung transkripsi juga mendukung diarisasi.

Kemampuan

Perilaku sistem

Content Understanding adalah Foundry Tool berbasis cloud yang menggunakan berbagai model AI/ML (seperti yang tersedia melalui Azure OpenAI Service, Wajah Azure Service, dan Azure Speech) untuk mengekstrak, mengklasifikasikan, dan menghasilkan bidang dari file input pelanggan. Pemahaman Konten tidak mendukung integrasi model apa pun yang dibawa pelanggan.

Pemahaman Konten terlebih dahulu mengekstrak konten ke dalam output terstruktur. Kemudian menggunakan model bahasa besar (LLM) untuk menghasilkan bidang-bidang dan menetapkan skor kepercayaan untuk setiap bidang yang relevan.

Saat ini, Pemahaman Konten dapat menyerap data dari jenis berikut: dokumen, gambar, teks, video, dan audio. Bergantung pada jenis data yang diunggah pengguna, Pemahaman Konten akan secara otomatis menyarankan pengguna skema bawaan umum yang dapat memulai. Pengguna juga memiliki pilihan untuk menyesuaikan skema itu sendiri, memungkinkan kemampuan penyerapan data yang lebih lengkap. Dalam kasus di mana pengguna mengunggah konten berbahaya, Pemahaman Konten akan mengeluarkan peringatan dalam output untuk memberi tahu pengguna bahwa file input berisi konten berbahaya, tetapi masih akan menghasilkan bidang.

Tujuan layanan ini adalah untuk memberikan representasi spesifik tugas yang dinormalisasi dari data input untuk mengaktifkan skenario ekstraktif dan generatif bagi pelanggan sambil memberikan pengalaman yang konsisten di seluruh modalitas. Perhatikan bahwa Pemahaman Konten tidak dimaksudkan untuk mendukung inferensi tanpa dasar, dan hanya akan menghasilkan output berdasarkan informasi dan konteks yang disampaikan oleh pengguna.

Catatan

Wajah kabur

Untuk input ke GPT-4 Turbo dengan Visi dan GPT-4o yang berisi gambar atau video orang, sistem akan terlebih dahulu mengaburkan wajah sebelum diproses untuk mengembalikan hasil yang diminta. Blurring membantu melindungi privasi individu dan grup yang terlibat. Pengaburan gambar seharusnya tidak memengaruhi kualitas penyelesaian Anda, tetapi Anda mungkin melihat sistem menyebut kaburnya wajah dalam beberapa contoh kasus.

Penting

Setiap identifikasi individu bukan hasil pengenalan wajah atau pembuatan dan perbandingan templat wajah. Identifikasi merupakan hasil dari pelatihan model untuk mengaitkan gambar individu dengan nama yang sama melalui penandaan gambar. Dengan demikian, setiap input gambar berikutnya dari individu tersebut oleh model akan dikaitkan dengan nama yang sama. Model ini juga dapat mengambil petunjuk kontekstual selain wajah, yang memungkinkan model masih dapat mengaitkan gambar dengan individu bahkan jika wajah memburam. Misalnya, jika gambar berisi foto atlet populer yang mengenakan jersey tim mereka dan nomor spesifiknya, model masih dapat mendeteksi individu berdasarkan istiadat kontekstual.

Pemfilteran konten

Azure layanan Content Understanding mencakup sistem pemfilteran konten yang mendeteksi dan memblokir kategori tertentu dari konten yang berpotensi berbahaya dalam perintah input dan penyelesaian output. Variasi dalam konfigurasi API dan desain aplikasi dapat memengaruhi penyelesaian dan dengan demikian memfilter perilaku. Pelanggan yang disetujui dapat menyesuaikan sistem pemfilteran konten default Content Understanding untuk membuat anotasi daripada memblokir output yang berpotensi berbahaya.

Catatan

  • Menonaktifkan filter konten dapat mencegah layanan memblokir konten berbahaya secara efektif, termasuk, tetapi tidak terbatas pada, kategori kebencian dan keadilan, seksual, kekerasan, dan bahaya diri. Untuk informasi selengkapnya, lihatPemfilteran konten.

  • Menonaktifkan Indirect Attack Prompt Shield berpotensi mengekspos sistem terhadap kerentanan, di mana pihak ketiga dapat menyematkan instruksi berbahaya dalam dokumen yang dapat diakses dan diproses oleh sistem AI Generatif. Kerentanan analog dapat muncul dari upaya jailbreak yang secara langsung berusaha menghindari dan mengatasi pelindung yang terpasang melalui prompt tertentu.

Akses Terbatas ke Pemahaman Konten

Fitur pengelompokan Wajah di Pemahaman Konten adalah layanan Akses Terbatas dan pendaftaran diperlukan untuk akses ke layanan tersebut. Untuk informasi selengkapnya, lihat Kebijakan Akses Terbatas Microsoft dan mengakses pendaftaran Face API. Fitur tertentu hanya tersedia untuk Microsoft pelanggan terkelola dan mitra yang disetujui, dan hanya untuk kasus penggunaan tertentu yang dipilih pada saat pendaftaran. Perhatikan bahwa deteksi wajah, atribut wajah, dan kasus penggunaan redaksi wajah tidak memerlukan pendaftaran.

Catatan

Pada 11 Juni 2020, Microsoft mengumumkan bahwa mereka tidak akan menjual teknologi pengenalan wajah kepada departemen kepolisian di Amerika Serikat sampai peraturan yang kuat, yang beralasan pada hak asasi manusia, telah diberlakukan. Dengan demikian, pelanggan tidak boleh menggunakan fitur pengenalan wajah atau fungsionalitas yang disertakan dalam Layanan Azure—seperti Face, Pengindeks Video, atau Pemahaman Konten—jika pelanggan, atau mengizinkan penggunaan layanan tersebut oleh atau untuk, departemen kepolisian di Amerika Serikat.

Kasus penggunaan

Penggunaan yang dimaksudkan

Berikut adalah beberapa contoh kapan Anda mungkin menggunakan Pemahaman Konten.

  • Otomatisasi proses pajak: Anda dapat menggunakan fitur ekstraksi dokumen Content Understanding untuk mengekstrak bidang dari formulir pajak. Terlepas dari templat yang berbeda, Anda akan dapat mengekstrak data kunci dari formulir pajak untuk menghasilkan tampilan informasi terpadu yang menghasilkan otomatisasi proses pajak.
  • Analisis pascapanggilan pusat layanan: Bisnis dapat menghasilkan wawasan dari catatan panggilan. Input audio akan diubah menjadi output transkripsi teks, yang dapat digunakan untuk mengekstrak wawasan berharga yang mengarah pada peningkatan efisiensi pusat panggilan dan pengalaman pelanggan.
  • Marketing Automation and DAM (Manajemen Aset Digital): Untuk membangun solusi manajemen aset media, Anda dapat menggunakan Content Understanding untuk mengekstrak bidang yang ditentukan dalam skema dari gambar dan video untuk mengekstrak wawasan untuk meningkatkan relevansi iklan yang ditargetkan.
  • Pencarian dan penemuan konten dengan RAG (Retrieval Augmented Generation): Pelanggan yang perlu mencari dan menemukan konten modalitas apa pun (seperti teks, gambar, audio, video, atau media campuran,) berdasarkan konten, metadata, atau fitur mereka dapat menggunakan output terstruktur dari Content Understanding untuk mengaktifkan skenario RAG hilir.
  • Ringkasan konten atau media: Misalnya, perusahaan media dapat menggunakan Pemahaman Konten untuk menghasilkan ringkasan dan sorotan acara olahraga.
  • Pemahaman bagan dan grafik: Bentuk keuangan atau jurnal akademik yang berisi bagan dan grafik biasanya sulit dipahami ketika hanya teks yang sedang diekstraksi. Pemahaman Konten memecahkan masalah dengan menginterpretasikan bagan dan grafik dalam konteks dokumen atau gambar tertentu itu sendiri, dan pengguna dapat dengan mudah mengekstrak informasi yang mereka inginkan seperti jenis bagan atau grafik, ringkasan, dan makna keseluruhan.

Pertimbangan saat memilih kasus penggunaan lainnya

Pertimbangkan faktor-faktor berikut saat Anda memilih kasus penggunaan:

  • Hindari skenario saat penggunaan atau penyalahgunaan dapat mengakibatkan kerusakan fisik atau psikologis. Misalnya, menggunakan Pemahaman Konten untuk mendiagnosis pasien atau meresepkan obat dapat menyebabkan kerusakan yang signifikan.

    Perhatian

    Pemahaman Konten tidak dirancang, dimaksudkan, atau disediakan sebagai perangkat medis, dan tidak dirancang atau dimaksudkan untuk menjadi pengganti saran medis profesional, diagnosis, pengobatan, atau penilaian, dan tidak boleh digunakan untuk mengganti atau mengganti nasihat medis profesional, diagnosis, pengobatan, atau penilaian.

  • Tidak cocok untuk identifikasi atau verifikasi biometrik. Misalnya, Pemahaman Konten tidak dirancang atau ditujukan untuk identifikasi atau verifikasi unik individu berdasarkan geometri wajah, pola suara, atau karakteristik fisik, fisiologis, atau perilaku lainnya.

    Penting

    Jika Anda menggunakan produk atau layanan Microsoft untuk memproses Data Biometrik, Anda bertanggung jawab untuk: (i) memberikan pemberitahuan kepada subjek data, termasuk sehubungan dengan periode retensi dan penghancuran; (ii) mendapatkan persetujuan dari subjek data; dan (iii) menghapus Data Biometrik, semuanya sesuai dan diperlukan berdasarkan Persyaratan Perlindungan Data yang berlaku. "Data Biometrik" akan memiliki arti yang diatur dalam Pasal 4 GDPR dan, jika berlaku, istilah yang setara dalam persyaratan perlindungan data lainnya. Untuk informasi terkait, lihat Data dan Privasi untuk Wajah.

  • Hindari penggunaan untuk melacak orang dalam konteks dunia nyata. Contohnya termasuk menggunakan Pemahaman Konten untuk pengawasan individu dalam konteks dunia nyata atau menggunakan Pemahaman Konten untuk memverifikasi bahwa individu yang digambarkan di lokasi terpisah adalah orang yang sama. Rekomendasi ini tidak berlaku untuk menggunakan Pemahaman Konteks untuk tujuan kreatif, seperti menemukan adegan pemindahan yang berbeda dengan aktor yang sama.
  • Hindari skenario saat penggunaan atau penyalahgunaan sistem dapat berdampak konsekuensial pada peluang hidup atau status hukum. Contohnya termasuk skenario di mana penggunaan Pemahaman Konten dapat memengaruhi status hukum individu, hak hukum, atau akses mereka ke kredit, pendidikan, pekerjaan, layanan kesehatan, perumahan, asuransi, manfaat kesejahteraan sosial, layanan, peluang, atau persyaratan tempat mereka disediakan. Pertimbangkan untuk menggabungkan tinjauan dan pengawasan manusia yang bermakna untuk membantu mengurangi risiko hasil berbahaya.
  • Pertimbangkan dengan cermat kasus penggunaan dalam domain atau industri berisiko tinggi. Contohnya termasuk tetapi tidak terbatas pada layanan kesehatan, kedokteran, keuangan, atau hukum.
  • Hindari penggunaan untuk sistem pemantauan tugas yang dapat mengganggu privasi. Model AI dasar Pemahaman Konten tidak dirancang untuk memantau pola individu untuk menyimpulkan informasi pribadi yang intim, seperti orientasi seksual atau politik individu.
  • Hindari skenario di mana penggunaan, atau penyalahgunaan sistem dapat menyebarkan narasi palsu tentang topik atau orang sensitif. Contohnya termasuk pembuatan dan distribusi informasi yang salah tentang peristiwa yang sangat sensitif atau pembuatan informasi tentang orang nyata dalam keadaan yang mencerminkan narasi palsu.
  • Pertimbangkan dengan cermat lokal dan bahasa yang didukung: Model Pemahaman Konten memiliki lokal dan bahasa yang didukung yang berbeda. Misalnya, dalam bahasa Inggris itu sendiri, ada berbagai lokal seperti AS, Inggris dan Australia, yang memiliki perbedaan dalam bagaimana waktu diformat, serta ejaan untuk beberapa kata. Pastikan untuk memeriksa dengan cermat lokal dan bahasa yang didukung secara resmi untuk setiap modalitas.
  • Hindari penggunaan ketika keterlibatan manusia atau metode verifikasi sekunder tidak tersedia. Mekanisme fail-safe (misalnya, metode sekunder yang tersedia untuk pengguna akhir jika teknologi gagal) membantu mencegah penolakan layanan penting atau bahaya lainnya karena kesalahan dalam output.
  • Tidak cocok untuk skenario di mana informasi yang akurat dan mutakhir sangat penting kecuali Anda memiliki peninjau manusia atau menggunakan model untuk mencari dokumen Anda sendiri dan telah memverifikasi kesesuaian untuk skenario Anda. Pemahaman Konten tidak memiliki informasi tentang peristiwa yang terjadi setelah tanggal pelatihannya, kemungkinan telah kehilangan pengetahuan tentang beberapa topik, dan mungkin tidak selalu menghasilkan informasi yang akurat secara faktual.
  • Transkripsi percakapan dengan pengenalan pembicara: Pemahaman Konten tidak dirancang untuk memberikan diarisasi dengan pengenalan pembicara, dan tidak dapat digunakan untuk mengidentifikasi individu. Dengan kata lain, pembicara akan disajikan sebagai Guest1, Guest2, Guest3, dan sebagainya, dalam transkripsi. Ini akan ditetapkan secara acak dan mungkin tidak digunakan untuk mengidentifikasi pembicara individu dalam percakapan. Untuk setiap transkripsi percakapan, penugasan Guest1, Guest2, Guest3, dan sebagainya, akan acak.
  • Pertimbangan hukum dan peraturan. Organisasi perlu mengevaluasi potensi kewajiban hukum dan peraturan tertentu saat menggunakan Pemahaman Konten. Pemahaman Konten tidak sesuai untuk digunakan di setiap industri atau skenario. Selalu gunakan Pemahaman Konten sesuai dengan ketentuan layanan yang berlaku dan kode etik yang relevan, termasuk Kode Etik AI Generatif.

Keterbatasan

Batasan teknis, faktor operasional, dan rentang

Seperti semua sistem AI, ada beberapa batasan untuk Pemahaman Konten yang harus diperhatikan pelanggan.

Jika file input yang sangat mengganggu diunggah ke Pemahaman Konten, file tersebut dapat mengembalikan konten berbahaya dan menyinggung sebagai bagian dari hasilnya. Untuk mengurangi hasil yang tidak diinginkan ini, kami sarankan Anda mengontrol akses ke sistem dan mendidik orang-orang yang akan menggunakannya tentang penggunaan yang sesuai.

Pengelompokan wajah

Wajah kabur sebelum gambar atau video dikirim ke model untuk analisis sehingga inferensi pada wajah, seperti emosi, tidak akan berfungsi dalam gambar atau video. Hanya modalitas video yang mendukung pengelompokan wajah yang hanya menyediakan grup wajah serupa tanpa analisis tambahan.

Penting

Fitur pengelompokan wajah dalam Pemahaman Konten dibatasi berdasarkan kriteria kelayakan dan penggunaan. untuk mendukung prinsip-prinsip AI yang Bertanggung Jawab. Layanan pengenalan wajah hanya tersedia untuk pelanggan dan mitra yang dikelola oleh Microsoft. Gunakan formulir penerimaan Pengenalan Wajah untuk mengajukan akses. Untuk informasi selengkapnya, lihat halaman Face Limited Access.

Dokumen

Kemampuan ekstraksi dokumen sangat bergantung pada cara Anda menamai bidang dan deskripsi bidang. Selain itu, produk ini memaksa pembumian – menancapkan output ke dalam teks dokumen masukan – dan tidak akan mengembalikan jawaban jika tidak dapat dibumikan. Oleh karena itu, dalam beberapa kasus, nilai bidang mungkin hilang. Karena sifat ekstraksi berbasis, sistem akan menghasilkan kembali konten dari dokumen bahkan jika dokumen salah atau konten tidak terlihat oleh mata manusia. Dokumen juga harus memiliki resolusi yang wajar, di mana teks tidak terlalu buram agar model Tata Letak dikenali.

Video

Pemahaman Konten tidak dimaksudkan untuk menggantikan pengalaman menonton penuh video, terutama untuk konten di mana detail dan nuansa sangat penting. Ini juga tidak dirancang untuk meringkas video yang sangat sensitif atau rahasia di mana konteks dan privasi sangat penting.

  • Kualitas video: Selalu unggah konten video dan audio berkualitas tinggi. Ukuran bingkai maksimum yang disarankan adalah HD dan kecepatan bingkai adalah 30 FPS. Bingkai harus berisi tidak lebih dari 10 orang. Saat mengeluarkan bingkai dari video ke model AI, hanya kirim sekitar satu bingkai per detik. Memproses 10 bingkai atau lebih mungkin menunda hasil AI. Setidaknya 1 menit ucapan percakapan spontan diperlukan untuk melakukan analisis. Mendeteksi sinyal audio non-ucapan seperti efek suara dan nyanyian tidak didukung.
  • Akurasi yang lebih rendah dari wawasan yang dihasilkan mungkin terjadi ketika wajah yang direkam oleh kamera yang dipasang tinggi, mengarah ke bawah, atau memiliki bidang pandang yang luas (FOV) mungkin memiliki lebih sedikit piksel.
  • Detektor dapat salah mengklasifikasikan objek dalam video yang berada dalam tampilan overhead saat dilatih dengan tampilan frontal objek.
  • Bahasa non-bahasa Inggris: Pemahaman Konten terutama diuji dan dioptimalkan untuk bahasa Inggris. Ketika diterapkan ke bahasa non-bahasa Inggris, akurasi dan kualitas ringkasan dapat bervariasi. Untuk mengurangi batasan ini, pengguna yang menggunakan fitur untuk bahasa non-bahasa Inggris harus memverifikasi ringkasan yang dihasilkan untuk akurasi dan kelengkapan.
  • Video dengan beberapa bahasa: Jika video menggabungkan ucapan dalam beberapa bahasa, Ringkasan Video Tekstual mungkin berjuang untuk mengenali semua bahasa yang ditampilkan dalam konten video secara akurat. Pengguna harus mengetahui potensi batasan ini saat menggunakan fitur Ringkasan Video Tekstual untuk video multibahasa.
  • Video yang sangat khusus atau teknis: Model AI untuk merangkum video dilatih dengan berbagai video, termasuk berita, film, dan konten umum lainnya. Jika video sangat khusus atau teknis, model mungkin tidak dapat mengekstrak ringkasan video secara akurat.
  • Video dengan kualitas audio yang buruk atau (OCR) pengenalan karakter optik: Model AI untuk Ringkasan Video Tekstual mengandalkan audio serta wawasan lainnya untuk mengekstrak ringkasan dari video, atau menggunakan OCR untuk mengekstrak teks yang muncul di layar. Jika kualitas audio buruk dan tidak ada teks yang diidentifikasi, model mungkin tidak dapat mengekstrak ringkasan dari video secara akurat.
  • Video dengan pencahayaan rendah atau gerakan cepat: Video yang ditembak dalam pencahayaan rendah atau memiliki gerakan cepat mungkin sulit bagi model untuk memproses wawasan, menghasilkan performa yang buruk.
  • Video dengan aksen atau dialek yang tidak biasa: Model AI dilatih pada berbagai ucapan, termasuk aksen dan dialek yang berbeda. Namun, jika video berisi ucapan dengan aksen atau dialek yang tidak diwakili dengan baik dalam data pelatihan, model mungkin berjuang untuk mengekstrak transkrip secara akurat dari video.

Audio

Untuk file audio, Anda mungkin perlu menentukan lokal untuk setiap input audio. Lokal harus cocok dengan bahasa aktual yang diucapkan dalam suara input. Pemahaman Konten mendukung deteksi bahasa otomatis juga untuk beberapa kasus penggunaan. Untuk informasi selengkapnya, lihat daftar lokal yang didukung.

  • Kualitas akustik: Aplikasi dan perangkat yang mendukung ucapan ke teks dapat menggunakan berbagai jenis dan spesifikasi mikrofon. Model ucapan terpadu telah dilatih pada berbagai skenario perangkat audio suara, seperti telepon, ponsel, dan perangkat speaker. Kualitas suara mungkin terdegradasi dengan cara pengguna berbicara ke mikrofon, bahkan jika mereka menggunakan mikrofon berkualitas tinggi. Misalnya, jika speaker terletak jauh dari mikrofon, kualitas input mungkin terlalu rendah. Speaker yang terlalu dekat dengan mikrofon juga dapat menyebabkan penurunan kualitas audio. Kasus-kasus ini, serta kasus apa pun yang menyebabkan kualitas file audio terdegradasi dapat berdampak buruk pada akurasi ucapan ke teks.
  • Kebisingan non-ucapan: Jika audio input berisi tingkat kebisingan tertentu, akurasi akan terpengaruh. Kebisingan yang berasal dari perangkat audio yang digunakan untuk membuat rekaman, atau input audio itu sendiri mungkin berisi kebisingan, seperti latar belakang atau kebisingan lingkungan.
  • Ucapan yang tumpang tindih: Mungkin ada beberapa pembicara dalam rentang perangkat input audio, dan mungkin berbicara secara bersamaan. File audio yang memiliki suara speaker lain yang direkam di latar belakang saat pembicara utama merekam juga menghasilkan file ucapan yang tumpang tindih. Selain itu, meskipun tidak ada batasan pada jumlah pembicara dalam percakapan, sistem berkinerja lebih baik ketika jumlah pembicara di bawah 30.
  • Kosakata: Jika kata yang tidak ada dalam model muncul di audio, hasilnya adalah kesalahan dalam transkripsi.
  • Accents: Bahkan dalam satu lokal, seperti dalam bahasa Inggris - Amerika Serikat (en-US), banyak orang memiliki aksen yang berbeda. Aksen yang sangat spesifik mungkin juga menyebabkan kesalahan dalam transkripsi.
  • Bahasa atau lokal yang tidak cocok: Jika Anda menentukan bahasa Inggris - Amerika Serikat (en-US) untuk input audio, tetapi pembicara berbicara dalam bahasa Swedia, misalnya, maka akurasinya akan berkurang.
  • Kesalahan penyisipan: Terkadang, model dapat menghasilkan kesalahan penyisipan dengan adanya kebisingan atau ucapan latar belakang lunak.

Gambar

  • Pengenalan Objek: Pengenalan produk ambigu tertentu mungkin tidak akurat jika tidak dapat dikenali oleh model. Konsep abstrak yang tidak sesuai dengan gambar, misalnya, jenis kelamin dan emosi, mungkin tidak dikenali juga.

Performa sistem

Metrik performa berbeda untuk setiap modalitas dalam Pemahaman Konten. Setiap modalitas akan memiliki standar industri yang berbeda untuk mengukur performa AI.

Salah satu metrik umum yang kami berikan dalam Pemahaman Konten di semua modalitas adalah skor keyakinan untuk bidang. Sampai sekarang, hanya tipe bidang "ekstrak" dan "hasilkan" yang akan memiliki skor keyakinan.

Fitur khas Pemahaman Konten adalah dukungannya terhadap skor grounding dan skor keyakinan, yang saat ini hanya tersedia untuk modalitas dokumen tetapi direncanakan akan diperluas di masa mendatang. Grounding dalam dokumen mencakup nomor halaman dan kotak pembatas untuk nilai yang diekstrak, membantu pengalaman pengguna dengan mengidentifikasi lokasi bagi peninjauan dan koreksi oleh manusia. Skor keyakinan, mulai dari 0 hingga 1, memperkirakan akurasi nilai yang diekstrak berdasarkan dokumen yang dianalisis atau pelatihan, dengan skor yang lebih tinggi menunjukkan keyakinan yang lebih besar. Untuk panduan tentang menggunakan skor keyakinan, lihat bagian Evaluasi Pemahaman Konten.

Di bawah ini adalah metrik performa umum yang dapat Anda gunakan untuk setiap modalitas:

Dokumen

Akurasi

Teks terdiri dari baris dan kata-kata di tingkat dasar dan entitas seperti nama, harga, jumlah, nama perusahaan, dan produk di tingkat pemahaman dokumen.

akurasi tingkat kata

Ukuran akurasi untuk OCR adalah tingkat kesalahan kata (WER), atau berapa banyak kata yang salah dihasilkan dalam hasil yang diekstraksi. Semakin rendah WER, semakin tinggi akurasinya.

WER didefinisikan sebagai:

Ilustrasi yang menunjukkan definisi WER.

Lokasi:

Istilah Definisi Contoh
S Jumlah kata yang salah ("diganti") dalam output. "Velvet" akan diekstraksi sebagai "Veivet" karena "l" terdeteksi sebagai "i."
D Jumlah kata yang hilang ("dihapus") dalam output. Untuk teks "Nama Perusahaan: Microsoft," Microsoft tidak diekstrak karena ditulis tangan atau sulit dibaca.
I Jumlah kata yang tidak ada ("disisipkan") dalam output. "Departemen" salah disegmentasikan menjadi tiga kata sebagai "Dep artm ent." Dalam hal ini, hasilnya adalah satu kata yang dihapus dan tiga kata yang disisipkan.
C Jumlah kata yang diekstrak dengan benar dalam output. Semua kata yang diekstrak dengan benar.
N Jumlah kata dalam referensi (N=S+D+C) dengan pengecualian I karena kata-kata tersebut hilang dari referensi asli dan salah diprediksi sebagai ada. Pertimbangkan gambar dengan kalimat, "Microsoft, yang bermarkas di Redmond, WA mengumumkan produk baru bernama Velvet untuk departemen keuangan." Asumsikan output OCR adalah " , yang bermarkas di Redmond, WA mengumumkan produk baru bernama Veivet untuk departemen keuangan." Dalam hal ini, S (Velvet) = 1, D (Microsoft) = 1, I (departemen) = 3, C (11), dan N = S + D + C = 13. Oleh karena itu, WER = (S + D + I) / N = 5 / 13 = 0,38 atau 38% (dari 100).

Akurasi tingkat dokumen dan entitas Pada tingkat dokumen, misalnya, dalam kasus faktur atau tanda terima, kesalahan hanya satu karakter di seluruh dokumen mungkin dinilai tidak signifikan. jika kesalahan tersebut ada dalam teks yang mewakili jumlah berbayar, seluruh faktur atau tanda terima mungkin ditandai sebagai salah.

Metrik lain adalah tingkat kesalahan entitas (EER). Ini adalah persentase entitas yang salah diekstraksi, seperti nama, harga, jumlah, dan nomor telepon, dari jumlah total entitas yang sesuai dalam satu atau beberapa dokumen. Misalnya, untuk total 30 kata yang mewakili 10 nama, 2 kata yang salah dari 30 sama dengan 0,06 (6%) WER. Tetapi jika itu menghasilkan 2 nama dari 10 sebagai salah, maka Name EER adalah 0,20 (20%), yang jauh lebih tinggi daripada WER.

Mengukur WER dan EER adalah latihan yang berguna untuk mendapatkan perspektif penuh tentang akurasi pemahaman dokumen.

Video

Akurasi analisis video tergantung pada beberapa faktor termasuk penempatan kamera dan interpretasi output sistem. Akurasi harus dinilai oleh seberapa dekat hasil nilai bidang mode selaras dengan konten video yang sebenarnya. Misalnya, ketika pengguna mencari entitas dalam video, diharapkan untuk mengembalikan daftar lengkap entitas yang ditemukan dalam video. Untuk mengevaluasi akurasi, himpunan data pengujian tertentu, perwakilan dari berbagai skenario dan kondisi dunia nyata, digunakan. Himpunan data ini mencakup berbagai jenis konten video dan skenario interaksi pengguna.

Istilah Definisi
Positif Benar Output yang dihasilkan sistem dengan benar sesuai dengan peristiwa nyata.
Benar Negatif Sistem dengan benar tidak menghasilkan peristiwa ketika peristiwa nyata belum terjadi.
Positif Palsu Sistem salah menghasilkan/mengekstrak/mengklasifikasikan output ketika tidak ada peristiwa nyata yang terjadi.
Negatif Palsu Sistem gagal menghasilkan output secara keliru ketika peristiwa nyata telah terjadi.

Audio

Performa sistem diukur oleh faktor-faktor utama ini:

  • tingkat kesalahan Word (WER)
  • Tingkat kesalahan token (TER)
  • Latensi waktu kompilasi

Model dianggap lebih baik hanya ketika menunjukkan peningkatan yang signifikan (seperti peningkatan WER relatif 5%) dalam semua skenario (seperti transkripsi ucapan percakapan, transkripsi pusat panggilan, dikte, dan asisten suara) serta sejalan dengan target penggunaan sumber daya dan latensi respons.

Untuk diarisasi, kami mengukur kualitas dengan menggunakan tingkat kesalahan diarisasi kata (WDER). Semakin rendah WDER, semakin baik kualitas diarisasi.

Gambar

Akurasi analisis gambar adalah ukuran seberapa baik output sesuai dengan konten visual aktual yang ada dalam gambar. Untuk mengukur akurasi analisis gambar, Anda dapat mengevaluasi gambar dengan data kebenaran dasar Anda dan membandingkan output model AI. Dengan membandingkan kebenaran dasar dengan hasil yang dihasilkan AI, Anda dapat mengklasifikasikan peristiwa menjadi dua jenis hasil yang benar ("true") dan dua jenis hasil yang salah ("salah"):

Istilah Definisi
Positif Benar Output yang dihasilkan sistem dengan benar sesuai dengan data kebenaran dasar. Misalnya, sistem menandai gambar anjing dengan benar sebagai anjing.
Benar Negatif Sistem dengan benar tidak menghasilkan hasil yang tidak ada dalam data kebenaran dasar. Misalnya, sistem dengan benar tidak menandai gambar sebagai anjing ketika tidak ada anjing yang ada dalam gambar.
Positif Palsu Sistem salah menghasilkan output yang tidak ada dalam data kebenaran dasar. Misalnya, sistem menandai gambar kucing sebagai anjing.
Negatif Palsu Sistem gagal menghasilkan hasil yang ada dalam data kebenaran dasar. Misalnya, sistem gagal menandai gambar anjing yang ada dalam gambar.

Kategori peristiwa ini digunakan untuk menghitung presisi dan pengenalan:

Istilah Definisi
Presisi Ukuran kebenaran konten yang diekstrak. Dari gambar yang berisi beberapa objek, Anda mengetahui berapa banyak objek tersebut yang diekstrak dengan benar.
Pemanggilan Ukuran konten keseluruhan yang diekstrak. Dari gambar yang berisi beberapa objek, Anda mengetahui berapa banyak objek yang terdeteksi secara keseluruhan, tanpa memperhatikan kebenarannya.

Definisi presisi dan pengenalan menyiratkan bahwa, dalam kasus tertentu, mungkin sulit untuk dioptimalkan untuk presisi dan pengenalan pada saat yang sama. Bergantung pada skenario Anda, Anda mungkin perlu memprioritaskan satu di atas yang lain. Misalnya, jika Anda mengembangkan solusi untuk mendeteksi hanya tag atau label yang paling akurat dalam konten, seperti untuk menampilkan hasil pencarian gambar, Anda akan mengoptimalkan presisi yang lebih tinggi. Tetapi jika Anda mencoba menandai semua konten visual yang mungkin dalam gambar untuk pengindeksan atau katalog internal, Anda akan mengoptimalkan untuk pengenalan yang lebih tinggi.

Praktik terbaik untuk meningkatkan performa sistem

Dalam kebanyakan kasus, meningkatkan performa sistem sangat tergantung pada pengguna yang menyediakan data yang cukup dimengerti bagi Pemahaman Konten untuk mengekstrak nilai.

Pastikan bahwa bidang yang dihasilkan dari konten relevan dengan penggunaan hilir yang dimaksudkan. Misalnya, jika Anda ingin mencari "anjing yang bermain di halaman belakang", pastikan output bidang Anda menyertakan konsep ini dan memperbarui definisi skema seperti nama bidang dan deskripsi bidang untuk memperbaikinya jika tidak.

Untuk gambar, lihat dokumentasi berikut untuk persyaratan input tertentu. Gambar harus memiliki kualitas yang wajar, paparan cahaya, dan kontras.

Untuk audio, lokal yang tidak cocok mengurangi akurasi, jadi penting untuk mencocokkan lokal input dengan speaker dalam file. Gunakan file audio dengan kondisi akustik yang wajar dan hindari file dengan kebisingan latar belakang, ucapan samping, jarak ke mikrofon dan gaya berbicara yang dapat berdampak buruk pada akurasi.

Mempertimbangkan batasan setiap modalitas sehubungan dengan input, bahasa, dan lokal yang saat ini didukung, dan skenario juga akan membantu meningkatkan performa sistem.

Namun, untuk ekstraksi dokumen, ada cara untuk meningkatkan kualitas penganalisis, yaitu memperbarui atau memperbaiki hasil label bidang sesuai kebutuhan dengan setiap dokumen yang Anda tambahkan ke himpunan data. Fitur ekstraksi dokumen mendukung pembelajaran dalam konteks, sehingga lebih banyak himpunan data dan label bidang yang akurat akan menyebabkan performa sistem yang lebih baik secara umum. Untuk formulir yang diisi, disarankan juga untuk menggunakan contoh yang memiliki semua bidang yang diisi dan menggunakan nilai dunia nyata yang ingin Anda lihat untuk setiap bidang.

Evaluasi Pemahaman Konten

Metode evaluasi

Untuk membuat Pemahaman Konten, kami menyiapkan himpunan data yang menargetkan kasus penggunaan pelanggan umum. Ini disiapkan secara independen oleh Microsoft, dan kami tidak menggunakan data pelanggan yang dikirim ke layanan kami untuk tujuan pelatihan atau evaluasi apa pun.

Efektivitas Content Understanding akan bergantung pada aplikasi tertentu yang digunakannya. Pelanggan harus melakukan pengujian mereka sendiri untuk menjamin hasil terbaik.

Misalnya, dalam ekstraksi dokumen, layanan menetapkan nilai keyakinan dari 0 hingga 1 untuk setiap kata dan bidang. Menjalankan uji coba dapat membantu pelanggan menentukan rentang nilai kepercayaan dan kualitas ekstraksi. Mereka kemudian dapat mengatur ambang batas, seperti mengirim hasil dengan nilai keyakinan 0,80 atau lebih tinggi untuk pemrosesan langsung, dan yang di bawah ini untuk tinjauan manusia.

Hasil evaluasi

Untuk memastikan performa layanan, kami secara teratur melakukan evaluasi dan analisis kesalahan, menggunakan hasilnya untuk meningkatkan penawaran kami. Banyak dari evaluasi ini disesuaikan dengan skenario pelanggan dan membantu menentukan batasan seperti nomor bidang dan ukuran data pelatihan. Batasan ini didokumenkan untuk referensi pelanggan. Karena banyak kemungkinan skenario, kami tidak dapat menguji semuanya. Misalnya, kami sering menguji domain keuangan tetapi memiliki lebih sedikit cakupan di bidang medis.

Pertimbangan kewajaran

Salah satu dimensi penting yang perlu dipertimbangkan saat menggunakan sistem AI, adalah seberapa baik performa sistem untuk berbagai kelompok orang. Penelitian telah menunjukkan bahwa tanpa upaya sadar yang berfokus pada peningkatan performa untuk semua kelompok, sistem AI dapat menunjukkan berbagai tingkat performa di berbagai faktor demografis seperti ras, etnis, jenis kelamin, dan usia.

Sebagai bagian dari evaluasi Pemahaman Konten, kami telah melakukan analisis untuk menilai potensi kerugian keadilan. Kami telah memeriksa performa sistem di berbagai grup demografis, yang bertujuan untuk mengidentifikasi perbedaan atau perbedaan yang mungkin ada dan berpotensi berdampak pada kewajaran.

Dalam beberapa kasus, mungkin ada perbedaan kinerja yang tersisa. Penting untuk dicatat bahwa perbedaan ini mungkin melebihi target, dan kami secara aktif bekerja untuk mengatasi dan meminimalkan potensi bias atau kesenjangan performa dan mencari perspektif yang beragam dari berbagai latar belakang.

Mengenai bahaya representasional, seperti stereotip, merendahkan, atau menghapus output, kami mengakui risiko yang terkait dengan masalah ini. Meskipun proses evaluasi kami bertujuan untuk mengurangi risiko tersebut, kami mendorong pengguna untuk mempertimbangkan kasus penggunaan spesifik mereka dengan hati-hati dan menerapkan mitigasi tambahan sebagaimana mestinya. Melibatkan manusia dalam proses dapat memberikan lapisan pengawasan tambahan untuk mengatasi potensi bias atau dampak yang tidak diinginkan.

Kami berkomitmen untuk terus meningkatkan evaluasi kewajaran kami untuk mendapatkan pemahaman yang lebih mendalam tentang kinerja sistem di berbagai kelompok demografis dan potensi masalah kewajaran. Proses evaluasi sedang berlangsung, dan kami secara aktif berupaya meningkatkan kewajaran dan inklusivitas serta mengurangi perbedaan yang diidentifikasi. Anda dapat menemukan lebih banyak pengujian kewajaran yang terkait dengan ucapan dalam dokumentasi ini.

Mengevaluasi dan mengintegrasikan Analisis Gambar untuk penggunaan Anda

Saat mengintegrasikan Pemahaman Konten untuk kasus penggunaan Anda, mengetahui bahwa Pemahaman Konten tunduk pada Microsoft Kode Etik Layanan AI Generatif akan memastikan integrasi yang berhasil.

Saat Anda bersiap-siap untuk mengintegrasikan Pemahaman Konten ke produk atau fitur Anda, aktivitas berikut membantu menyiapkan Anda untuk sukses:

  • Pahami apa yang dapat dilakukannya: Sepenuhnya menilai potensi Pemahaman Konten untuk memahami kemampuan dan batasannya. Pahami bagaimana performanya dalam skenario dan konteks Anda. Misalnya, jika Anda menggunakan ekstraksi konten audio, uji dengan rekaman dunia nyata dari proses bisnis Anda untuk menganalisis dan membuat tolok ukur hasil terhadap metrik proses yang ada.
  • Hormati hak privasi seseorang: Hanya kumpulkan data dan informasi dari individu yang telah Anda peroleh persetujuannya, dan untuk tujuan yang sah dan dapat dibenar.
  • Pertimbangan hukum dan peraturan. Organisasi perlu mengevaluasi potensi kewajiban hukum dan peraturan tertentu saat menggunakan Pemahaman Konten. Pemahaman Konten tidak sesuai untuk digunakan di setiap industri atau skenario. Selalu gunakan Pemahaman Konten sesuai dengan ketentuan layanan yang berlaku dan Microsoft Kode Etik Layanan AI Generatif. 
  • Human-in-the-loop: Pertahankan keterlibatan manusia dalam sistem, dan sertakan pengawasan manusia sebagai area fokus yang konsisten untuk dijelajahi. Ini berarti memastikan pengawasan manusia yang konstan terhadap produk atau fitur yang didukung AI dan untuk mempertahankan peran manusia dalam pengambilan keputusan. Pastikan adanya intervensi manusia secara real-time dalam solusi untuk mencegah kerugian. Peran manusia dalam pengambilan keputusan memungkinkan Anda mengelola situasi ketika Pemahaman Konten tidak berfungsi sebagaimana diperlukan.
  • Keamanan: Pastikan solusi Anda aman dan memiliki kontrol yang memadai untuk mempertahankan integritas konten Anda dan mencegah akses yang tidak sah.

Pelajari selengkapnya tentang AI yang bertanggung jawab

Pelajari selengkapnya tentang Pemahaman Konten

Catatan transparansi tambahan untuk layanan yang mendasar

Kode Etik