Cara menggunakan ringkasan dokumen

Ringkasan dokumen dirancang untuk mempersingkat konten yang dianggap terlalu lama oleh pengguna untuk dibaca. Artikel, makalah, atau dokumen ringkasan ekstraktif dan abstraktif menjadi kalimat utama.

Ringkasan ekstraktif: Menghasilkan ringkasan dengan mengekstrak kalimat yang secara kolektif mewakili informasi yang paling penting atau relevan dalam konten asli.

Ringkasan abstraktif: Menghasilkan ringkasan dengan menghasilkan kalimat yang dirangkum dari dokumen yang menangkap ide utama.

Ringkasan yang berfokus pada kueri: Memungkinkan Anda menggunakan kueri saat meringkas.

Masing-masing kemampuan ini dapat meringkas sekeliling item tertentu yang menarik ketika ditentukan.

Model AI yang digunakan oleh API disediakan oleh layanan, Anda hanya perlu mengirim konten untuk analisis.

Untuk navigasi yang lebih mudah, berikut adalah tautan ke bagian yang sesuai untuk setiap layanan:

Aspek Bagian
Ekstraktif Ringkasan Ekstraktif
Abstraktif Ringkasan Abstrctive
Berfokus pada kueri Ringkasan yang berfokus pada kueri

Fitur

Tip

Jika Anda ingin mulai menggunakan fitur-fitur ini, Anda dapat mengikuti artikel mulai cepat untuk memulai. Anda juga dapat membuat permintaan contoh menggunakan Language Studio tanpa perlu menulis kode.

API ringkasan ekstraktif menggunakan teknik pemrosesan bahasa alami untuk menemukan kalimat kunci dalam dokumen teks yang tidak terstruktur. Kalimat-kalimat ini secara kolektif menyampaikan gagasan utama dari dokumen.

Ringkasan ekstraktif menampilkan skor peringkat sebagai bagian dari respons sistem bersama dengan kalimat yang diekstraksi dan posisinya dalam dokumen asli. Skor peringkat adalah indikator seberapa relevan sebuah kalimat yang ditentukan, dengan gagasan utama dokumen. Model ini memberikan skor antara 0 dan 1 (inklusif) untuk setiap kalimat dan menampilkan kalimat dengan skor tertinggi per permintaan. Misalnya, jika Anda meminta ringkasan tiga kalimat, layanan menampilkan tiga kalimat dengan skor tertinggi.

Ada fitur lain dalam Bahasa Azure AI, ekstraksi frasa kunci, yang dapat mengekstrak informasi utama. Saat memutuskan antara ekstraksi frasa kunci dan ringkasan ekstraktif, pertimbangkan hal berikut:

  • Ekstraksi frasa kunci mengembalikan frasa sementara ringkasan ekstraktif mengembalikan kalimat.
  • Ringkasan ekstraktif mengembalikan kalimat bersama dengan skor peringkat, dan kalimat peringkat teratas dikembalikan per permintaan.
  • Ringkasan ekstraktif juga mengembalikan informasi posisi berikut:
    • Offset: Posisi awal setiap kalimat yang diekstrak.
    • Panjang: Panjang setiap kalimat yang diekstrak.

Menentukan cara memproses data (opsional)

Mengirimkan data

Anda mengirimkan dokumen ke API sebagai string teks. Analisis dilakukan setelah permintaan diterima. Karena API tidak sinkron, mungkin ada penundaan antara mengirim permintaan API, dan menerima hasilnya.

Saat Anda menggunakan fitur ini, hasil API tersedia selama 24 jam sejak permintaan diolah, dan hasil tersebut ditunjukkan dalam respons. Setelah jangka waktu ini, hasilnya akan dihapus menyeluruh dan tidak lagi tersedia untuk diambil.

Mendapatkan hasil ringkasan dokumen

Saat Anda mendapatkan hasil dari deteksi bahasa, Anda dapat mengalirkan hasilnya ke aplikasi atau menyimpan output ke file di sistem lokal.

Berikut adalah contoh konten yang mungkin Anda kirimkan untuk ringkasan, yang diekstrak menggunakan artikel blog Microsoft Representasi holistik menuju AI integratif. Artikel ini hanyalah contoh, API dapat menerima teks input yang lebih panjang. Lihat bagian batas data untuk informasi selengkapnya.

"Di Microsoft, kami telah berupaya untuk memajukan AI di luar teknik yang ada, dengan mengambil pendekatan yang lebih holistik dan berpusat pada manusia untuk pembelajaran dan pemahaman. Sebagai Chief Technology Officer layanan Azure AI, saya telah bekerja dengan tim ilmuwan dan insinyur luar biasa untuk mengubah pencarian ini menjadi kenyataan. Dalam peran saya, saya menikmati perspektif unik dalam melihat hubungan antara tiga atribut kognisi manusia: teks monolingual (X), sinyal sensorik audio atau visual, (Y) dan multibahasa (Z). Di persimpangan ketiganya, ada keajaiban—yang kami sebut kode XYZ seperti yang diilustrasikan pada Gambar 1—representasi bersama untuk menciptakan AI yang lebih kuat yang dapat berbicara, mendengar, melihat, dan memahami manusia dengan lebih baik. Kami percaya XYZ-code memungkinkan kami memenuhi visi jangka panjang kami: pembelajaran transfer lintas domain, mencakup modalitas dan bahasa. Tujuannya adalah untuk memiliki model terlatih yang dapat bersama-sama mempelajari representasi untuk mendukung berbagai tugas AI hilir, seperti yang dilakukan manusia saat ini. Selama lima tahun terakhir, kami telah mencapai performa manusia pada tolok ukur dalam pengenalan ucapan percakapan, terjemahan mesin, jawaban atas pertanyaan percakapan, pemahaman membaca mesin, dan teks gambar. Lima terobosan ini memberi kami sinyal kuat menuju aspirasi kami yang lebih progresif untuk menghasilkan inovasi dalam kemampuan AI, mencapai pembelajaran multi-indera dan multi-bahasa yang lebih dekat dengan cara manusia belajar dan memahami. Saya percaya kode XYZ bersama adalah komponen dasar dari aspirasi ini, jika didasarkan pada sumber pengetahuan eksternal dalam tugas AI hilir."

Permintaan API ringkasan dokumen diproses setelah menerima permintaan dengan membuat pekerjaan untuk backend API. Jika pekerjaan berhasil, output API dikembalikan. Output tersedia untuk pengambilan selama 24 jam. Setelah waktu ini, output akan dihapus secara menyeluruh. Karena dukungan multibahasa dan emoji, respons mungkin berisi offset teks. Lihat cara memproses offsets untuk informasi lebih lanjut.

Saat Anda menggunakan contoh di atas, API mungkin mengembalikan kalimat ringkasan berikut:

Ringkasan ekstraktif:

  • "Di Microsoft, kami telah berupaya untuk memajukan AI melampaui teknik yang ada, dengan mengambil pendekatan pembelajaran dan pemahaman yang lebih holistik dan berpusat pada manusia."
  • "Kami percaya XYZ-code memungkinkan kami memenuhi visi jangka panjang kami: pembelajaran transfer lintas domain, mencakup modalitas dan bahasa."
  • "Tujuannya adalah untuk memiliki model yang telah dilatih sebelumnya yang dapat secara bersama-sama mempelajari representasi untuk mendukung berbagai tugas AI hilir, banyak dalam cara yang dilakukan manusia saat ini."

Ringkasan abstraktif:

  • "Microsoft mengambil pendekatan yang lebih holistik dan berfokus pada manusia untuk belajar dan memahami. Kami percaya XYZ-code memungkinkan kami memenuhi visi jangka panjang kami: pembelajaran transfer lintas domain, mencakup modalitas dan bahasa. Selama lima tahun terakhir, kami telah mencapai performa manusia pada tolok ukur."

Coba ringkasan ekstraktif dokumen

Anda dapat menggunakan ringkasan ekstraktif dokumen untuk mendapatkan ringkasan artikel, makalah, atau dokumen. Untuk melihat contoh, lihat artikel mulai cepat.

Anda dapat menggunakan sentenceCount parameter untuk memandu berapa banyak kalimat yang dikembalikan, dengan 3 menjadi default. Kisarannya adalah dari 1 hingga 20.

Anda juga dapat menggunakan sortby parameter untuk menentukan dalam urutan apa kalimat yang diekstrak dikembalikan - baik Offset atau Rank, dengan Offset menjadi default.

nilai parameter Deskripsi
Pangkat Urutan kalimat sesuai dengan relevansinya dengan dokumen input, sebagaimana yang diputuskan oleh layanan.
Offset Menyimpan urutan asli di mana kalimat muncul dalam dokumen input.

Coba ringkasan abstraktif dokumen

Contoh berikut membuat Anda mulai dengan ringkasan abstraktif dokumen:

  1. Salin perintah di bawah ini ke editor teks. Contoh BASH menggunakan karakter kelanjutan \ baris. Jika konsol atau terminal Anda menggunakan karakter kelanjutan baris yang berbeda, gunakan karakter tersebut sebagai gantinya.
curl -i -X POST https://<your-language-resource-endpoint>/language/analyze-text/jobs?api-version=2022-10-01-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>" \
-d \
' 
{
  "displayName": "Document Abstractive Summarization Task Example",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "en",
        "text": "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there’s magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We believe XYZ-code enables us to fulfill our long-term vision: cross-domain transfer learning, spanning modalities and languages. The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we have achieved human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
      }
    ]
  },
  "tasks": [
    {
      "kind": "AbstractiveSummarization",
      "taskName": "Document Abstractive Summarization Task 1",
      "parameters": {
        "summaryLength": short
      }
    }
  ]
}
'

Jika Anda tidak menentukan sentenceCount, model menentukan panjang ringkasan. Perhatikan bahwa sentenceCount adalah perkiraan jumlah kalimat dari ringkasan output, rentang 1 hingga 20. Menggunakan sentenceCount tidak disarankan untuk ringkasan abstraktif.

  1. JIka diperlukan, buat perubahan berikut dalam perintah:

    • Ganti nilai your-language-resource-key dengan kunci Anda.
    • Ganti bagian pertama URL permintaan your-language-resource-endpoint dengan URL titik akhir Anda sendiri.
  2. Buka jendela prompt perintah (misalnya: BASH).

  3. Tempelkan perintah dari editor teks ke jendela prompt perintah, lalu jalankan perintah .

  4. Dapatkan operation-location dari header respon. Nilainya terlihat mirip dengan URL berikut:

https://<your-language-resource-endpoint>/language/analyze-text/jobs/12345678-1234-1234-1234-12345678?api-version=2022-10-01-preview
  1. Untuk mendapatkan hasil permintaan, gunakan perintah cURL berikut. Pastikan untuk mengganti <my-job-id> dengan nilai ID numerik yang Anda terima dari header respons operation-location sebelumnya:
curl -X GET https://<your-language-resource-endpoint>/language/analyze-text/jobs/<my-job-id>?api-version=2022-10-01-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>"

Contoh ringkasan dokumen abstraktif respons JSON

{
    "jobId": "cd6418fe-db86-4350-aec1-f0d7c91442a6",
    "lastUpdateDateTime": "2022-09-08T16:45:14Z",
    "createdDateTime": "2022-09-08T16:44:53Z",
    "expirationDateTime": "2022-09-09T16:44:53Z",
    "status": "succeeded",
    "errors": [],
    "displayName": "Document Abstractive Summarization Task Example",
    "tasks": {
        "completed": 1,
        "failed": 0,
        "inProgress": 0,
        "total": 1,
        "items": [
            {
                "kind": "AbstractiveSummarizationLROResults",
                "taskName": "Document Abstractive Summarization Task 1",
                "lastUpdateDateTime": "2022-09-08T16:45:14.0717206Z",
                "status": "succeeded",
                "results": {
                    "documents": [
                        {
                            "summaries": [
                                {
                                    "text": "Microsoft is taking a more holistic, human-centric approach to AI. We've developed a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We've achieved human performance on benchmarks in conversational speech recognition, machine translation, ...... and image captions.",
                                    "contexts": [
                                        {
                                            "offset": 0,
                                            "length": 247
                                        }
                                    ]
                                }
                            ],
                            "id": "1"
                        }
                    ],
                    "errors": [],
                    "modelVersion": "latest"
                }
            }
        ]
    }
}
parameter Deskripsi
-X POST <endpoint> Menentukan titik akhir Anda untuk mengakses API.
-H Content-Type: application/json Jenis konten untuk mengirim data JSON.
-H "Ocp-Apim-Subscription-Key:<key> Menentukan kunci untuk mengakses API.
-d <documents> JSON berisi dokumen yang ingin Anda kirim.

Perintah cURL berikut dijalankan dari shell BASH. Edit perintah berikut ini dengan nama sumber daya, kunci sumber daya, dan nilai JSON milik Anda.

Ringkasan berbasis kueri

API ringkasan dokumen berbasis kueri adalah ekstensi untuk API ringkasan dokumen yang ada.

Perbedaan terbesar adalah bidang baru query dalam isi permintaan (di bawah>tasksparameters>query ). Selain itu, ada cara baru untuk menentukan yang disukai summaryLength dalam "wadah" pendek/sedang/panjang, yang kami sarankan menggunakan alih-alih sentenceCount, terutama saat menggunakan abstraktif. Di bawah ini adalah contoh permintaan:

curl -i -X POST https://<your-language-resource-endpoint>/language/analyze-text/jobs?api-version=2023-11-15-preview \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: <your-language-resource-key>" \
-d \
' 
{
  "displayName": "Document Extractive Summarization Task Example",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "en",
        "text": "At Microsoft, we have been on a quest to advance AI beyond existing techniques, by taking a more holistic, human-centric approach to learning and understanding. As Chief Technology Officer of Azure AI services, I have been working with a team of amazing scientists and engineers to turn this quest into a reality. In my role, I enjoy a unique perspective in viewing the relationship among three attributes of human cognition: monolingual text (X), audio or visual sensory signals, (Y) and multilingual (Z). At the intersection of all three, there’s magic—what we call XYZ-code as illustrated in Figure 1—a joint representation to create more powerful AI that can speak, hear, see, and understand humans better. We believe XYZ-code enables us to fulfill our long-term vision: cross-domain transfer learning, spanning modalities and languages. The goal is to have pretrained models that can jointly learn representations to support a broad range of downstream AI tasks, much in the way humans do today. Over the past five years, we have achieved human performance on benchmarks in conversational speech recognition, machine translation, conversational question answering, machine reading comprehension, and image captioning. These five breakthroughs provided us with strong signals toward our more ambitious aspiration to produce a leap in AI capabilities, achieving multi-sensory and multilingual learning that is closer in line with how humans learn and understand. I believe the joint XYZ-code is a foundational component of this aspiration, if grounded with external knowledge sources in the downstream AI tasks."
      }
    ]
  },
  "tasks": [
    {
      "kind": "ExtractiveSummarization",
      "taskName": "Document Extractive Summarization Task 1",
      "parameters": {
        "query": "XYZ-code",
        "summaryLength": short
      }
    }
  ]
}
'

Menggunakan summaryParameter

summaryLength Untuk parameter , tiga nilai diterima:

  • singkat: Menghasilkan ringkasan sebagian besar 2-3 kalimat, dengan sekitar 120 token.
  • sedang: Menghasilkan ringkasan sebagian besar 4-6 kalimat, dengan sekitar 170 token.
  • long: Menghasilkan ringkasan sebagian besar lebih dari 7 kalimat, dengan sekitar 210 token.

Batas layanan dan data

Untuk informasi tentang ukuran dan jumlah permintaan yang dapat Anda kirim per menit dan detik, lihat artikel batas layanan.

Lihat juga