Menggunakan Azure OpenAI untuk memproses file audio podcast

Pencarian Azure AI
Azure OpenAI Service

Ide solusi

Artikel ini menjelaskan ide solusi. Arsitek cloud Anda dapat menggunakan panduan ini untuk membantu memvisualisasikan komponen utama untuk implementasi umum arsitektur ini. Gunakan artikel ini sebagai titik awal untuk merancang solusi yang dirancang dengan baik yang selaras dengan persyaratan spesifik beban kerja Anda.

Artikel ini menyediakan contoh desain alur yang dapat Anda gunakan untuk memproses file audio. Alur menggunakan layanan Azure AI untuk ucapan ke teks dan Azure OpenAI Service untuk analisis. Arsitektur terdiri dari aplikasi web statis yang menyediakan dasbor operasional dan tiga fungsi Azure yang mengatur dan memproses file media. Anda dapat menggunakan solusi ini untuk beban kerja media yang memerlukan analisis AI otomatis dan dapat diskalakan.

Sistem

Diagram yang memperlihatkan arsitektur untuk memproses file audio menggunakan Azure OpenAI untuk analisis.

Unduh file Visio arsitektur ini.

Alur kerja

  1. Pengguna masuk ke halaman web yang memiliki UI untuk mengunggah file audio.

  2. Aplikasi web statis berisi kode yang mengunggah file audio ke Azure Blob Storage.

  3. Pengguna berinteraksi dengan halaman web, yang memicu fungsi yang menggunakan titik akhir HTTP untuk memulai transfer file audio ke kontainer yang ditunjuk dalam akun penyimpanan.

  4. Setelah Blob Storage mendeteksi bahwa file baru diunggah, fungsi lain dipanggil yang mengonversi audio ke teks dengan menggunakan Azure AI Speech. Hasil transkripsi disimpan dalam format file teks dan diunggah ke kontainer lain.

  5. Fungsi ketiga menggunakan AI generatif untuk mendeteksi dan memproses transkripsi dan menghasilkan ringkasan, kata kunci yang dioptimalkan mesin pencari, dan terjemahan.

Komponen

  • Static Web Apps adalah layanan yang dapat Anda gunakan untuk menyederhanakan hosting dan menyebarkan aplikasi web statis. Static Web Apps menyediakan integrasi yang mulus dengan repositori GitHub untuk penyebaran otomatis dan integrasi berkelanjutan dan alur penyebaran berkelanjutan (CI/CD).

  • Azure Functions adalah layanan komputasi tanpa server yang dapat digunakan pengembang untuk menjalankan kode tanpa harus mengelola infrastruktur.

  • Blob Storage adalah layanan penyimpanan yang dapat Anda gunakan untuk menyimpan sejumlah besar data yang tidak terstruktur, seperti teks atau data biner.

  • Layanan AI adalah serangkaian API berbasis cloud dan model AI bawaan yang menawarkan kemampuan seperti pengenalan ucapan, pemahaman bahasa alami, dan visi komputer.

  • Azure OpenAI adalah kemitraan antara Microsoft Azure dan OpenAI yang menyediakan akses ke model dan teknologi OpenAI melalui platform Azure.

Detail skenario

Podcast adalah media yang efektif untuk berbagi ide, cerita, dan perspektif Anda. Banyak organisasi dan individu telah menemukan kekuatan menggunakan podcast untuk menghubungkan dan menumbuhkan audiens mereka. Untuk menjangkau audiens yang lebih luas, kreator dapat menggunakan sinopsis podcast dan pelokalan konten untuk membuat konten mereka lebih mudah diakses oleh penutur bahasa lain.

Sinopsis podcast adalah cara cepat dan mudah bagi kreator untuk memberi tahu pendengar tentang episode podcast mereka. Sinopsis podcast dapat membantu pendengar memutuskan apakah mereka ingin menyetel. Sinopsis yang diterjemahkan memudahkan calon pendengar internasional untuk menemukan podcast dan mempelajari tentang apa yang ditawarkannya.

Pelokalan adalah proses menyesuaikan konten podcast Anda dengan bahasa dan budaya tertentu. Pelokalan melampaui terjemahan dan mempertimbangkan nuansa, preferensi, dan harapan audiens target Anda. Pelokalan dapat membantu Anda terhubung dengan pendengar Anda pada tingkat yang lebih dalam dan meningkatkan keterlibatan dan loyalitas mereka.

Memproduksi dan menerbitkan konten sulit. AI dapat membantu Anda mengotomatiskan proses dan menskalakan produksi dan distribusi podcast Anda. Anda dapat menggunakan infrastruktur AI dan AI untuk mentranskripsikan audio podcast Anda, menerjemahkan sinopsis Anda, dan menghasilkan voice-over dalam berbagai bahasa dan aksen.

Artikel ini menjelaskan cara menggunakan AI untuk membuat sinopsis podcast, melokalisasi podcast ke dalam beberapa bahasa, dan secara otomatis menghasilkan kata kunci pengoptimalan mesin pemasaran dan pencari (SEO) yang membantu memperluas audiens konten Anda. Solusi ini menggambarkan cara menggunakan kekuatan GPT untuk mengotomatiskan sebagian besar proses ini dengan Speech dan Azure OpenAI. Anda dapat menggunakan GPT untuk secara otomatis mentranskripsikan audio ke dalam teks, menghasilkan sinopsis dalam gaya dan nada tertentu, menyarankan baris tag dan kata kunci SEO yang menarik, dan menerjemahkan sinopsis ke dalam beberapa bahasa untuk menjangkau audiens global, semuanya dalam hitungan menit.

Aplikasi web

Aplikasi web statis mengekspos fungsionalitas aplikasi ini. Aplikasi ditulis dengan menggunakan pustaka web React. Anda dapat menggunakan pustaka web React untuk mengunggah file audio. Setelah file audio diproses, React menghasilkan hasil yang dapat dilihat dan dapat diunduh yang mencakup:

  • Sinopsis.
  • Sinopsis yang diterjemahkan.
  • Judul alternatif.
  • Kata kunci SEO.

Penyimpanan

Solusi ini menggunakan satu akun Azure Storage dengan beberapa kontainer untuk menyimpan file mentah (audio), transkripsi (transkripsi teks audio), dan hasil Azure OpenAI.

Compute

Solusi ini menggunakan tiga fungsi Azure dalam alur kerja tertentu untuk memproses file audio. Ketiga fungsi ditulis dalam Python.

Fungsi yang dipicu HTTP

Situs web statis menggunakan fungsi pertama yang dipicu HTTP. Fungsi ini memiliki kerangka kerja aplikasi Flask dan mengekspos dua titik akhir:

  • Operasi POST untuk mengunggah file audio ke Blob Storage
  • Operasi GET untuk mengambil hasil wawasan AI yang dihasilkan

Fungsi yang dipicu blob untuk kontainer file mentah

Fungsi kedua adalah fungsi yang dipicu blob yang memiliki pengikatan yang diatur untuk menggunakan kontainer file mentah akun penyimpanan. Fungsi ini memicu secara otomatis ketika file diunggah ke kontainer ini. Fungsi ini juga memanfaatkan ffmpeg alat CLI yang dipasang dengan menggunakan Azure Files untuk mengonversi file audio ke WAV. Ucapan menggunakan format WAV. Setelah file dikonversi ke format file WAV, file kemudian diteruskan ke Ucapan. Ucapan membuat transkripsi teks file audio. Transkripsi teks kemudian diunggah ke kontainer transkripsi dalam akun penyimpanan.

Fungsi yang dipicu blob untuk kontainer transkripsi

Fungsi ketiga dan terakhir adalah fungsi yang dipicu blob yang memiliki pengikatan yang diatur untuk menggunakan kontainer transkripsi akun penyimpanan. File apa pun yang diunggah ke kontainer ini memicu fungsi untuk dijalankan. Fungsi akhir ini menyusun serangkaian perintah di Azure OpenAI yang meringkas transkripsi, menghasilkan baris tag dan kata kunci SEO, dan menerjemahkan transkrip ke dalam bahasa non-bahasa Inggris.

Setelah sinopsis, kata kunci SEO, dan terjemahan dihasilkan, respons Azure OpenAI diunggah ke kontainer open-ai-results di akun penyimpanan.

AI dan pembelajaran mesin

Solusi ini menggunakan dua beban kerja Azure AI:

  • Ucapan
  • Azure OpenAI

Kemampuan ucapan ke teks dalam Audio mentranskripsikan ucapan ke dalam teks. Model GPT Azure OpenAI memproses teks. Model menggunakan kemampuan generatif untuk menghasilkan tag, kata kunci SEO, ringkasan, dan layanan terjemahan. Mereka menggunakan transkripsi untuk melakukan tugas pembuatan konten teks.

Kemungkinan kasus penggunaan

Kerangka kerja arsitektur dirancang untuk tugas media yang dianalisis AI secara otomatis. Kerangka kerja ini ditujukan untuk aplikasi media tetapi dapat digunakan untuk aplikasi yang lebih luas, khususnya untuk tugas yang memerlukan ringkasan teks rekaman audio dan menggunakan konten yang dihasilkan AI untuk transkrip, ringkasan, tagline, dan sinopsis.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Kontributor lain:

  • Pantai Andy | Chief Technical Officer (CTO), Media dan Hiburan Di Seluruh Dunia
  • Simon Powell | Manajer Program Utama

Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.

Langkah berikutnya