Bagikan melalui


Apa itu Memeluk Transformer Wajah?

Artikel ini menyediakan pengantar Untuk Memeluk Transformer Wajah di Azure Databricks. Ini termasuk panduan tentang mengapa menggunakan Hugging Face Transformers dan cara menginstalnya di kluster Anda.

Latar Belakang untuk Memeluk Transformer Wajah

Memeluk Face Transformers adalah kerangka kerja sumber terbuka untuk pembelajaran mendalam yang dibuat oleh Hugging Face. Ini menyediakan API dan alat untuk mengunduh model pra-terlatih canggih dan menyetelnya lebih lanjut untuk memaksimalkan performa. Model ini mendukung tugas umum dalam modalitas yang berbeda, seperti pemrosesan bahasa alami, visi komputer, audio, dan aplikasi multi-modal.

Databricks Runtime for Pembelajaran Mesin mencakup Hugging Face transformers di Databricks Runtime 10.4 LTS ML ke atas, dan mencakup memeluk himpunan data Wajah, mempercepat, dan mengevaluasi dalam Databricks Runtime 13.0 ML ke atas.

Untuk memeriksa versi Hugging Face mana yang disertakan dalam versi ML Databricks Runtime yang dikonfigurasi, lihat bagian Pustaka Python pada catatan rilis yang relevan.

Mengapa menggunakan Hugging Face Transformers?

Untuk banyak aplikasi, seperti analisis sentimen dan ringkasan teks, model yang telah dilatih sebelumnya bekerja dengan baik tanpa pelatihan model tambahan.

Memeluk alur Face Transformers mengodekan praktik terbaik dan memiliki model default yang dipilih untuk tugas yang berbeda, sehingga mudah untuk memulai. Alur memudahkan penggunaan GPU saat tersedia dan memungkinkan pembuatan batch item yang dikirim ke GPU untuk performa throughput yang lebih baik.

Hugging Face menyediakan:

  • Hub model yang berisi banyak model yang telah dilatih sebelumnya.
  • 🤗 Pustaka Transformers yang mendukung pengunduhan dan penggunaan model ini untuk aplikasi NLP dan penyempurnaan. Adalah umum untuk membutuhkan tokenizer dan model untuk tugas pemrosesan bahasa alami.
  • 🤗 Alur transformator yang memiliki antarmuka sederhana untuk sebagian besar tugas pemrosesan bahasa alami.

Menginstal transformers

Jika versi Databricks Runtime pada kluster Anda tidak menyertakan Hugging Face transformers, Anda dapat menginstal pustaka Hugging Face transformers terbaru sebagai pustaka Databricks PyPI.

  %pip install transformers

Menginstal dependensi model

Model yang berbeda mungkin memiliki dependensi yang berbeda. Databricks merekomendasikan agar Anda menggunakan %pip magic commands untuk menginstal dependensi ini sesuai kebutuhan.

Berikut ini adalah dependensi umum:

  • librosa: mendukung decoding file audio.
  • soundfile: diperlukan saat menghasilkan beberapa himpunan data audio.
  • bitsandbytes: diperlukan saat menggunakan load_in_8bit=True.
  • SentencePiece: digunakan sebagai tokenizer untuk model NLP.
  • timm: diperlukan oleh DetrForSegmentation.

Pelatihan simpul tunggal

Untuk menguji dan memigrasikan alur kerja mesin tunggal, gunakan Kluster Node Tunggal.

Sumber daya tambahan

Artikel berikut ini mencakup contoh notebook dan panduan tentang cara menggunakan Hugging Face transformers untuk penyempurnaan model bahasa besar (LLM) dan inferensi model di Azure Databricks.