Apa itu Memeluk Transformer Wajah?
Artikel ini menyediakan pengantar Untuk Memeluk Transformer Wajah di Azure Databricks. Ini termasuk panduan tentang mengapa menggunakan Hugging Face Transformers dan cara menginstalnya di kluster Anda.
Latar Belakang untuk Memeluk Transformer Wajah
Memeluk Face Transformers adalah kerangka kerja sumber terbuka untuk pembelajaran mendalam yang dibuat oleh Hugging Face. Ini menyediakan API dan alat untuk mengunduh model pra-terlatih canggih dan menyetelnya lebih lanjut untuk memaksimalkan performa. Model ini mendukung tugas umum dalam modalitas yang berbeda, seperti pemrosesan bahasa alami, visi komputer, audio, dan aplikasi multi-modal.
Catatan
Databricks Runtime for Pembelajaran Mesin mencakup Hugging Face transformers
di Databricks Runtime 10.4 LTS ML ke atas, dan mencakup memeluk himpunan data Wajah, mempercepat, dan mengevaluasi dalam Databricks Runtime 13.0 ML ke atas.
Untuk memeriksa versi Hugging Face mana yang disertakan dalam versi ML Databricks Runtime yang dikonfigurasi, lihat bagian Pustaka Python pada catatan rilis yang relevan.
Mengapa menggunakan Hugging Face Transformers?
Untuk banyak aplikasi, seperti analisis sentimen dan ringkasan teks, model yang telah dilatih sebelumnya bekerja dengan baik tanpa pelatihan model tambahan.
Memeluk alur Face Transformers mengodekan praktik terbaik dan memiliki model default yang dipilih untuk tugas yang berbeda, sehingga mudah untuk memulai. Alur memudahkan penggunaan GPU saat tersedia dan memungkinkan pembuatan batch item yang dikirim ke GPU untuk performa throughput yang lebih baik.
Hugging Face menyediakan:
- Hub model yang berisi banyak model yang telah dilatih sebelumnya.
- 🤗 Pustaka Transformers yang mendukung pengunduhan dan penggunaan model ini untuk aplikasi NLP dan penyempurnaan. Adalah umum untuk membutuhkan tokenizer dan model untuk tugas pemrosesan bahasa alami.
- 🤗 Alur transformator yang memiliki antarmuka sederhana untuk sebagian besar tugas pemrosesan bahasa alami.
Menginstal transformers
Jika versi Databricks Runtime pada kluster Anda tidak menyertakan Hugging Face transformers
, Anda dapat menginstal pustaka Hugging Face transformers
terbaru sebagai pustaka Databricks PyPI.
%pip install transformers
Menginstal dependensi model
Model yang berbeda mungkin memiliki dependensi yang berbeda. Databricks merekomendasikan agar Anda menggunakan %pip magic commands untuk menginstal dependensi ini sesuai kebutuhan.
Berikut ini adalah dependensi umum:
librosa
: mendukung decoding file audio.soundfile
: diperlukan saat menghasilkan beberapa himpunan data audio.bitsandbytes
: diperlukan saat menggunakanload_in_8bit=True
.SentencePiece
: digunakan sebagai tokenizer untuk model NLP.timm
: diperlukan oleh DetrForSegmentation.
Pelatihan simpul tunggal
Untuk menguji dan memigrasikan alur kerja mesin tunggal, gunakan Kluster Node Tunggal.
Sumber daya tambahan
Artikel berikut ini mencakup contoh notebook dan panduan tentang cara menggunakan Hugging Face transformers
untuk penyempurnaan model bahasa besar (LLM) dan inferensi model di Azure Databricks.