Поделиться через


Большие языковые модели (LLMs) в Databricks

Azure Databricks упрощает доступ и создание общедоступных языковых моделей.

Databricks Runtime для Машинное обучение включает библиотеки, такие как Преобразователи лиц Hugging и LangChain, которые позволяют интегрировать существующие предварительно обученные модели или другие библиотеки с открытым исходным кодом в рабочий процесс. Здесь вы можете использовать возможности платформы Azure Databricks для точной настройки LLM с помощью собственных данных для повышения производительности домена.

Кроме того, Azure Databricks предлагает встроенные функциональные возможности для пользователей SQL для доступа и экспериментирования с llMs, такими как Azure OpenAI и OpenAI с помощью функций ИИ.

Обучение модели мозаичного ИИ

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии. Обратитесь к группе учетной записи Databricks, чтобы зарегистрироваться в общедоступной предварительной версии.

Обучение модели ИИ (прежнее название — Обучение модели Фонда) — это простой интерфейс стека обучения Databricks для полной настройки модели.

Вы можете выполнить следующие действия с помощью обучения модели ИИ для мозаики:

  • Настройте модель с пользовательскими данными с контрольными точками, сохраненными в MLflow. Вы сохраняете полный контроль над точно настроенной моделью.
  • Автоматически регистрируйте модель в каталоге Unity, что позволяет легко развертывать с помощью службы моделей.
  • Точно настройте завершенную собственную модель, загрузив весы ранее настроенной модели.

Общие сведения о обучении модели ИИ для мозаики.

библиотека Transformers в Hugging Face.

С помощью преобразователей распознавания лиц в Databricks вы можете масштабировать пакетные приложения для обработки естественного языка (NLP) и точно настроить модели для приложений с большими языками.

Библиотека распознавания лиц transformers предварительно установлена в Databricks Runtime 10.4 LTS ML и выше. Многие популярные модели NLP лучше всего работают на оборудовании GPU, поэтому вы можете получить лучшую производительность с помощью недавнего оборудования GPU, если вы не используете модель, специально оптимизированную для использования на ЦП.

LangChain

LangChain доступен в качестве экспериментального вкуса MLflow, который позволяет клиентам LangChain использовать надежные средства и возможности отслеживания экспериментов MLflow непосредственно из среды Azure Databricks.

LangChain — это платформа программного обеспечения, предназначенная для создания приложений, использующих большие языковые модели (LLM) и сочетающих их с внешними данными, чтобы обеспечить более широкий контекст обучения для ваших LLM.

Машинное обучение среды выполнения Databricks включается langchain в Databricks Runtime 13.1 ML и более поздних версий.

Узнайте об интеграции Databricks с LangChain.

Функции ИИ

Внимание

Эта функция предоставляется в режиме общедоступной предварительной версии.

Функции ИИ — это встроенные функции SQL, позволяющие пользователям SQL:

  • Используйте API модели Databricks Foundation для выполнения различных задач в данных вашей компании.
  • Доступ к внешним моделям, таким как GPT-4 из OpenAI, и экспериментируйте с ними.
  • Модели запросов, размещенные в конечных точках службы модели ИИ Мозаики из запросов SQL.