Modelos de linguagem grande (LLMs) em Databricks
O Azure Databricks simplifica o acesso e a criação de modelos de linguagem grandes disponíveis publicamente.
O Databricks Runtime for Machine Learning inclui bibliotecas como Hugging, Face, Transformers e LangChain, que permitem integrar modelos pré-treinados existentes ou outras bibliotecas de código aberto ao seu fluxo de trabalho. A partir daqui, você pode aproveitar os recursos da plataforma Azure Databricks para ajustar LLMs usando seus próprios dados para um melhor desempenho de domínio.
Além disso, o Azure Databricks oferece funcionalidade interna para usuários SQL acessarem e experimentarem LLMs como Azure OpenAI e OpenAI usando funções de IA.
Importante
Esta funcionalidade está em Pré-visualização Pública. Entre em contato com sua equipe de conta Databricks para se inscrever na Visualização Pública.
O ajuste fino do modelo de base (agora parte do Mosaic AI Model Training) é uma interface simples para a pilha de treinamento do Databricks para executar o ajuste fino completo do modelo.
Você pode fazer o seguinte usando o ajuste fino do modelo de fundação:
- Ajuste um modelo com seus dados personalizados, com os pontos de verificação salvos no MLflow. Você mantém o controle total do modelo ajustado.
- Registre automaticamente o modelo no Unity Catalog, permitindo fácil implantação com o serviço de modelo.
- Ajuste um modelo completo e proprietário carregando os pesos de um modelo previamente ajustado.
Consulte Ajuste fino do modelo de fundação.
Com o Hugging Face Transformers no Databricks, você pode expandir seus aplicativos em lote de processamento de linguagem natural (NLP) e ajustar modelos para aplicativos de modelo de linguagem grande.
A biblioteca Hugging Face transformers
vem pré-instalada no Databricks Runtime 10.4 LTS ML e superior. Muitos dos modelos de NLP populares funcionam melhor em hardware de GPU, portanto, você pode get o melhor desempenho usando hardware de GPU recente, a menos que use um modelo especificamente otimizado para uso em CPUs.
O DSPy automatiza o ajuste de prompts traduzindo assinaturas de linguagem natural definidas pelo usuário em instruções completas e exemplos de poucas capturas.
Consulte Criar aplicativos genAI usando DSPy no Azure Databricks para obter exemplos sobre como usar o DSPy.
O LangChain está disponível como um sabor experimental de MLflow que permite que os clientes do LangChain aproveitem as ferramentas robustas e os recursos de rastreamento de experimentos do MLflow diretamente do ambiente do Azure Databricks.
LangChain é uma estrutura de software projetada para ajudar a criar aplicativos que utilizam grandes modelos de linguagem (LLMs) e combiná-los com dados externos para trazer mais contexto de treinamento para seus LLMs.
O Databricks Runtime ML inclui langchain
no Databricks Runtime 13.1 ML e superior.
Saiba mais sobre integrações LangChain específicas do Databricks.
Importante
Esta funcionalidade está em Pré-visualização Pública.
As funções de IA são funções SQL incorporadas que permitem aos utilizadores SQL:
- Use as APIs do Databricks Foundation Model para concluir várias tarefas nos dados da sua empresa.
- Acesse modelos externos como GPT-4 da OpenAI e experimente-os.
- Modelos de consulta hospedados pelo Mosaic AI Model Servindo pontos de extremidade de consultas SQL.