Execute análises com o Machine Learning Studio (clássico) usando um banco de dados SQL Server
APLICA-SE A: Machine Learning Studio (clássico) Azure Machine Learning
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre como mover projetos de aprendizado de máquina do ML Studio (clássico) para o Azure Machine Learning.
- Saiba mais sobre o Azure Machine Learning
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Muitas vezes, as empresas que trabalham com dados locais gostariam de aproveitar a escala e a agilidade da nuvem para suas cargas de trabalho de aprendizado de máquina. Mas eles não querem interromper seus processos de negócios e fluxos de trabalho atuais movendo seus dados locais para a nuvem. O Machine Learning Studio (clássico) agora oferece suporte à leitura de seus dados de um banco de dados do SQL Server e, em seguida, ao treinamento e pontuação de um modelo com esses dados. Você não precisa mais copiar e sincronizar manualmente os dados entre a nuvem e o servidor local. Em vez disso, o módulo Importar Dados no Machine Learning Studio (clássico) agora pode ler diretamente do banco de dados do SQL Server para seus trabalhos de treinamento e pontuação.
Este artigo fornece uma visão geral de como ingressar dados do SQL Server no Machine Learning Studio (clássico). Ele pressupõe que você esteja familiarizado com conceitos do Studio (clássicos), como espaços de trabalho, módulos, conjuntos de dados, experimentos, etc.
Nota
Este recurso não está disponível para espaços de trabalho gratuitos. Para obter mais informações sobre preços e níveis do Machine Learning, consulte Preços do Machine Learning Studio (clássico).
Instalar o Data Factory Self-hosted Integration Runtime
Para acessar um banco de dados do SQL Server no Machine Learning Studio (clássico), você precisa baixar e instalar o Data Factory Self-hosted Integration Runtime, anteriormente conhecido como Data Management Gateway. Ao configurar a conexão no Machine Learning Studio (clássico), você tem a oportunidade de baixar e instalar o Integration Runtime (IR) usando a caixa de diálogo Baixar e registrar o gateway de dados descrito abaixo.
Você também pode instalar o IR com antecedência baixando e executando o pacote de instalação MSI do Centro de Download da Microsoft. O MSI também pode ser usado para atualizar um IR existente para a versão mais recente, com todas as configurações preservadas.
O Data Factory Self-Hosted Integration Runtime tem os seguintes pré-requisitos:
- A integração auto-hospedada do Data Factory requer um sistema operacional de 64 bits com .NET Framework 4.6.1 ou superior.
- As versões suportadas do sistema operativo Windows são Windows 10 , Windows Server 2012, Windows Server 2012 R2, Windows Server 2016.
- A configuração recomendada para a máquina IR é de pelo menos 2 GHz, CPU de 4 núcleos, 8 GB de RAM e 80 GB de disco.
- Se a máquina host hibernar, o IR não responderá às solicitações de dados. Portanto, configure um plano de energia apropriado no computador antes de instalar o IR. Se a máquina estiver configurada para hibernar, a instalação IR exibirá uma mensagem.
- Como a atividade de cópia ocorre em uma frequência específica, o uso de recursos (CPU, memória) na máquina também segue o mesmo padrão com horários de pico e ocioso. A utilização de recursos também depende muito da quantidade de dados que estão sendo movidos. Quando vários trabalhos de cópia estiverem em andamento, você observará o uso de recursos aumentar durante os horários de pico. Embora a configuração mínima listada acima seja tecnicamente suficiente, você pode querer ter uma configuração com mais recursos do que a configuração mínima, dependendo da sua carga específica para movimentação de dados.
Considere o seguinte ao configurar e usar um Data Factory Self-hosted Integration Runtime:
Você pode instalar apenas uma instância de RI em um único computador.
Você pode usar um único RI para várias fontes de dados locais.
Você pode conectar vários RIs em computadores diferentes à mesma fonte de dados local.
Você configura um IRs para apenas um espaço de trabalho de cada vez. Atualmente, os RIs não podem ser compartilhados entre espaços de trabalho.
Você pode configurar vários RIs para um único espaço de trabalho. Por exemplo, você pode querer usar uma RI conectada às suas fontes de dados de teste durante o desenvolvimento e uma RI de produção quando estiver pronto para operacionalizar.
O IR não precisa estar na mesma máquina que a fonte de dados. Mas ficar mais perto da fonte de dados reduz o tempo para o gateway se conectar à fonte de dados. Recomendamos que você instale o RI em uma máquina diferente daquela que hospeda a fonte de dados local para que o gateway e a fonte de dados não compitam por recursos.
Se já tiver um IR instalado no seu computador que serve cenários do Power BI ou do Azure Data Factory, instale um IR separado para o Machine Learning Studio (clássico) noutro computador.
Nota
Não é possível executar o Data Factory Self-hosted Integration Runtime e o Power BI Gateway no mesmo computador.
Você precisa usar o Data Factory Self-hosted Integration Runtime for Machine Learning Studio (clássico) mesmo se estiver usando o Azure ExpressRoute para outros dados. Você deve tratar sua fonte de dados como uma fonte de dados local (que está atrás de um firewall) mesmo quando usa a Rota Expressa. Use o Data Factory Self-hosted Integration Runtime para estabelecer conectividade entre o Machine Learning e a fonte de dados.
Você pode encontrar informações detalhadas sobre pré-requisitos de instalação, etapas de instalação e dicas de solução de problemas no artigo Integration Runtime in Data Factory.
Ingressar dados do banco de dados do SQL Server no Machine Learning
Nesta explicação passo a passo, você configurará um Tempo de Execução de Integração do Azure Data Factory em um espaço de trabalho do Azure Machine Learning, o configurará e lerá dados de um banco de dados do SQL Server.
Gorjeta
Antes de começar, desative o bloqueador de pop-ups do seu navegador para studio.azureml.net
. Se estiver a utilizar o navegador Google Chrome, transfira e instale um dos vários plug-ins disponíveis na Google Chrome WebStore Click Once App Extension.
Nota
O Tempo de Execução de Integração Auto-hospedado do Azure Data Factory era anteriormente conhecido como Gateway de Gerenciamento de Dados. O tutorial passo a passo continuará a se referir a ele como um gateway.
Etapa 1: Criar um gateway
A primeira etapa é criar e configurar o gateway para acessar seu banco de dados SQL.
Faça login no Estúdio de Aprendizado de Máquina (clássico) e selecione o espaço de trabalho no qual deseja trabalhar.
Clique na folha CONFIGURAÇÕES à esquerda e, em seguida, clique na guia GATEWAYS DE DADOS na parte superior.
Clique em NOVO GATEWAY DE DADOS na parte inferior da tela.
Na caixa de diálogo Novo gateway de dados, insira o Nome do Gateway e, opcionalmente, adicione uma Descrição. Clique na seta no canto inferior direito para ir para a próxima etapa da configuração.
Na caixa de diálogo Baixar e registrar o gateway de dados, copie a CHAVE DE REGISTRO DO GATEWAY para a área de transferência.
Se você ainda não baixou e instalou o Microsoft Data Management Gateway, clique em Baixar gateway de gerenciamento de dados. Isso leva você ao Centro de Download da Microsoft, onde você pode selecionar a versão do gateway necessária, baixá-la e instalá-la. Você pode encontrar informações detalhadas sobre pré-requisitos de instalação, etapas de instalação e dicas de solução de problemas nas seções iniciais do artigo Mover dados entre fontes locais e a nuvem com o Data Management Gateway.
Depois que o gateway for instalado, o Gerenciador de Configuração do Gateway de Gerenciamento de Dados será aberto e a caixa de diálogo Registrar gateway será exibida. Cole a chave de registro do gateway que você copiou para a área de transferência e clique em Registrar.
Se você já tiver um gateway instalado, execute o Gerenciador de Configuração do Gateway de Gerenciamento de Dados. Clique em Alterar chave, cole a Chave de Registro do Gateway que você copiou para a área de transferência na etapa anterior e clique em OK.
Quando a instalação estiver concluída, a caixa de diálogo Registrar gateway para o Microsoft Data Management Gateway Configuration Manager será exibida. Cole a CHAVE DE REGISTRO DO GATEWAY que você copiou para a área de transferência em uma etapa anterior e clique em Registrar.
A configuração do gateway é concluída quando os seguintes valores são definidos na guia Página Inicial no Microsoft Data Management Gateway Configuration Manager:
O nome do gateway e o nome da instância são definidos como o nome do gateway.
O registo está definido como Registado.
Status é definido como Iniciado.
A barra de status na parte inferior exibe Conectado ao Serviço de Nuvem do Gateway de Gerenciamento de Dados junto com uma marca de seleção verde.
O Machine Learning Studio (clássico) também é atualizado quando o registro é bem-sucedido.
Na caixa de diálogo Baixar e registrar gateway de dados, clique na marca de seleção para concluir a configuração. A página Configurações exibe o status do gateway como "Online". No painel direito, você encontrará status e outras informações úteis.
No Microsoft Data Management Gateway Configuration Manager, alterne para a guia Certificado . O certificado especificado nesta guia é usado para criptografar/descriptografar credenciais para o armazenamento de dados local especificado no portal. Este certificado é o certificado padrão. A Microsoft recomenda alterar isso para seu próprio certificado do qual você faz backup no sistema de gerenciamento de certificados. Clique em Alterar para usar seu próprio certificado.
(facultativo) Se você quiser habilitar o log detalhado para solucionar problemas com o gateway, no Microsoft Data Management Gateway Configuration Manager, alterne para a guia Diagnóstico e marque a opção Habilitar log detalhado para fins de solução de problemas. As informações de log podem ser encontradas no Visualizador de Eventos do Windows no nó Logs de Aplicativos e Serviços ->Gateway de Gerenciamento de Dados . Você também pode usar a guia Diagnóstico para testar a conexão com uma fonte de dados local usando o gateway.
Isso conclui o processo de configuração do gateway no Machine Learning Studio (clássico). Agora você está pronto para usar seus dados locais.
Você pode criar e configurar vários gateways no Studio (clássico) para cada espaço de trabalho. Por exemplo, você pode ter um gateway que deseja conectar às fontes de dados de teste durante o desenvolvimento e um gateway diferente para as fontes de dados de produção. O Machine Learning Studio (clássico) oferece a flexibilidade de configurar vários gateways, dependendo do seu ambiente corporativo. Atualmente, não é possível compartilhar um gateway entre espaços de trabalho e apenas um gateway pode ser instalado em um único computador. Para obter mais informações, consulte Mover dados entre fontes locais e a nuvem com o Data Management Gateway.
Etapa 2: Usar o gateway para ler dados de uma fonte de dados local
Depois de configurar o gateway, você pode adicionar um módulo Importar Dados a um experimento que insere os dados do banco de dados do SQL Server.
No Estúdio de Aprendizado de Máquina (clássico), selecione a guia EXPERIMENTOS, clique em +NOVO no canto inferior esquerdo e selecione Experiência em Branco (ou selecione um dos vários experimentos de amostra disponíveis).
Localize e arraste o módulo Importar Dados para a tela do experimento.
Clique em Salvar como abaixo da tela. Digite "Machine Learning Studio (classic) On-Premises SQL Server Tutorial" para o nome do experimento, selecione o espaço de trabalho e clique na marca de seleção OK .
Clique no módulo Importar Dados para selecioná-lo e, em seguida, no painel Propriedades à direita da tela, selecione "Banco de Dados SQL Local" na lista suspensa Fonte de dados.
Selecione o Gateway de dados que você instalou e registrou. Você pode configurar outro gateway selecionando "(adicionar novo Gateway de Dados...)".
Insira o nome do servidor do Banco de dados SQL e o nome do banco de dados, juntamente com a consulta do Banco de dados SQL que você deseja executar.
Clique em Introduzir valores em Nome de utilizador e palavra-passe e introduza as credenciais da base de dados. Você pode usar a Autenticação Integrada do Windows ou a Autenticação do SQL Server, dependendo de como o SQL Server está configurado.
A mensagem "valores necessários" muda para "valores definidos" com uma marca de seleção verde. Você só precisa inserir as credenciais uma vez, a menos que as informações do banco de dados ou a senha sejam alteradas. O Machine Learning Studio (clássico) usa o certificado fornecido quando instalou o gateway para criptografar as credenciais na nuvem. O Azure nunca armazena credenciais locais sem criptografia.
Clique em EXECUTAR para executar o experimento.
Quando a execução do experimento terminar, você poderá visualizar os dados importados do banco de dados clicando na porta de saída do módulo Importar Dados e selecionando Visualizar.
Depois de concluir o desenvolvimento do experimento, você poderá implantar e operacionalizar seu modelo. Usando o Serviço de Execução em Lote, os dados do banco de dados do SQL Server configurado no módulo Importar Dados serão lidos e usados para pontuação. Embora você possa usar o Serviço de Resposta de Solicitação para pontuar dados locais, a Microsoft recomenda usar o Suplemento do Excel. Atualmente, a gravação em um banco de dados do SQL Server por meio de Exportar Dados não é suportada em seus experimentos ou serviços Web publicados.