Partilhar via


Exportação para Consulta de Colmeia

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Este artigo descreve como utilizar os dados de exportação para a opção Hive no módulo de Dados de Exportação em Machine Learning Studio (clássico). Esta opção é útil quando está a trabalhar com conjuntos de dados muito grandes e pretende guardar os dados da experiência de aprendizagem automática para um cluster Hadoop ou armazenamento distribuído hdInsight. Também pode querer exportar resultados intermédios ou outros dados para Hadoop para que possa processá-lo usando um trabalho mapReduce.

Como exportar dados para a Colmeia

  1. Adicione o módulo de Dados de Exportação à sua experiência. Pode encontrar este módulo na categoria entrada e saída de dados no Machine Learning Studio (clássico).

    Ligação o módulo para o conjunto de dados que pretende exportar.

  2. Para obter informações sobre dados, selecione Hive Consulta.

  3. Para o nome da mesa hive digite o nome da tabela Hive em que para armazenar o conjunto de dados.

  4. Na caixa de texto URI do servidor HCatalog , digite o nome totalmente qualificado do seu cluster.

    Por exemplo, se criou um cluster com o nome mycluster001, utilize este formato:

    https://mycluster001.azurehdinsight.net

  5. Na caixa de texto do nome da conta do utilizador Hadoop , cole na conta de utilizador Hadoop que utilizou quando antendo o cluster.

  6. Na caixa de texto de palavra-passe da conta de utilizador Hadoop , digite as credenciais que utilizou quando forte o cluster.

  7. Para a localização dos dados de saída, selecione a opção que indica onde os dados devem ser armazenados: HDFS ou Azure.

    Se os dados estiverem no sistema de ficheiros distribuídos hadoop (HDFS), este deve estar acessível através da mesma conta e senha que acabou de introduzir.

    Se os dados estiverem em Azure, forneça a localização e as credenciais da conta de armazenamento.

  8. Se selecionou a opção HDFS , para o servidor HDFS URI, especifique o nome do cluster HDInsight sem o https:// prefixo.

  9. Se selecionou a opção Azure , forneça o nome da conta de armazenamento e as credenciais que o módulo pode usar para ligar ao armazenamento.

    • Nome da conta de armazenamento Azure: Digite o nome da conta Azure. Por exemplo, se o URL completo da conta de armazenamento for https://myshared.blob.core.windows.net, escreveria myshared.

    • Chave de armazenamento Azure: Copiar e colar a chave que está prevista para aceder à conta de armazenamento.

    • Nome do recipiente azul: Especifique o recipiente predefinido para o cluster. Para obter dicas sobre o sê-lo, consulte a secção de notas técnicas .

  10. Utilize resultados em cache: Selecione esta opção se quiser evitar reescrever a tabela Hive sempre que executar a experiência. Se não houver outras alterações nos parâmetros do módulo, a experiência escreve a tabela Hive apenas a primeira vez que o módulo é executado, ou quando há alterações nos dados.

    Se quiser escrever a tabela Hive cada vez que a experiência é executada, desmarca a opção de resultados em cache Use .

  11. Execute a experimentação.

Exemplos

Por exemplo, como utilizar o módulo de Dados de Exportação , consulte a Galeria Azure AI.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Perguntas comuns

Como evitar problemas de memória ao escrever grandes conjuntos de dados

Por vezes, a configuração padrão do cluster Hadoop é demasiado limitada para suportar a execução do trabalho MapReduce. Por exemplo, nestas Notas de Lançamento para HDInsight, as definições padrão são definidas como um cluster de quatro nós.

Se os requisitos do trabalho mapReduce excederem a capacidade disponível, as consultas da Hive poderão devolver uma mensagem de erro out of Memory , o que faz com que a operação de Dados de Exportação falhe. Se isso acontecer, pode alterar a alocação de memória padrão para consultas de Hive.

Como evitar reessarcar os mesmos dados desnecessariamente

Se não quiser recriar a tabela Hive sempre que executar a experiência, selecione a opção de resultados em cache de Utilização para TRUE. Quando esta opção estiver definida para TRUE, o módulo verificará se a experiência já foi executada anteriormente, e se for encontrada uma execução anterior, a operação de escrita não é realizada.

Dicas de utilização

Pode ser difícil descobrir o recipiente padrão para o cluster. Eis algumas sugestões:

  • Se criou o seu cluster utilizando as definições padrão, foi criado um recipiente com o mesmo nome ao mesmo tempo que o cluster foi criado. Este contentor é o recipiente padrão para o aglomerado.

  • Se criou o cluster utilizando a opção CUSTOM CREATE , foi-lhe dada duas opções para selecionar o recipiente predefinido.

    Recipiente existente: Se selecionar um recipiente existente, esse recipiente é o recipiente de armazenamento predefinido para o aglomerado.

    Criar recipiente predefinido: Se selecionar esta opção, foi criado um recipiente com o mesmo nome que o cluster, e deverá especificar esse nome do recipiente como recipiente predefinido para o cluster.

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Description
Origem de dados Lista Fonte de dados ou pia Armazenamento de Blobs do Azure A fonte de dados pode ser HTTP, FTP, HTTPS ou FTPS anónimos, um ficheiro no armazenamento Azure BLOB, uma tabela Azure, uma Base de Dados SQL do Azure, uma tabela Hive ou um ponto final OData.
Nome da mesa de colmeia qualquer String nenhum Nome da tabela na Colmeia
HCatalog servidor URI qualquer String nenhum Ponto final de Templeton
Nome da conta do utilizador Hadoop qualquer String nenhum Nome de utilizador Hadoop HDFS/HDInsight
Senha de conta de utilizador Hadoop qualquer SecureString nenhum Senha Hadoop HDFS/HDInsight
Localização dos dados de saída qualquer DataLocation HDFS Especificar HDFS ou Azure para saídaDir
URI do servidor HDFS qualquer String nenhum Ponto final de descanso HDFS
Nome da conta de armazenamento do Azure qualquer String nenhum Nome da conta de armazenamento do Azure
Chave de armazenamento azul qualquer SecureString nenhum Chave de armazenamento azul
Nome do recipiente Azure qualquer String nenhum Nome do recipiente Azure
Use resultados em cache VERDADEIRO/FALSO Booleano FALSE O módulo só executa se não existir cache válido; caso contrário, utilize dados em cache da execução prévia.

Exceções

Exceção Description
Erro 0027 Uma exceção ocorre quando dois objetos têm que ter o mesmo tamanho, mas não são.
Erro 0003 Uma exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0029 Uma exceção ocorre quando um URI inválido é passado.
Erro 0030 uma exceção ocorre quando não é possível descarregar um ficheiro.
Erro 0002 Ocorre uma exceção se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método-alvo.
Erro 0009 Ocorre uma exceção se o nome da conta de armazenamento Azure ou o nome do recipiente forem especificados incorretamente.
Erro 0048 Uma exceção ocorre quando não é possível abrir um ficheiro.
Erro 0046 Uma exceção ocorre quando não é possível criar um diretório em caminho especificado.
Erro 0049 Uma exceção ocorre quando não é possível analisar um ficheiro.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.

Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.

Ver também

Importar Dados
Dados de Exportação
Exportação para Base de Dados SQL do Azure
Exportação para Azure Blob Armazenamento
Exportação para quadro de Azure