Exportação para Consulta de Colmeia
Importante
O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.
A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).
- Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
- Saiba mais sobre Azure Machine Learning.
A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.
Nota
Aplica-se a: Machine Learning Studio (clássico) apenas
Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.
Este artigo descreve como utilizar os dados de exportação para a opção Hive no módulo de Dados de Exportação em Machine Learning Studio (clássico). Esta opção é útil quando está a trabalhar com conjuntos de dados muito grandes e pretende guardar os dados da experiência de aprendizagem automática para um cluster Hadoop ou armazenamento distribuído hdInsight. Também pode querer exportar resultados intermédios ou outros dados para Hadoop para que possa processá-lo usando um trabalho mapReduce.
Como exportar dados para a Colmeia
Adicione o módulo de Dados de Exportação à sua experiência. Pode encontrar este módulo na categoria entrada e saída de dados no Machine Learning Studio (clássico).
Ligação o módulo para o conjunto de dados que pretende exportar.
Para obter informações sobre dados, selecione Hive Consulta.
Para o nome da mesa hive digite o nome da tabela Hive em que para armazenar o conjunto de dados.
Na caixa de texto URI do servidor HCatalog , digite o nome totalmente qualificado do seu cluster.
Por exemplo, se criou um cluster com o nome
mycluster001
, utilize este formato:https://mycluster001.azurehdinsight.net
Na caixa de texto do nome da conta do utilizador Hadoop , cole na conta de utilizador Hadoop que utilizou quando antendo o cluster.
Na caixa de texto de palavra-passe da conta de utilizador Hadoop , digite as credenciais que utilizou quando forte o cluster.
Para a localização dos dados de saída, selecione a opção que indica onde os dados devem ser armazenados: HDFS ou Azure.
Se os dados estiverem no sistema de ficheiros distribuídos hadoop (HDFS), este deve estar acessível através da mesma conta e senha que acabou de introduzir.
Se os dados estiverem em Azure, forneça a localização e as credenciais da conta de armazenamento.
Se selecionou a opção HDFS , para o servidor HDFS URI, especifique o nome do cluster HDInsight sem o
https://
prefixo.Se selecionou a opção Azure , forneça o nome da conta de armazenamento e as credenciais que o módulo pode usar para ligar ao armazenamento.
Nome da conta de armazenamento Azure: Digite o nome da conta Azure. Por exemplo, se o URL completo da conta de armazenamento for
https://myshared.blob.core.windows.net
, escreveriamyshared
.Chave de armazenamento Azure: Copiar e colar a chave que está prevista para aceder à conta de armazenamento.
Nome do recipiente azul: Especifique o recipiente predefinido para o cluster. Para obter dicas sobre o sê-lo, consulte a secção de notas técnicas .
Utilize resultados em cache: Selecione esta opção se quiser evitar reescrever a tabela Hive sempre que executar a experiência. Se não houver outras alterações nos parâmetros do módulo, a experiência escreve a tabela Hive apenas a primeira vez que o módulo é executado, ou quando há alterações nos dados.
Se quiser escrever a tabela Hive cada vez que a experiência é executada, desmarca a opção de resultados em cache Use .
Execute a experimentação.
Exemplos
Por exemplo, como utilizar o módulo de Dados de Exportação , consulte a Galeria Azure AI.
- Processo e Tecnologia Avançada de Analytics em Ação: Usando clusters HDInsight Hadoop: Este artigo fornece uma caminhada detalhada sobre como criar um cluster, carregar dados e chamar os dados do Studio (clássico) usando a Hive.
Notas técnicas
Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.
Perguntas comuns
Como evitar problemas de memória ao escrever grandes conjuntos de dados
Por vezes, a configuração padrão do cluster Hadoop é demasiado limitada para suportar a execução do trabalho MapReduce. Por exemplo, nestas Notas de Lançamento para HDInsight, as definições padrão são definidas como um cluster de quatro nós.
Se os requisitos do trabalho mapReduce excederem a capacidade disponível, as consultas da Hive poderão devolver uma mensagem de erro out of Memory , o que faz com que a operação de Dados de Exportação falhe. Se isso acontecer, pode alterar a alocação de memória padrão para consultas de Hive.
Como evitar reessarcar os mesmos dados desnecessariamente
Se não quiser recriar a tabela Hive sempre que executar a experiência, selecione a opção de resultados em cache de Utilização para TRUE. Quando esta opção estiver definida para TRUE, o módulo verificará se a experiência já foi executada anteriormente, e se for encontrada uma execução anterior, a operação de escrita não é realizada.
Dicas de utilização
Pode ser difícil descobrir o recipiente padrão para o cluster. Eis algumas sugestões:
Se criou o seu cluster utilizando as definições padrão, foi criado um recipiente com o mesmo nome ao mesmo tempo que o cluster foi criado. Este contentor é o recipiente padrão para o aglomerado.
Se criou o cluster utilizando a opção CUSTOM CREATE , foi-lhe dada duas opções para selecionar o recipiente predefinido.
Recipiente existente: Se selecionar um recipiente existente, esse recipiente é o recipiente de armazenamento predefinido para o aglomerado.
Criar recipiente predefinido: Se selecionar esta opção, foi criado um recipiente com o mesmo nome que o cluster, e deverá especificar esse nome do recipiente como recipiente predefinido para o cluster.
Parâmetros do módulo
Nome | Intervalo | Tipo | Predefinição | Description |
---|---|---|---|---|
Origem de dados | Lista | Fonte de dados ou pia | Armazenamento de Blobs do Azure | A fonte de dados pode ser HTTP, FTP, HTTPS ou FTPS anónimos, um ficheiro no armazenamento Azure BLOB, uma tabela Azure, uma Base de Dados SQL do Azure, uma tabela Hive ou um ponto final OData. |
Nome da mesa de colmeia | qualquer | String | nenhum | Nome da tabela na Colmeia |
HCatalog servidor URI | qualquer | String | nenhum | Ponto final de Templeton |
Nome da conta do utilizador Hadoop | qualquer | String | nenhum | Nome de utilizador Hadoop HDFS/HDInsight |
Senha de conta de utilizador Hadoop | qualquer | SecureString | nenhum | Senha Hadoop HDFS/HDInsight |
Localização dos dados de saída | qualquer | DataLocation | HDFS | Especificar HDFS ou Azure para saídaDir |
URI do servidor HDFS | qualquer | String | nenhum | Ponto final de descanso HDFS |
Nome da conta de armazenamento do Azure | qualquer | String | nenhum | Nome da conta de armazenamento do Azure |
Chave de armazenamento azul | qualquer | SecureString | nenhum | Chave de armazenamento azul |
Nome do recipiente Azure | qualquer | String | nenhum | Nome do recipiente Azure |
Use resultados em cache | VERDADEIRO/FALSO | Booleano | FALSE | O módulo só executa se não existir cache válido; caso contrário, utilize dados em cache da execução prévia. |
Exceções
Exceção | Description |
---|---|
Erro 0027 | Uma exceção ocorre quando dois objetos têm que ter o mesmo tamanho, mas não são. |
Erro 0003 | Uma exceção ocorre se uma ou mais entradas forem nulas ou vazias. |
Erro 0029 | Uma exceção ocorre quando um URI inválido é passado. |
Erro 0030 | uma exceção ocorre quando não é possível descarregar um ficheiro. |
Erro 0002 | Ocorre uma exceção se um ou mais parâmetros não puderem ser analisados ou convertidos do tipo especificado para o tipo exigido pelo método-alvo. |
Erro 0009 | Ocorre uma exceção se o nome da conta de armazenamento Azure ou o nome do recipiente forem especificados incorretamente. |
Erro 0048 | Uma exceção ocorre quando não é possível abrir um ficheiro. |
Erro 0046 | Uma exceção ocorre quando não é possível criar um diretório em caminho especificado. |
Erro 0049 | Uma exceção ocorre quando não é possível analisar um ficheiro. |
Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.
Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.
Ver também
Importar Dados
Dados de Exportação
Exportação para Base de Dados SQL do Azure
Exportação para Azure Blob Armazenamento
Exportação para quadro de Azure