Essa arquitetura foi projetada para mostrar uma implementação de ponta a ponta que envolve extrair, carregar, transformar e analisar dados espaciais usando bibliotecas geoespaciais e modelos de IA com o Azure Synapse Analytics. Este artigo também mostra como integrar modelos de Serviços Cognitivos do Azure específicos geoespacialmente, modelos de IA de parceiros, traga seus próprios dados e modelos de IA que usam o Azure Synapse Analytics. O público-alvo deste documento são usuários com níveis intermediários de habilidade em trabalhar com dados geoespaciais ou espaciais.
Uma implementação dessa arquitetura está disponível no GitHub.
Apache®, Apache Spark, Spark, o logotipo Spark, Apache Sedona, Apache Incubator, o logotipo Apache feather e o logotipo do projeto Apache Incubator são marcas registradas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou em outros países. Nenhum endosso da Apache Software Foundation está implícito no uso dessas marcas.
Arquitetura
Transfira um ficheiro do Visio desta arquitetura.
Fluxo de dados
As seções a seguir descrevem os estágios da arquitetura.
Ingestão de dados
Os dados espaciais são extraídos de fontes de dados como Airbus, NAIP/USDA (via Planetary Computer API) e Maxar. Os dados são ingeridos no Armazenamento do Azure Data Lake.
O Azure Synapse Analytics fornece vários pipelines e atividades, como atividade da Web, atividade de fluxo de dados e atividades personalizadas, para se conectar a essas fontes e copiar os dados para o Armazenamento Data Lake.
As atividades personalizadas do Azure Synapse executam sua lógica de código personalizada em um pool de Lotes do Azure de máquinas virtuais ou em contêineres compatíveis com o Docker.
Transformação de dados
Os dados são processados e transformados em um formato que analistas e modelos de IA podem consumir. Bibliotecas geoespaciais, incluindo GDAL, OGR, Rasterio e GeoPandas, estão disponíveis para realizar a transformação.
Os pools do Azure Synapse Spark fornecem a capacidade de configurar e usar essas bibliotecas para executar as transformações de dados. Você também pode usar as atividades personalizadas do Azure Synapse, que usam pools de lotes do Azure.
Um bloco de anotações do Azure Synapse é uma interface da Web que você pode usar para criar arquivos que contêm código dinâmico, visualizações e texto narrativo. Os blocos de anotações são um bom lugar para validar ideias, definir transformações e fazer experimentos rápidos para obter insights de seus dados e criar um pipeline. No código de exemplo, a biblioteca GDAL é usada em um pool do Spark para executar transformações de dados. Para obter mais informações, consulte a seção de código de exemplo deste artigo.
A solução de exemplo implementa esse pipeline a partir desta etapa de transformação de dados. O exemplo é escrito com a suposição de que os dados são copiados no Armazenamento Data Lake pelos métodos de ingestão de dados descritos anteriormente. Ele demonstra a implementação desse pipeline para processamento de dados raster.
Análise e execução de modelos de IA
O ambiente de notebook do Azure Synapse analisa e executa modelos de IA.
Os modelos de IA desenvolvidos com serviços como o modelo de Visão Personalizada dos Serviços Cognitivos, treinados em seu próprio ambiente e empacotados como contêineres do Docker estão disponíveis no ambiente do Azure Synapse.
No ambiente do Azure Synapse, você também pode executar modelos de IA que estão disponíveis de parceiros para vários recursos, como deteção de objetos, deteção de alterações e classificação de terras. Esses modelos são treinados em seu próprio ambiente e embalados como contêineres Docker.
O Azure Synapse pode executar esses modelos de IA por meio de uma atividade personalizada que executa código em pools de lotes como executáveis ou contêineres do Docker. A solução de exemplo demonstra como executar um modelo de IA de Visão Personalizada como parte de um pipeline do Azure Synapse para deteção de objetos em uma área geoespacial específica.
Pós-análise e visualização
- Para análise e visualização adicionais, a saída da análise e execução dos modelos de IA pode ser armazenada no Armazenamento Data Lake, bancos de dados com reconhecimento de dados, como o Banco de Dados do Azure para PostgreSQL ou o Azure Cosmos DB. A solução de exemplo mostra como transformar a saída do modelo de IA e armazená-la como dados GeoJSON no Armazenamento Data Lake e no Banco de Dados do Azure para PostgreSQL. Você pode recuperar e consultar a saída de lá.
- Para visualização:
- Você pode utilizar ferramentas licenciadas como ArcGIS Desktop ou ferramentas de código aberto como QGIS.
- Você pode usar o Power BI para acessar GeoJSON de várias fontes de dados e visualizar os dados do sistema de informações geográficas (GIS).
- Você pode usar bibliotecas geoespaciais baseadas em JavaScript do lado do cliente para visualizar os dados em aplicativos Web.
Componentes
Origens de dados
- Fornecedores de imagens.
- Traga os seus próprios dados. Copie seus próprios dados para o Armazenamento Data Lake.
Ingestão de dados
- O Azure Synapse Analytics é um serviço de análise ilimitado que reúne integração de dados, armazenamento de dados corporativos e análise de big data. O Azure Synapse contém o mesmo mecanismo de Integração de Dados e experiências do Azure Data Factory, para que você possa criar pipelines ETL em escala sem sair do Azure Synapse.
- O Armazenamento Azure Data Lake é dedicado à análise de big data e foi criado no Armazenamento de Blobs do Azure.
- O Azure Batch permite executar e dimensionar um grande número de trabalhos de computação em lote no Azure. As tarefas em lote podem ser executadas diretamente em máquinas virtuais (nós) em um pool de lotes, mas você também pode configurar um pool de lotes para executar tarefas em contêineres compatíveis com o Docker nos nós.
- Uma atividade Personalizada do Azure Synapse executa lógica de código personalizada em um pool de Lotes do Azure de máquinas virtuais ou em contêineres do Docker.
- O Azure Key Vault armazena e controla o acesso a segredos como tokens, palavras-passe e chaves de API. O Cofre de Chaves também cria e controla chaves de criptografia e gerencia certificados de segurança.
Transformação de dados
As seguintes bibliotecas geoespaciais e pacotes são usados juntos para transformações. Essas bibliotecas e pacotes são instalados em um pool do Spark sem servidor, que é anexado a um bloco de anotações do Azure Synapse. Para obter informações sobre como instalar as bibliotecas, consulte Instalar pacotes geoespaciais em um pool do Azure Synapse Spark, mais adiante neste artigo.
- Bibliotecas geoespaciais
- GDAL é uma biblioteca de ferramentas para manipular dados espaciais. GDAL funciona em tipos de dados raster e vetoriais. É uma boa ferramenta para saber se você está trabalhando com dados espaciais.
- Rasterio é um módulo para processamento raster. Você pode usá-lo para ler e escrever vários formatos raster diferentes em Python. Rasterio é baseado em GDAL. Quando o módulo é importado, o Python registra automaticamente todos os drivers GDAL conhecidos para leitura de formatos suportados.
- GeoPandas é um projeto de código aberto que pode facilitar o trabalho com dados espaciais em Python. GeoPandas estende os tipos de dados usados por Pandas para permitir operações espaciais em tipos geométricos.
- Shapely é um pacote Python para análise teórica de conjuntos e manipulação de recursos planares. Ele usa (através do módulo ctypes do Python) funções da biblioteca GEOS amplamente implantada.
- O PYPROJ realiza transformações cartográficas. Ele converte de longitude e latitude para projeção de mapa nativo x, coordenadas y e vice-versa, usando PROJ.
- O Azure Batch permite executar e dimensionar um grande número de trabalhos de computação em lote no Azure.
- Os blocos de anotações do Azure Synapse são uma interface Web para criar arquivos que contêm código dinâmico, visualizações e texto narrativo. Você pode adicionar blocos de anotações existentes do Azure Synapse a um pipeline do Azure Synapse usando a atividade do Bloco de Anotações.
- O pool do Apache Spark fornece a capacidade de configurar e usar bibliotecas para executar transformações de dados. Você pode adicionar trabalhos existentes do Spark a um pipeline do Azure Synapse usando a atividade Definição de Trabalho do Spark.
Análise e modelagem de IA
- O Azure Synapse fornece recursos de aprendizado de máquina.
- O Azure Batch permite executar e dimensionar um grande número de trabalhos de computação em lote no Azure. Nesta solução, a atividade Personalizada do Azure Synapse é usada para executar modelos de IA baseados no Docker em pools de Lotes do Azure.
- Os Serviços Cognitivos do Azure fornecem a capacidade de incorporar visão em seus aplicativos. Você pode usar a Visão Personalizada, um componente dos Serviços Cognitivos, para personalizar e incorporar análise de imagem de visão computacional de última geração para domínios específicos.
- Você também pode usar modelos de IA traga seu próprio e modelos de IA de parceiros da Microsoft, como blackshark.ai.
Links de pós-análise e visualização
- O Banco de Dados do Azure para PostgreSQL é um serviço de banco de dados relacional totalmente gerenciado projetado para cargas de trabalho de hiperescala. Suporta dados espaciais através da extensão PostGIS .
- O Azure Cosmos DB dá suporte à indexação e consulta de dados de pontos geoespaciais representados em GeoJSON.
- O Power BI é uma ferramenta interativa de visualização de dados para criar relatórios e dashboards. Você pode obter insights sobre dados espaciais do ArcGIS Maps da Esri.
- O QGIS é um SIG gratuito de código aberto para criar, editar, visualizar, analisar e publicar informação geoespacial.
- O ArcGIS Desktop é um produto licenciado fornecido pela Esri. Você pode usá-lo para criar, analisar, gerenciar e compartilhar informações geográficas.
Alternativas
Se quiser executar modelos de IA em contêineres que você pode chamar do Azure Synapse, você pode usar o Serviço Kubernetes do Azure, as Instâncias de Contêiner do Azure ou os Aplicativos de Contêiner do Azure.
O Azure Databricks fornece uma alternativa para hospedar um pipeline de análise.
O Spark no Azure HDInsight fornece uma alternativa para usar bibliotecas geoespaciais no ambiente Apache Spark.
Aqui estão algumas bibliotecas e estruturas alternativas que você pode usar para processamento de dados espaciais:
- Apache Sedona, anteriormente chamado GeoSpark, é um sistema de computação em cluster para processamento de dados espaciais em grande escala. O Sedona estende o Spark e o Spark SQL com conjuntos de dados distribuídos resilientes espaciais prontos para uso e SpatialSQL que carregam, processam e analisam dados espaciais em grande escala de forma eficiente entre máquinas.
- Dask for Python é uma biblioteca de computação paralela que dimensiona o ecossistema Python existente.
Detalhes do cenário
A recolha de dados espaciais é cada vez mais comum. Para a aplicação da inteligência artificial, arquivos armazenados de dados são necessários para o aprendizado de máquina. A necessidade de construir uma solução baseada na nuvem para análise de dados espaciais tornou-se mais importante para permitir que empresas e governos conduzam decisões táticas e de negócios mais bem informadas.
Potenciais casos de utilização
Esta solução é ideal para as indústrias aeroespacial e aeronáutica. Aborda estes cenários:
- Ingestão e processamento de dados raster
- Deteção de objetos por meio de modelos de IA pré-treinados
- Classificação de massas de terra através de modelos de IA
- Monitoramento de mudanças no ambiente por meio de modelos de IA
- Conjuntos de dados derivados de conjuntos de imagens pré-processados
- Visualização vetorial / consumo em pequenas áreas
- Filtragem de dados vetoriais e junções de dados cruzados
Considerações
Essas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que podem ser usados para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, consulte Microsoft Azure Well-Architected Framework.
Excelência operacional
Se você colaborar usando o Git para controle do código-fonte, poderá usar o Synapse Studio para associar seu espaço de trabalho a um repositório Git, Azure DevOps ou GitHub. Para obter mais informações, consulte Controle do código-fonte no Synapse Studio.
- Em um espaço de trabalho do Azure Synapse, o CI/CD move todas as entidades de um ambiente (desenvolvimento, teste, produção) para outro.
- Você pode usar os pipelines de liberação do Azure DevOps e as Ações do GitHub para automatizar a implantação de um espaço de trabalho do Azure Synapse em vários ambientes.
Desempenho
- O Azure Synapse suporta o Apache Spark 3.1.2, que tem um desempenho mais elevado do que os seus antecessores.
- Para obter informações sobre o dimensionamento do pool do Spark e os tamanhos dos nós, consulte Pools do Spark no Azure Synapse Analytics.
- Com o Azure Batch, você pode expandir intrinsecamente paralelamente para transformações enviadas em uma atividade personalizada do Azure Synapse. O Azure Batch dá suporte a tamanhos de VM especializados otimizados para GPU que você pode usar para executar modelos de IA.
Fiabilidade
A confiabilidade garante que seu aplicativo possa atender aos compromissos que você assume com seus clientes. Para obter mais informações, consulte Visão geral do pilar de confiabilidade.
Para obter informações sobre SLA, consulte Azure Synapse SLA.
Segurança
A segurança oferece garantias contra ataques deliberados e o abuso de seus valiosos dados e sistemas. Para obter mais informações, consulte Visão geral do pilar de segurança.
Consulte estes artigos para obter as práticas recomendadas de segurança:
- Segurança do Azure Synapse Analytics: Introdução
- Segurança do Azure Synapse Analytics: Proteção de dados
- Segurança do Azure Synapse Analytics: Controle de acesso
- Segurança do Azure Synapse Analytics: Autenticação
- Azure Synapse Analytics: Segurança de rede
Otimização de custos
A otimização de custos consiste em procurar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Visão geral do pilar de otimização de custos.
Estes recursos fornecem informações sobre preços e otimização de custos:
- Planejar e gerenciar custos para o Azure Synapse
- Azure Synapse na calculadora de preços do Azure
- Pool do Apache Spark no Azure Synapse
- Nós e conjuntos no Azure Batch
- Azure Batch na calculadora de preços do Azure
Nota
Para obter preços e termos de licença para modelos de IA de parceiros, consulte a documentação do parceiro.
Implementar este cenário
Uma implantação Bicep da solução de exemplo está disponível. Para começar com essa implantação, consulte estas instruções.
Transfira um ficheiro do Visio desta arquitetura.
Limitações
Essa arquitetura demonstra uma solução de geoprocessamento e análise de ponta a ponta que usa o Azure Synapse. Esta implementação de exemplo é direcionada para uma pequena e média área de interesse e geoprocessamento simultâneo limitado de dados rasterizados.
Código de exemplo
As instruções a seguir descrevem como ler, gravar e aplicar transformações a dados raster armazenados no Armazenamento do Azure Data Lake usando um bloco de anotações Synapse. A intenção é mais demonstrar o uso de bibliotecas em cadernos Synapse do que demonstrar a transformação.
Pré-requisitos
- Instale as bibliotecas geoespaciais.
- Crie um cofre de chaves do Azure para armazenar segredos. Nesse cenário, armazenaremos a chave de acesso da conta de armazenamento no cofre de chaves. Para obter instruções, consulte Armazenar credenciais no Cofre da Chave do Azure.
- Crie um serviço vinculado para o Azure Key Vault usando o Azure Synapse.
Instruções
Imprima informações a partir dos dados rasterizados:
from osgeo import gdal gdal.UseExceptions() access_key = TokenLibrary.getSecret('<key-vault-name>','<secret-name>') gdal.SetConfigOption('AZURE_STORAGE_ACCOUNT', '<storage_account_name>') gdal.SetConfigOption('AZURE_STORAGE_ACCESS_KEY', access_key) dataset_info = gdal.Info('/vsiadls/aoa/input/sample_image.tiff') #/vsiadls/<container_name>/path/to/image print(dataset_info)
Nota
/vsiadls/
é um manipulador de sistema de arquivos que permite a leitura aleatória instantânea de arquivos principalmente não públicos disponíveis nos sistemas de arquivos do Armazenamento do Azure Data Lake. Não é necessário fazer o download prévio de todo o arquivo./vsiadls/
é semelhante a/vsiaz/
. Ele usa as mesmas opções de configuração para autenticação. Ao contrário do/vsiaz/
,/vsiadls/
fornece gerenciamento de diretório real e suporte a ACL no estilo Unix. Para alguns recursos, o suporte hierárquico precisa ser ativado no armazenamento do Azure. Para obter mais informações, consulte a/vsiadls/
documentação.Driver: GTiff/GeoTIFF Files: /vsiadls/naip/input/sample_image.tiff Size is 6634, 7565 Coordinate System is: PROJCRS["NAD83 / UTM zone 16N", BASEGEOGCRS["NAD83", DATUM["North American Datum 1983", ELLIPSOID["GRS 1980",6378137,298.257222101, LENGTHUNIT["metre",1]]], PRIMEM["Greenwich",0, ANGLEUNIT["degree",0.0174532925199433]], ID["EPSG",4269]], CONVERSION["UTM zone 16N", METHOD["Transverse Mercator", ID["EPSG",9807]], PARAMETER["Latitude of natural origin",0, ANGLEUNIT["degree",0.0174532925199433], ID["EPSG",8801]], PARAMETER["Longitude of natural origin",-87, ANGLEUNIT["degree",0.0174532925199433], ID["EPSG",8802]], PARAMETER["Scale factor at natural origin",0.9996, SCALEUNIT["unity",1], ID["EPSG",8805]], PARAMETER["False easting",500000, LENGTHUNIT["metre",1], ID["EPSG",8806]], PARAMETER["False northing",0, LENGTHUNIT["metre",1], ID["EPSG",8807]]], CS[Cartesian,2], AXIS["(E)",east, ORDER[1], LENGTHUNIT["metre",1]], AXIS["(N)",north, ORDER[2], LENGTHUNIT["metre",1]], USAGE[ SCOPE["Engineering survey, topographic mapping."], AREA["North America - between 90°W and 84°W - onshore and offshore. Canada - Manitoba; Nunavut; Ontario. United States (USA) - Alabama; Arkansas; Florida; Georgia; Indiana; Illinois; Kentucky; Louisiana; Michigan; Minnesota; Mississippi; Missouri; North Carolina; Ohio; Tennessee; Wisconsin."], BBOX[23.97,-90,84,-84]], ID["EPSG",26916]] Data axis to CRS axis mapping: 1,2 Origin = (427820.000000000000000,3395510.000000000000000) Pixel Size = (1.000000000000000,-1.000000000000000) Metadata: AREA_OR_POINT=Area Image Structure Metadata: COMPRESSION=DEFLATE INTERLEAVE=PIXEL LAYOUT=COG PREDICTOR=2 Corner Coordinates: Upper Left ( 427820.000, 3395510.000) ( 87d45'13.12"W, 30d41'24.67"N) Lower Left ( 427820.000, 3387945.000) ( 87d45'11.21"W, 30d37'18.94"N) Upper Right ( 434454.000, 3395510.000) ( 87d41' 3.77"W, 30d41'26.05"N) Lower Right ( 434454.000, 3387945.000) ( 87d41' 2.04"W, 30d37'20.32"N) Center ( 431137.000, 3391727.500) ( 87d43' 7.54"W, 30d39'22.51"N) Band 1 Block=512x512 Type=Byte, ColorInterp=Red Overviews: 3317x3782, 1658x1891, 829x945, 414x472 Band 2 Block=512x512 Type=Byte, ColorInterp=Green Overviews: 3317x3782, 1658x1891, 829x945, 414x472 Band 3 Block=512x512 Type=Byte, ColorInterp=Blue Overviews: 3317x3782, 1658x1891, 829x945, 414x472 Band 4 Block=512x512 Type=Byte, ColorInterp=Undefined Overviews: 3317x3782, 1658x1891, 829x945, 414x472
Converta GeoTiff em PNG usando GDAL:
from osgeo import gdal gdal.UseExceptions() access_key = TokenLibrary.getSecret('<key-vault-name>','<secret-name>') gdal.SetConfigOption('AZURE_STORAGE_ACCOUNT', '<storage_account_name>') gdal.SetConfigOption('AZURE_STORAGE_ACCESS_KEY', access_key) tiff_in = "/vsiadls/aoa/input/sample_image.tiff" #/vsiadls/<container_name>/path/to/image png_out = "/vsiadls/aoa/input/sample_image.png" #/vsiadls/<container_name>/path/to/image options = gdal.TranslateOptions(format='PNG') gdal.Translate(png_out, tiff_in, options=options)
Armazene imagens GeoTiff no Armazenamento do Azure Data Lake.
Devido à forma como os dados são armazenados na nuvem e ao fato de que os manipuladores de
/vsiaz/
arquivos suportam/vsiadls/
apenas gravações sequenciais, usamos o recurso de montagem de arquivo disponível no pacote mssparkutils. Depois que a saída for gravada em um local de montagem, copie-a para o Armazenamento do Azure Data Lake, conforme mostrado nesta transformação de exemplo:import shutil import sys from osgeo import gdal from notebookutils import mssparkutils mssparkutils.fs.mount( "abfss://<container_name>@<storage_account_name>.dfs.core.windows.net", "/<mount_path>", {"linkedService":"<linked_service_name>"} ) access_key = TokenLibrary.getSecret('<key-vault-name>','<secret-name>') gdal.SetConfigOption('AZURE_STORAGE_ACCOUNT', '<storage_account_name>') gdal.SetConfigOption('AZURE_STORAGE_ACCESS_KEY', access_key) options = gdal.WarpOptions(options=['tr'], xRes=1000, yRes=1000) gdal.Warp('dst_img.tiff', '/vsiadls/<container_name>/path/to/src_img.tiff', options=options) jobId = mssparkutils.env.getJobId() shutil.copy("dst_img.tiff", f"/synfs/{jobId}/<mount_path>/path/to/dst_img.tiff")
No Azure Synapse, você pode adicionar o Armazenamento do Azure Data Lake como um dos serviços vinculados. Para obter instruções, consulte Serviços vinculados.
Solução de amostra
Uma implementação dessa arquitetura está disponível no GitHub.
Este diagrama mostra as etapas na solução de exemplo:
Transfira um ficheiro do Visio desta arquitetura.
Nota
Os dados são extraídos de fontes de dados espaciais e copiados para o Armazenamento do Azure Data Lake. A ingestão de dados não faz parte da implementação de referência.
- Um pipeline do Azure Synapse lê os dados espaciais do Armazenamento do Azure Data Lake.
- Os dados são processados com a biblioteca GDAL em um bloco de anotações do Azure Synapse.
- Os dados processados são armazenados no Armazenamento do Azure Data Lake.
- Os dados processados são lidos do Armazenamento do Azure Data Lake e passados para modelos de IA de Visão Personalizada de deteção de objetos por uma atividade Personalizada do Azure Synapse. A atividade Personalizada usa pools de Lotes do Azure para executar o modelo de deteção de objetos.
- O modelo de deteção de objetos gera uma lista de objetos detetados e caixas delimitadoras.
- Os objetos detetados são convertidos em GeoJSON e armazenados no Armazenamento do Azure Data Lake.
- Os dados GeoJSON são lidos do Armazenamento do Azure Data Lake e armazenados em um banco de dados PostgreSQL.
- Os dados são lidos a partir do banco de dados PostgreSQL. Ele pode ser visualizado ainda mais em ferramentas como ArcGIS Pro, QGIS e Power BI.
Instalar pacotes geoespaciais em um pool do Azure Synapse Spark
Você precisa instalar os pacotes em um pool do Azure Synapse Spark usando o recurso de gerenciamento de pacotes. Para obter mais informações, consulte Gerenciamento de pacotes do Azure Synapse.
Para dar suporte a cargas de trabalho de dados espaciais no Azure Synapse, você precisa de bibliotecas como GDAL, Rasterio e GeoPandas. Você pode instalar essas bibliotecas em um pool Apache Spark sem servidor usando um arquivo YAML. As bibliotecas Anaconda estão pré-instaladas na piscina Spark.
Pré-requisitos
Instruções
As seguintes bibliotecas e pacotes estão disponíveis no arquivo environment.yml . Recomendamos usar esse arquivo para instalar as bibliotecas nos pools do Spark. Se você copiar o conteúdo abaixo, certifique-se de que não há guias, pois o YAML só permite espaços como recuo.
name: aoi-env channels: - conda-forge - defaults dependencies: - azure-storage-file-datalake - gdal=3.3.0 - libgdal - pip>=20.1.1 - pyproj - shapely - pip: - rasterio - geopandas
Nota
A GDAL usa o sistema
/vsiadls/
de arquivos virtual para o Armazenamento do Azure Data Lake.Aceda e https://web.azuresynapse.net inicie sessão na sua área de trabalho.
Selecione Gerenciar no painel de navegação e, em seguida, selecione Pools do Apache Spark.
Selecione Pacotes selecionando o botão de reticências (...) no pool do Spark. Carregue o arquivo environment.yml do local e aplique as configurações do pacote.
A secção de notificação do portal notifica-o quando a instalação estiver concluída. Você também pode acompanhar o progresso da instalação seguindo estas etapas:
- Vá para a lista de aplicativos do Spark na guia Monitor .
- Selecione o link SystemReservedJob-LibraryManagement que corresponde à atualização do pool.
- Exiba os logs de driver.
Execute o código a seguir para verificar se as versões corretas das bibliotecas instaladas. As bibliotecas pré-instaladas que o Conda instala também serão listadas.
import pkg_resources for d in pkg_resources.working_set: print(d)
Para obter mais informações, consulte Gerenciar pacotes.
Contribuidores
Este artigo está sendo atualizado e mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.
Principais autores:
- Kungumaraj Nachimuthu - Brasil | Engenheiro de Software Sênior
- Karthick Narendran - Brasil | Engenheiro de Software Sênior
Contribuidores adicionais:
- Mick Alberts - Brasil | Redator Técnico
- Taylor Corbett - Brasil | Cientista de Dados Sênior
- Tushar Dhadiwal - Brasil | Engenheiro de Software Sênior
- Mandar Inamdar - Brasil | Gerente de Engenharia Principal
- Sushil Kumar - Brasil | Engenheiro de Software Sênior
- Nikhil Manchanda - Brasil | Gerente de Engenharia Principal
- Safiyah Sadiq - Brasil | Engenheiro de Software II
- Xiaoyuan Yang - Brasil | Gerente Principal de Ciência de Dados
- Tai Yee - Brasil | Gerente de Programa Sênior
Próximos passos
- Obter informações geoespaciais a partir de big data usando SynapseML
- Introdução ao Azure Synapse Analytics
- Explore Azure Synapse Studio
- Criar e consumir Serviços Cognitivos