Tutorial: importar notebooks Jupyter do GitHub para o Azure Cosmos DB for NoSQL (versão prévia)
APLICA-SE A: NoSQL
Aviso
O recurso Jupyter Notebooks do Azure Cosmos DB será desativado em 30 de março de 2024. Você não poderá usar notebooks Jupyter internos na conta do Azure Cosmos DB. Recomendamos usar o suporte do Visual Studio Code para notebooks Jupyter ou seu cliente preferido de notebooks.
Este tutorial explica como importar notebooks Jupyter de um repositório GitHub e executá-los em uma conta do Azure Cosmos DB for NoSQL. Depois de importar os notebooks, você pode executá-los, editá-los e persistir as alterações no mesmo repositório GitHub.
Pré-requisitos
- Uma conta existente do Azure Cosmos DB for NoSQL.
- Se você tiver uma assinatura existente do Azure, crie uma nova conta.
- Nenhuma assinatura do Azure? Você pode experimentar o Azure Cosmos DB gratuitamente sem necessidade de cartão de crédito.
Criar uma cópia de um repositório GitHub
Navegue até o repositório de modelos azure-samples/cosmos-db-nosql-notebooks.
Crie uma nova cópia do repositório de modelos em sua própria organização ou conta do GitHub.
Efetuar pull de notebooks do GitHub
Em vez de criar novos notebooks sempre que você iniciar um workspace, é possível importar notebooks existentes do GitHub. Nesta seção, você se conectará a um repositório GitHub existente com notebooks de exemplo.
Vá até sua conta do Azure Cosmos DB e abra o Data Explorer.
Selecione Conectar-se ao GitHub.
Na caixa de diálogo Conectar-se ao GitHub, selecione a opção de acesso apropriada ao repositório GitHub e, em seguida, selecione Autorizar acesso.
Conclua o fluxo de trabalho de autorização de terceiros do GitHub concedendo acesso às organizações necessárias para acessar o repositório GitHub. Para obter mais informações, consulte Autorizar Aplicativos GitHub.
Na caixa de diálogo Gerenciar configurações do GitHub, selecione o repositório GitHub criado anteriormente.
De volta no Data Explorer, localize a nova árvore de nós para o repositório fixado e abra o arquivo website-metrics-python.ipynb.
No editor do notebook, localize a célula a seguir.
import pandas as pd pd.options.display.html.table_schema = True pd.options.display.max_rows = None df_cosmos.groupby("Item").size()
A célula atualmente gera o número de itens exclusivos. Substitua a linha final da célula por uma nova linha para gerar o número de ações exclusivas no conjunto de dados.
df_cosmos.groupby("Action").size()
Execute todas as células sequencialmente para ver o novo conjunto de dados. O novo conjunto de dados deve incluir apenas três valores potenciais para a coluna Ação. Como alternativa, você pode selecionar uma visualização de dados para os resultados.
Enviar por push as alterações do notebook ao GitHub
Dica
Atualmente, os workspaces temporários são desalocados se ficarem ociosos por 20 minutos. O tempo máximo de uso por dia é 60 minutos. Esses limites estão sujeitos a alterações no futuro.
Para salvar seu trabalho permanentemente, salve seus notebooks de volta no repositório GitHub. Nesta seção, você persistirá suas alterações do workspace temporário para o GitHub como um novo commit.
Selecione Salvar para criar um commit para a alteração no notebook.
Na caixa de diálogo Salvar, adicione uma mensagem de confirmação descritiva.
Navegue até o repositório GitHub que você criou usando o seu navegador. O novo commit agora deverá estar visível no repositório online.