Tutorial: importar notebooks Jupyter do GitHub para o Azure Cosmos DB for NoSQL (versão prévia)

APLICA-SE A: NoSQL

Aviso

O recurso Jupyter Notebooks do Azure Cosmos DB será desativado em 30 de março de 2024. Você não poderá usar notebooks Jupyter internos na conta do Azure Cosmos DB. Recomendamos usar o suporte do Visual Studio Code para notebooks Jupyter ou seu cliente preferido de notebooks.

Este tutorial explica como importar notebooks Jupyter de um repositório GitHub e executá-los em uma conta do Azure Cosmos DB for NoSQL. Depois de importar os notebooks, você pode executá-los, editá-los e persistir as alterações no mesmo repositório GitHub.

Pré-requisitos

Criar uma cópia de um repositório GitHub

  1. Navegue até o repositório de modelos azure-samples/cosmos-db-nosql-notebooks.

  2. Crie uma nova cópia do repositório de modelos em sua própria organização ou conta do GitHub.

Efetuar pull de notebooks do GitHub

Em vez de criar novos notebooks sempre que você iniciar um workspace, é possível importar notebooks existentes do GitHub. Nesta seção, você se conectará a um repositório GitHub existente com notebooks de exemplo.

  1. Vá até sua conta do Azure Cosmos DB e abra o Data Explorer.

  2. Selecione Conectar-se ao GitHub.

    Screenshot of the Data Explorer with the 'Connect to GitHub' option highlighted.

  3. Na caixa de diálogo Conectar-se ao GitHub, selecione a opção de acesso apropriada ao repositório GitHub e, em seguida, selecione Autorizar acesso.

    Screenshot of the 'Connect to GitHub' dialog with options for various levels of access.

  4. Conclua o fluxo de trabalho de autorização de terceiros do GitHub concedendo acesso às organizações necessárias para acessar o repositório GitHub. Para obter mais informações, consulte Autorizar Aplicativos GitHub.

  5. Na caixa de diálogo Gerenciar configurações do GitHub, selecione o repositório GitHub criado anteriormente.

    Screenshot of the 'Manage GitHub settings' dialog with a list of unpinned and pinned repositories.

  6. De volta no Data Explorer, localize a nova árvore de nós para o repositório fixado e abra o arquivo website-metrics-python.ipynb.

    Screenshot of the pinned repositories in the Data Explorer.

  7. No editor do notebook, localize a célula a seguir.

    import pandas as pd
    pd.options.display.html.table_schema = True
    pd.options.display.max_rows = None
    
    df_cosmos.groupby("Item").size()
    
  8. A célula atualmente gera o número de itens exclusivos. Substitua a linha final da célula por uma nova linha para gerar o número de ações exclusivas no conjunto de dados.

    df_cosmos.groupby("Action").size()
    
  9. Execute todas as células sequencialmente para ver o novo conjunto de dados. O novo conjunto de dados deve incluir apenas três valores potenciais para a coluna Ação. Como alternativa, você pode selecionar uma visualização de dados para os resultados.

    Screenshot of the Pandas dataframe visualization for the data.

Enviar por push as alterações do notebook ao GitHub

Dica

Atualmente, os workspaces temporários são desalocados se ficarem ociosos por 20 minutos. O tempo máximo de uso por dia é 60 minutos. Esses limites estão sujeitos a alterações no futuro.

Para salvar seu trabalho permanentemente, salve seus notebooks de volta no repositório GitHub. Nesta seção, você persistirá suas alterações do workspace temporário para o GitHub como um novo commit.

  1. Selecione Salvar para criar um commit para a alteração no notebook.

    Screenshot of the 'Save' option in the Data Explorer menu.

  2. Na caixa de diálogo Salvar, adicione uma mensagem de confirmação descritiva.

    Screenshot of the 'Save' dialog with an example of a commit message.

  3. Navegue até o repositório GitHub que você criou usando o seu navegador. O novo commit agora deverá estar visível no repositório online.

    Screenshot of the updated notebook on the GitHub website.

Próximas etapas