Compartilhar via


Exemplo com notebooks Jupyter mostra como aprimorar os dados com conjuntos de dados abertos

O exemplo com notebooks Jupyter para Conjunto de Dados Abertos do Azure explica como carregar conjuntos de dados abertos e usá-los para aprimorar dados de demonstração. As técnicas incluem o uso do Apache Spark e Pandas para processar dados.

Importante

Ao trabalhar em um ambiente que não seja Spark, o Open Datasets permite baixar apenas um mês de dados por vez com determinadas classes para evitar problemas do tipo MemoryError com conjuntos de dados grandes.

Carregar dados do ISD (Banco de Dados de Superfície Integrada) do NOAA

Notebook Descrição
Carregar um mês recente de dados climáticos em um dataframe do Pandas Saiba como carregar dados climáticos de históricos no seu dataframe favorito do Pandas.
Carregar um mês recente de dados climáticos em um dataframe do Spark Saiba como carregar dados climáticos de históricos no seu dataframe favorito do Spark.

Unir dados de demonstração com os dados ISD do NOAA

Notebook Descrição
Unir dados de demonstração e dados climáticos – Pandas Una um conjunto de dados de demonstração de um mês sobre locais de sensores com leituras climáticas em um dataframe do Pandas.
Unir dados de demonstração com dados climáticos – Spark Una um conjunto de dados de demonstração mês sobre locais de sensores com leituras climáticas em um dataframe do Spark.

Unir dados de táxis de NYC com os dados de ISD do NOAA

Notebook Descrição
Dados de corridas de táxi aprimorados com dados climáticos – Pandas Carregar dados de corridas de táxis verdes de Nova York (mais de um mês) e aprimorá-los com dados climáticos em um dataframe do Pandas. Este exemplo substitui o método get_pandas_limit e equilibra o desempenho do carregamento de dados com a quantidade de dados.
Dados de corridas de táxi aprimorados com dados climáticos – Spark Carregar dados de corridas de táxis verdes de Nova York e aprimorá-los com dados climáticos no dataframe do Spark.

Próximas etapas