Co jsou azure Open Datasets a jak je můžete používat?
Azure Open Datasets jsou kurátorované veřejné datové sady, které můžete použít k přidání funkcí specifických pro scénáře do řešení strojového učení pro přesnější modely. Otevřené datové sady jsou v cloudu v Microsoft Azure a jsou integrované do služby Azure Machine Učení a snadno dostupné pro Azure Databricks a Machine Učení Studio (classic). K datovým sadám můžete přistupovat také prostřednictvím rozhraní API a používat je v jiných produktech, jako je Power BI a Azure Data Factory.
Datové sady zahrnují data veřejné domény pro počasí, sčítání lidu, svátky, veřejnou bezpečnost a umístění, které vám pomůžou trénovat modely strojového učení a rozšiřovat prediktivní řešení. Veřejné datové sady můžete také sdílet v Azure Open Datasets.
Kurátorované, připravené datové sady
Kurátorované otevřené veřejné datové sady v Azure Open Datasets jsou optimalizované pro spotřebu v pracovních postupech strojového učení.
Pokud chcete zobrazit všechny dostupné datové sady, přejděte do katalogu Azure Open Datasets Catalog.
Datoví vědci často tráví většinu času čištěním a přípravou dat na pokročilou analýzu. Otevřené datové sady se zkopírují do cloudu Azure a předzpracují se, abyste ušetřili čas. V pravidelných intervalech se data načítá ze zdrojů, jako je připojení FTP k národnímu oceánickému a atmosférickému Správa istrace (NOAA). Dále se data parsují do strukturovaného formátu a podle potřeby jsou rozšířena o funkce, jako je PSČ nebo umístění nejbližší meteorologické stanice.
Datové sady jsou hostované s cloudovými výpočetními prostředky v Azure, což usnadňuje přístup a manipulaci.
Tady jsou příklady dostupných datových sad.
Data o počasí
Datová sada | Poznámkové bloky | Popis |
---|---|---|
Integrovaná surfaceová data NOAA (ISD) | Azure Notebooks Azure Databricks |
Hodinové údaje o počasí z NOAA po celém světě s nejlepším prostorovým pokrytím v Severní Amerika, Evropě, Austrálii a částech Asie. Aktualizováno denně. |
Noaa Global Forecast System (GFS) | Azure Notebooks Azure Databricks |
15denní data předpovědi počasí v USA po hodinách od NOAA. Aktualizováno denně. |
Data kalendáře
Datová sada | Poznámkové bloky | Popis |
---|---|---|
Svátcích | Azure Notebooks Azure Databricks |
Údaje o státní svátce po celém světě, které pokrývají 41 zemí nebo oblastí od roku 1970 do roku 2099. Zahrnuje zemi nebo oblast a to, jestli většina lidí zaplatila volno. |
Přístup k datovým sadám
Účet Azure nabízí přístup k otevřeným datovým sadám pomocí kódu nebo přes rozhraní služby Azure. Data jsou společně umístěná v cloudových výpočetních prostředcích Azure a můžete je využívat ve svém řešení strojového učení.
Datové sady Open Datasets jsou dostupné prostřednictvím uživatelského rozhraní a sady SDK služby Azure Machine Learning. Služba Open Datasets také nabízí poznámkové bloky Azure Notebooks a Azure Databricks, pomocí kterých můžete propojit data se službami Azure Machine Learning a Azure Databricks. K datovým sadám můžete získat přístup i prostřednictvím sady Python SDK.
Pro přístup k datovým sadám Open Datasets ale nevyžaduje účet Azure – můžete k nim získat přístup k libovolného prostředí založeného na Pythonu se Sparkem nebo bez něj.
Vyžádání nebo přispívání datových sad
Pokud nemůžete najít požadovaná data, pošlete nám e-mail, abychom požádali o datovou sadu nebo přispěli datovou sadu.
Další kroky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro