Sdílet prostřednictvím


Co jsou azure Open Datasets a jak je můžete používat?

Datové sady Azure Open Datasets jsou kurátorované veřejné datové sady, které můžete do řešení strojového učení přidat do funkcí specifických pro konkrétní scénáře, a získat tak přesnější modely. Otevřené datové sady jsou dostupné v cloudu v Microsoft Azure. Jsou integrované do Služby Azure Machine Learning a snadno dostupné pro Azure Databricks. K datovým sadám můžete přistupovat také prostřednictvím rozhraní API a můžete je používat v jiných produktech, jako je Power BI a Azure Data Factory.

Datové sady zahrnují data veřejné domény pro počasí, sčítání lidu, svátky, veřejnou bezpečnost a umístění, které vám pomůžou trénovat modely strojového učení a rozšiřovat prediktivní řešení. Veřejné datové sady můžete také sdílet prostřednictvím Azure Open Datasets.

Diagram znázorňující stavební bloky služby Azure Open Datasets

Kurátorované, připravené datové sady

Kurátorované otevřené veřejné datové sady v Azure Open Datasets jsou optimalizované pro spotřebu v pracovních postupech strojového učení.

Další informace o dostupných datových sadách najdete v prostředku Azure Open Datasets Catalog .

Datoví vědci často tráví většinu času čištěním a přípravou dat pro pokročilou analýzu. Abyste ušetřili čas, zkopírují se otevřené datové sady do cloudu Azure a pak se předzpracují. V pravidelných intervalech se data načítá ze zdrojů – například připojením FTP k národní správě oceánu a atmosféry (NOAA). Dále se data analyzují do strukturovaného formátu a podle potřeby jsou rozšířena o funkce, jako je PSČ nebo umístění nejbližších meteorologových stanic.

Datové sady jsou hostované s cloudovými výpočetními prostředky v Azure, aby byl přístup a manipulace jednodušší.

Tady jsou příklady dostupných datových sad:

Doprava

Datová sada Popis
NYC Taxi & Limousine Komise - záznamy o jízdách žlutých taxi Žluté záznamy o jízdě taxíkem zahrnují vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem.
Komise pro taxi a limuzíny NYC - záznamy o jízdách zelených taxíků Mezi zelené záznamy o jízdě taxíkem patří vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem.

Práce a ekonomika

Datová sada Popis
Statistiky pracovních sil USA Statistika pracovních sil USA poskytuje statistiku pracovních sil, míru účasti na pracovní síle a civilní neintituční populaci podle věku, pohlaví, rasy a etnických skupin ve Spojených státech.
Americké národní pracovní doby a příjmy Program aktuální statistiky zaměstnanosti (CES) vytváří podrobné odhady zaměstnanosti, odpracovaných hodin a výdělků pracovníků na výplatních listinách ve Spojených státech.

Přístup k datovým sadám

Pomocí účtu Azure můžete přistupovat k otevřeným datovým sadám prostřednictvím kódu nebo prostřednictvím rozhraní služby Azure. Data se společně přidělují s cloudovými výpočetními prostředky Azure pro použití v řešeních strojového učení.

Datové sady Open Datasets jsou dostupné prostřednictvím uživatelského rozhraní a sady SDK služby Azure Machine Learning. Open Datasets také poskytují poznámkové bloky Azure a poznámkové bloky Azure Databricks, které můžou připojit data ke službě Azure Machine Learning a Azure Databricks. K datovým sadám můžete získat přístup i prostřednictvím sady Python SDK.

Pro přístup k datovým sadám Open Datasets ale nevyžaduje účet Azure – můžete k nim získat přístup k libovolného prostředí založeného na Pythonu se Sparkem nebo bez něj.

Vyžádání nebo přispívání datových sad

Pokud nemůžete najít požadovaná data, pošlete nám e-mail, abychom požádali o datovou sadu nebo přispěli datovou sadu.

Další kroky