Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Datové sady Azure Open Datasets jsou kurátorované veřejné datové sady, které můžete do řešení strojového učení přidat do funkcí specifických pro konkrétní scénáře, a získat tak přesnější modely. Otevřené datové sady jsou dostupné v cloudu v Microsoft Azure. Jsou integrované do Služby Azure Machine Learning a snadno dostupné pro Azure Databricks. K datovým sadám můžete přistupovat také prostřednictvím rozhraní API a můžete je používat v jiných produktech, jako je Power BI a Azure Data Factory.
Datové sady zahrnují data veřejné domény pro počasí, sčítání lidu, svátky, veřejnou bezpečnost a umístění, které vám pomůžou trénovat modely strojového učení a rozšiřovat prediktivní řešení. Veřejné datové sady můžete také sdílet prostřednictvím Azure Open Datasets.
Kurátorované, připravené datové sady
Kurátorované otevřené veřejné datové sady v Azure Open Datasets jsou optimalizované pro spotřebu v pracovních postupech strojového učení.
Další informace o dostupných datových sadách najdete v prostředku Azure Open Datasets Catalog .
Datoví vědci často tráví většinu času čištěním a přípravou dat pro pokročilou analýzu. Abyste ušetřili čas, zkopírují se otevřené datové sady do cloudu Azure a pak se předzpracují. V pravidelných intervalech se data načítá ze zdrojů – například připojením FTP k národní správě oceánu a atmosféry (NOAA). Dále se data analyzují do strukturovaného formátu a podle potřeby jsou rozšířena o funkce, jako je PSČ nebo umístění nejbližších meteorologových stanic.
Datové sady jsou hostované s cloudovými výpočetními prostředky v Azure, aby byl přístup a manipulace jednodušší.
Tady jsou příklady dostupných datových sad:
Doprava
| Datová sada | Popis |
|---|---|
| NYC Taxi & Limousine Komise - záznamy o jízdách žlutých taxi | Žluté záznamy o jízdě taxíkem zahrnují vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem. |
| Komise pro taxi a limuzíny NYC - záznamy o jízdách zelených taxíků | Mezi zelené záznamy o jízdě taxíkem patří vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem. |
Práce a ekonomika
| Datová sada | Popis |
|---|---|
| Statistiky pracovních sil USA | Statistika pracovních sil USA poskytuje statistiku pracovních sil, míru účasti na pracovní síle a civilní neintituční populaci podle věku, pohlaví, rasy a etnických skupin ve Spojených státech. |
| Americké národní pracovní doby a příjmy | Program aktuální statistiky zaměstnanosti (CES) vytváří podrobné odhady zaměstnanosti, odpracovaných hodin a výdělků pracovníků na výplatních listinách ve Spojených státech. |
Přístup k datovým sadám
Pomocí účtu Azure můžete přistupovat k otevřeným datovým sadám prostřednictvím kódu nebo prostřednictvím rozhraní služby Azure. Data se společně přidělují s cloudovými výpočetními prostředky Azure pro použití v řešeních strojového učení.
Datové sady Open Datasets jsou dostupné prostřednictvím uživatelského rozhraní a sady SDK služby Azure Machine Learning. Open Datasets také poskytují poznámkové bloky Azure a poznámkové bloky Azure Databricks, které můžou připojit data ke službě Azure Machine Learning a Azure Databricks. K datovým sadám můžete získat přístup i prostřednictvím sady Python SDK.
Pro přístup k datovým sadám Open Datasets ale nevyžaduje účet Azure – můžete k nim získat přístup k libovolného prostředí založeného na Pythonu se Sparkem nebo bez něj.
Vyžádání nebo přispívání datových sad
Pokud nemůžete najít požadovaná data, pošlete nám e-mail, abychom požádali o datovou sadu nebo přispěli datovou sadu.