Přidání a správa dat v projektu Azure AI Studio
Důležité
Položky označené (Preview) v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
Tento článek popisuje, jak vytvářet a spravovat data v Azure AI Studiu. Data je možné použít jako zdroj pro indexování v Azure AI Studiu.
Data vám můžou pomoct, když potřebujete tyto funkce:
- Správa verzí: Správa verzí dat je podporovaná.
- Reprodukovatelnost: Jakmile vytvoříte datovou verzi, je neměnná. Nelze ho upravit ani odstranit. Proto je možné reprodukovat úlohy nebo kanály toku, které spotřebovávají data.
- Auditovatelnost: Vzhledem k tomu, že je datová verze neměnná, můžete sledovat verze prostředků, kteří aktualizovali verzi a kdy došlo k aktualizacím verze.
- Rodokmen: Pro všechna daná data můžete zobrazit, které úlohy nebo kanály toku výzvy data spotřebovávají.
- Snadné použití: Data Azure AI Studia se podobají záložkám webového prohlížeče (oblíbené položky). Místo zapamatování dlouhých cest úložiště, které odkazují na často používaná data ve službě Azure Storage, můžete vytvořit datovou verzi a pak získat přístup k této verzi prostředku s popisným názvem.
Požadavky
K vytváření dat a práci s daty potřebujete:
Předplatné Azure. Pokud ho nemáte, vytvořte si bezplatný účet před tím, než začnete.
Vytvoření dat
Při vytváření dat je potřeba nastavit datový typ. AI Studio podporuje tyto datové typy:
Typ | Kanonické scénáře |
---|---|
file Odkaz na jeden soubor |
Čtení jednoho souboru ve službě Azure Storage (soubor může mít libovolný formát). |
folder Odkaz na složku |
Přečtěte si složku souborů parquet/CSV do Pandas/Sparku. Čtení nestrukturovaných dat (například obrázků, textu a zvuku) umístěných ve složce |
Azure AI Studio zobrazuje podporované zdrojové cesty. Data můžete vytvořit ze složky nebo souboru:
Pokud vyberete typ složky, můžete zvolit formát adresy URL složky. Azure AI Studio zobrazuje podporované formáty adres URL složek. Datový prostředek můžete vytvořit, jak je znázorněno níže:
Pokud vyberete typ souboru, můžete zvolit formát adresy URL souboru. Podporované formáty adres URL souborů se zobrazují v Azure AI Studiu. Datový prostředek můžete vytvořit, jak je znázorněno níže:
Vytvoření dat: Typ souboru
Datový typ souboru (uri_file
) odkazuje na jeden soubor v úložišti (například soubor CSV).
Tento postup vysvětluje, jak vytvořit data typu Soubor v Azure AI Studiu:
Přejděte do Azure AI Studia.
V sbalitelné nabídce na levé straně vyberte v části Součásti možnost Data. Vyberte Nová data.
Zvolte zdroj dat. Máte tři možnosti pro výběr zdroje dat.
- Můžete vybrat data z existujících připojení.
- Pokud máte přímou adresu URL úložiště nebo veřejný přístupný server HTTPS, můžete vybrat možnost Získat data s adresou URL úložiště.
- Pokud chcete nahrát složku z místního disku, vyberte Nahrát soubory nebo složky .
Existující připojení: Můžete vybrat existující připojení, přejít k tomuto připojení a zvolit soubor, který potřebujete. Pokud vám stávající připojení nefungují, vyberte tlačítko Nové připojení v pravém horním rohu.
Získat data s adresou URL úložiště: Typ můžete zvolit jako "Soubor" a pak zadat adresu URL na základě podporovaných formátů adres URL uvedených na této stránce.
Nahrání souborů nebo složek: Můžete vybrat Nahrát soubory nebo složku, vybrat Nahrát soubory a zvolit místní soubor, který chcete nahrát. Soubor se nahraje do výchozího připojení workspaceblobstore.
Po výběru zdroje dat vyberte Další .
Zadejte vlastní název dat a pak vyberte Vytvořit.
Vytvoření dat: Typ složky
Typ zdroje dat Složky (uri_folder
) odkazuje na složku v prostředku úložiště (například složka obsahující několik podsložek obrázků). Pomocí následujícího postupu vytvořte datový prostředek typu složky v Azure AI Studiu:
Přejděte do Azure AI Studia.
V sbalitelné nabídce na levé straně vyberte v části Součásti možnost Data. Vyberte Nová data.
Zvolte zdroj dat. Máte tři možnosti zdroje dat:
Výběr dat z existujících připojení
Pokud máte přímou adresu URL pro účet úložiště nebo veřejný přístupný server HTTPS, vyberte Získat data s adresou URL úložiště.
Vyberte Nahrát soubory nebo složky a nahrajte složku z místního disku.
Existující připojení: Můžete vybrat existující připojení a přejít k tomuto připojení a zvolit soubor, který potřebujete. Pokud vám stávající připojení nefungují, můžete vpravo vybrat tlačítko Nové připojení .
Získat data s adresou URL úložiště: Typ můžete zvolit jako složku a zadat adresu URL na základě podporovaných formátů adres URL uvedených na této stránce.
Nahrání souborů nebo složek: Můžete vybrat Nahrát soubory nebo složku a vybrat Nahrát soubory a zvolit místní soubor, který chcete nahrát. Prostředky souborů se nahrají do výchozího připojení workspaceblobstore.
Po výběru zdroje dat vyberte Další .
Zadejte vlastní název dat a pak vyberte Vytvořit.
Správa dat
Odstranění dat
Důležité
Odstranění dat se nepodporuje. Data jsou neměnná v AI Studiu. Jakmile vytvoříte datovou verzi, nedá se upravit ani odstranit. Tato neměnnost poskytuje úroveň ochrany při práci v týmu, který vytváří produkční úlohy.
Pokud AI Studio povolilo odstranění dat, mělo by to následující nežádoucí účinky:
- Produkční úlohy, které využívají data, která se později odstraní, selžou.
- Reprodukci experimentů strojového učení by bylo obtížnější.
- Rodokmen úlohy by se přerušil, protože by nebylo možné zobrazit odstraněnou verzi dat.
- Už nemůžete správně sledovat a auditovat, protože můžou chybět verze.
Pokud je datový prostředek chybně vytvořený – například s nesprávným názvem, typem nebo cestou – Azure AI nabízí řešení pro řešení situace bez negativních důsledků odstranění:
Důvod, proč byste mohli chtít odstranit data | Řešení |
---|---|
Název je nesprávný. | Archivace dat |
Tým už data nepoužívá. | Archivace dat |
Zahltí výpis dat. | Archivace dat |
Cesta je nesprávná. | Vytvořte novou verzi dat (stejný název) se správnou cestou. Další informace najdete v tématu Vytvoření dat. |
Má nesprávný typ. | V současné době Azure AI neumožňuje vytvoření nové verze s jiným typem v porovnání s počáteční verzí. (1) Archivace dat (2) Vytvořte nová data pod jiným názvem se správným typem. |
Archivace dat
Ve výchozím nastavení se archivace datového prostředku skryje v obou dotazech seznamu (například v rozhraní příkazového řádku az ml data list
) a výpisu dat v Azure AI Studiu. V pracovních postupech můžete i nadále odkazovat na archivovaný datový prostředek a používat ho. Archivovat můžete:
- všechny verze dat pod daným názvem
- konkrétní datová verze
Archivace všech verzí dat
V tuto chvíli Azure AI Studio nepodporuje archivaci všech verzí datového prostředku pod daným názvem.
Archivace konkrétní verze dat
V tuto chvíli Azure AI Studio nepodporuje archivaci konkrétní verze datového prostředku.
Obnovení archivovaných dat
Archivovaný datový prostředek můžete obnovit. Pokud jsou všechny verze dat archivovány, nemůžete obnovit jednotlivé verze dat – musíte obnovit všechny verze.
Obnovení všech verzí dat
V tuto chvíli Azure AI Studio nepodporuje obnovení všech verzí dat pod daným názvem.
Obnovení konkrétní verze dat
Důležité
Pokud byly všechny verze dat archivovány, nemůžete obnovit jednotlivé verze dat – je nutné obnovit všechny verze.
Azure AI Studio v současné době nepodporuje obnovení konkrétní verze dat.
Označování dat
Označování dat je další metadata použitá na data ve formě páru klíč-hodnota. Označování dat přináší mnoho výhod:
- Popis kvality dat Pokud například vaše organizace používá architekturu jezera medallion, můžete prostředky označovat pomocí
medallion:bronze
(nezpracovaných),medallion:silver
(ověřených) amedallion:gold
(obohacených). - Poskytuje efektivní vyhledávání a filtrování dat, které pomáhá zjišťovat data.
- Pomáhá identifikovat citlivé osobní údaje a správně spravovat a řídit přístup k datům. Například
sensitivity:PII
/sensitivity:nonPII
. - Zjistěte, jestli jsou data schválena, z zodpovědného auditu AI (RAI). Například
RAI_audit:approved
/RAI_audit:todo
.
Ke stávajícím datům můžete přidat značky.
Náhled dat
Strukturu složek můžete procházet a zobrazit náhled souboru na stránce s podrobnostmi dat. Náhled dat podporujeme pro následující typy:
- Datové typy souborů budou podporovány prostřednictvím rozhraní API verze Preview: .tsv, .csv, .parquet, .jsonl.
- Jiné typy souborů, uživatelské rozhraní sady Studio se pokusí nativně zobrazit náhled souboru v prohlížeči. Podporované typy souborů proto můžou záviset na samotném prohlížeči. U obrázků se obvykle podporují: ".png", ".jpg", ".gif". A obvykle se jedná o podporu ".ipynb", ".py", ".yml", ".html".
Další kroky
- Zjistěte, jak vytvořit projekt v Azure AI Studiu.