Přidání a správa dat v projektu Azure AI Studio

Důležité

Některé funkce popsané v tomto článku můžou být dostupné jenom ve verzi Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Tento článek popisuje, jak vytvářet a spravovat data v Azure AI Studiu. Data je možné použít jako zdroj pro indexování v Azure AI Studiu.

Data vám můžou pomoct, když potřebujete tyto funkce:

  • Správa verzí: Správa verzí dat je podporovaná.
  • Reprodukovatelnost: Jakmile vytvoříte datovou verzi, je neměnná. Nelze ho upravit ani odstranit. Proto je možné reprodukovat úlohy nebo kanály toku, které spotřebovávají data.
  • Auditovatelnost: Vzhledem k tomu, že je datová verze neměnná, můžete sledovat verze prostředků, kteří aktualizovali verzi a kdy došlo k aktualizacím verze.
  • Rodokmen: Pro všechna daná data můžete zobrazit, které úlohy nebo kanály toku výzvy data spotřebovávají.
  • Snadné použití: Data Azure AI Studia se podobají záložkám webového prohlížeče (oblíbené položky). Místo zapamatování dlouhých cest úložiště, které odkazují na často používaná data ve službě Azure Storage, můžete vytvořit datovou verzi a pak získat přístup k této verzi prostředku s popisným názvem.

Požadavky

K vytváření dat a práci s daty potřebujete:

  • Předplatné Azure. Pokud ho nemáte, vytvořte si bezplatný účet před tím, než začnete.

  • Projekt AI Studia.

Vytvoření dat

Při vytváření dat je potřeba nastavit datový typ. AI Studio podporuje tři datové typy:

Typ Kanonické scénáře
file
Odkaz na jeden soubor
Čtení jednoho souboru ve službě Azure Storage (soubor může mít libovolný formát).
folder
Odkaz na složku
Přečtěte si složku souborů parquet/CSV do Pandas/Sparku.

Čtení nestrukturovaných dat (například obrázků, textu a zvuku) umístěných ve složce

Azure AI Studio zobrazuje podporované zdrojové cesty. Data můžete vytvořit ze složky nebo souboru:

  • Pokud vyberete typ složky, můžete zvolit formát adresy URL složky. Azure AI Studio zobrazuje podporované formáty adres URL složek. Datový prostředek můžete vytvořit, jak je znázorněno níže: Snímek obrazovky s formátem adresy URL složky

  • Pokud vyberete typ souboru, můžete zvolit formát adresy URL souboru. Podporované formáty adres URL souborů se zobrazují v Azure AI Studiu. Datový prostředek můžete vytvořit, jak je znázorněno níže: Snímek obrazovky s formátem adresy URL souboru

Vytvoření dat: Typ souboru

Datový typ souboru (uri_file) odkazuje na jeden soubor v úložišti (například soubor CSV).

Tento postup vysvětluje, jak vytvořit data typu Soubor v Azure AI Studiu:

  1. Přejděte do Azure AI Studia.

  2. V sbalitelné nabídce na levé straně vyberte v části Součásti možnost Data. Vyberte Nová data. Snímek obrazovky se zvýrazněnou funkcí Přidat data na kartě Data

  3. Zvolte zdroj dat. Máte tři možnosti pro výběr zdroje dat.

    • Data můžete vybrat z existujících Připojení ionů.
    • Pokud máte přímou adresu URL úložiště nebo veřejný přístupný server HTTPS, můžete vybrat možnost Získat data s adresou URL úložiště.
    • Pokud chcete nahrát složku z místního disku, vyberte Nahrát soubory nebo složky .

    Tento snímek obrazovky ukazuje existující připojení.

    • Existující Připojení iony: Můžete vybrat existující připojení, přejít k tomuto připojení a zvolit soubor, který potřebujete. Pokud vám stávající připojení nefungují, vyberte tlačítko Nové připojení v pravém horním rohu. Tento snímek obrazovky ukazuje vytvoření nového připojení k externímu prostředku.

    • Získat data s adresou URL úložiště: Typ můžete zvolit jako "Soubor" a pak zadat adresu URL na základě podporovaných formátů adres URL uvedených na této stránce. Tento snímek obrazovky ukazuje zřízení adresy URL, která odkazuje na soubor.

    • Nahrání souborů nebo složek: Můžete vybrat Nahrát soubory nebo složku, vybrat Nahrát soubory a zvolit místní soubor, který chcete nahrát. Soubor se nahraje do výchozího připojení workspaceblobstore. Tento snímek obrazovky ukazuje krok pro nahrání souborů a složek.

    1. Po výběru zdroje dat vyberte Další .

    2. Zadejte vlastní název dat a pak vyberte Vytvořit.

    Tento snímek obrazovky ukazuje krok pojmenování zdroje dat.

Vytvoření dat: Typ složky

Typ zdroje dat Složky (uri_folder) odkazuje na složku v prostředku úložiště (například složka obsahující několik podsložek obrázků). Pomocí následujícího postupu vytvořte datový prostředek typu složky v Azure AI Studiu:

  1. Přejděte do Azure AI Studia.

  2. V sbalitelné nabídce na levé straně vyberte v části Součásti možnost Data. Vyberte Nová data.

    Snímek obrazovky se zvýrazněnou funkcí Přidat data na kartě Data

  3. Zvolte zdroj dat. Máte tři možnosti zdroje dat:

    1. Výběr dat z existujících Připojení ionů

    2. Pokud máte přímou adresu URL pro účet úložiště nebo veřejný přístupný server HTTPS, vyberte Získat data s adresou URL úložiště.

    3. Vyberte Nahrát soubory nebo složky a nahrajte složku z místního disku.

      Tento snímek obrazovky ukazuje existující připojení.

    • Existující Připojení iony: Můžete vybrat existující připojení a přejít k tomuto připojení a zvolit soubor, který potřebujete. Pokud vám stávající připojení nefungují, můžete vpravo vybrat tlačítko Nové připojení .

      Tento snímek obrazovky ukazuje krok pro výběr složky z existujícího připojení.

    • Získat data s adresou URL úložiště: Typ můžete zvolit jako složku a zadat adresu URL na základě podporovaných formátů adres URL uvedených na této stránce.

      Tento snímek obrazovky ukazuje krok pro zadání adresy URL odkazující na složku.

    • Nahrání souborů nebo složek: Můžete vybrat Nahrát soubory nebo složku a vybrat Nahrát soubory a zvolit místní soubor, který chcete nahrát. Prostředky souborů se nahrají do výchozího připojení workspaceblobstore.

      Tento snímek obrazovky ukazuje krok pro nahrání souborů a složek.

  4. Po výběru zdroje dat vyberte Další .

  5. Zadejte vlastní název dat a pak vyberte Vytvořit.

    Snímek obrazovky s pojmenováním dat

Správa dat

Odstranění dat

Důležité

Odstranění dat se nepodporuje. Data jsou neměnná v AI Studiu. Jakmile vytvoříte datovou verzi, nedá se upravit ani odstranit. Tato neměnnost poskytuje úroveň ochrany při práci v týmu, který vytváří produkční úlohy.

Pokud AI Studio povolilo odstranění dat, mělo by to následující nežádoucí účinky:

  • Produkční úlohy, které využívají data, která se později odstraní, selžou.
  • Reprodukci experimentů strojového učení by bylo obtížnější.
  • Rodokmen úlohy by se přerušil, protože by nebylo možné zobrazit odstraněnou verzi dat.
  • Už nemůžete správně sledovat a auditovat, protože můžou chybět verze.

Pokud je datový prostředek chybně vytvořený – například s nesprávným názvem, typem nebo cestou – Azure AI nabízí řešení pro řešení situace bez negativních důsledků odstranění:

Důvod, proč byste mohli chtít odstranit data Řešení
Název je nesprávný. Archivace dat
Tým už data nepoužívá. Archivace dat
Zahltí výpis dat. Archivace dat
Cesta je nesprávná. Vytvořte novou verzi dat (stejný název) se správnou cestou. Další informace najdete v tématu Vytvoření dat.
Má nesprávný typ. V současné době Azure AI neumožňuje vytvoření nové verze s jiným typem v porovnání s počáteční verzí.
(1) Archivace dat
(2) Vytvořte nová data pod jiným názvem se správným typem.

Archivace dat

Ve výchozím nastavení se archivace datového prostředku skryje v obou dotazech seznamu (například v rozhraní příkazového řádku az ml data list) a výpisu dat v Azure AI Studiu. V pracovních postupech můžete i nadále odkazovat na archivovaný datový prostředek a používat ho. Archivovat můžete:

  • všechny verze dat pod daným názvem
  • konkrétní datová verze

Archivace všech verzí dat

V tuto chvíli Azure AI Studio nepodporuje archivaci všech verzí datového prostředku pod daným názvem.

Archivace konkrétní verze dat

V tuto chvíli Azure AI Studio nepodporuje archivaci konkrétní verze datového prostředku.

Obnovení archivovaných dat

Archivovaný datový prostředek můžete obnovit. Pokud jsou všechny verze dat archivovány, nemůžete obnovit jednotlivé verze dat – musíte obnovit všechny verze.

Obnovení všech verzí dat

V tuto chvíli Azure AI Studio nepodporuje obnovení všech verzí dat pod daným názvem.

Obnovení konkrétní verze dat

Důležité

Pokud byly všechny verze dat archivovány, nemůžete obnovit jednotlivé verze dat – je nutné obnovit všechny verze.

Azure AI Studio v současné době nepodporuje obnovení konkrétní verze dat.

Označování dat

Označování dat je další metadata použitá na data ve formě páru klíč-hodnota. Označování dat přináší mnoho výhod:

  • Popis kvality dat Pokud například vaše organizace používá architekturu jezera medallion, můžete prostředky označovat pomocí medallion:bronze (nezpracovaných), medallion:silver (ověřených) a medallion:gold (obohacených).
  • Poskytuje efektivní vyhledávání a filtrování dat, které pomáhá zjišťovat data.
  • Pomáhá identifikovat citlivé osobní údaje a správně spravovat a řídit přístup k datům. Například sensitivity:PII/sensitivity:nonPII.
  • Zjistěte, jestli jsou data schválena, z zodpovědného auditu AI (RAI). Například RAI_audit:approved/RAI_audit:todo.

Ke stávajícím datům můžete přidat značky.

Náhled dat

Strukturu složek můžete procházet a zobrazit náhled souboru na stránce s podrobnostmi dat. Náhled dat podporujeme pro následující typy:

  • Datové typy souborů budou podporovány prostřednictvím rozhraní API verze Preview: .tsv, .csv, .parquet, .jsonl.
  • Jiné typy souborů, uživatelské rozhraní sady Studio se pokusí nativně zobrazit náhled souboru v prohlížeči. Podporované typy souborů proto můžou záviset na samotném prohlížeči. U obrázků se obvykle podporují: ".png", ".jpg", ".gif". A obvykle se jedná o podporu ".ipynb", ".py", ".yml", ".html".

Další kroky