Jak dodawać dane i zarządzać nimi w projekcie usługi Azure AI Studio

Ważne

Niektóre funkcje opisane w tym artykule mogą być dostępne tylko w wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

W tym artykule opisano sposób tworzenia danych i zarządzania nimi w usłudze Azure AI Studio. Dane mogą być używane jako źródło do indeksowania w usłudze Azure AI Studio.

A dane mogą pomóc, gdy potrzebne są następujące możliwości:

  • Przechowywanie wersji: obsługiwane jest przechowywanie wersji danych.
  • Powtarzalność: po utworzeniu wersji danych jest ona niezmienna. Nie można go modyfikować ani usuwać. W związku z tym można odtworzyć zadania lub potoki przepływu monitów, które używają danych.
  • Inspekcja: ponieważ wersja danych jest niezmienna, można śledzić wersje zasobów, które zaktualizowały wersję i kiedy wystąpiły aktualizacje wersji.
  • Pochodzenie: w przypadku danych można wyświetlić, które zadania lub potoki przepływu monitu używają danych.
  • Łatwość użycia: dane programu Azure AI Studio przypominają zakładki przeglądarki internetowej (ulubione). Zamiast pamiętać długie ścieżki magazynu odwołujące się do często używanych danych w usłudze Azure Storage, możesz utworzyć wersję danych, a następnie uzyskać dostęp do tej wersji zasobu z przyjazną nazwą.

Wymagania wstępne

Aby utworzyć dane i pracować z danymi, potrzebne są następujące elementy:

  • Subskrypcja Azure. Jeśli nie masz subskrypcji, przed rozpoczęciem utwórz bezpłatne konto.

  • Projekt AI Studio.

Tworzenie danych

Podczas tworzenia danych należy ustawić typ danych. Program AI Studio obsługuje trzy typy danych:

Typ Scenariusze kanoniczne
file
Odwołanie do pojedynczego pliku
Odczyt pojedynczego pliku w usłudze Azure Storage (plik może mieć dowolny format).
folder
Odwołuje się do folderu
Odczytaj folder plików parquet/CSV do biblioteki Pandas/Spark.

Odczytywanie danych bez struktury (takich jak obrazy, tekst i dźwięk) znajdujących się w folderze.

Program Azure AI Studio pokazuje obsługiwane ścieżki źródłowe. Dane można utworzyć z folderu lub pliku:

  • Jeśli wybierzesz typ folderu, możesz wybrać format adresu URL folderu. W programie Azure AI Studio są wyświetlane obsługiwane formaty adresów URL folderów. Zasób danych można utworzyć, jak pokazano poniżej: Zrzut ekranu przedstawiający format adresu URL folderu.

  • W przypadku wybrania typu pliku możesz wybrać format adresu URL pliku. Obsługiwane formaty adresów URL plików są wyświetlane w programie Azure AI Studio. Zasób danych można utworzyć, jak pokazano poniżej: Zrzut ekranu przedstawiający format adresu URL pliku.

Tworzenie danych: typ pliku

Typ zasobu danych pliku (uri_file) wskazuje pojedynczy plik w magazynie (na przykład plik CSV).

W poniższych krokach wyjaśniono, jak utworzyć dane typizowane w usłudze Azure AI Studio:

  1. Przejdź do usługi Azure AI Studio

  2. W menu zwijanym po lewej stronie wybierz pozycję Dane w obszarze Składniki. Wybierz pozycję Nowe dane. Zrzut ekranu wyróżnia pozycję Dodaj dane na karcie Dane.

  3. Wybierz źródło danych. Dostępne są trzy opcje wyboru źródła danych.

    • Możesz wybrać dane z obszaru Istniejące Połączenie ions.
    • Możesz wybrać pozycję Pobierz dane przy użyciu adresu URL usługi Storage, jeśli masz bezpośredni adres URL do konta magazynu lub publiczny dostępny serwer HTTPS.
    • Możesz wybrać pozycję Przekaż pliki/foldery , aby przekazać folder z dysku lokalnego.

    Ten zrzut ekranu przedstawia istniejące połączenia.

    • Istniejące Połączenie ions: możesz wybrać istniejące połączenie, przejść do tego połączenia i wybrać potrzebny plik. Jeśli istniejące połączenia nie działają, wybierz przycisk Nowe połączenie w prawym górnym rogu. Ten zrzut ekranu przedstawia tworzenie nowego połączenia z zasobem zewnętrznym.

    • Pobieranie danych przy użyciu adresu URL magazynu: możesz wybrać typ jako "Plik", a następnie podać adres URL na podstawie obsługiwanych formatów adresów URL wymienionych na tej stronie. Ten zrzut ekranu przedstawia aprowizację adresu URL wskazującego plik.

    • Przekaż pliki/foldery: możesz wybrać pozycję Przekaż pliki lub folder, wybrać pozycję Przekaż pliki i wybrać plik lokalny do przekazania. Plik jest przekazywany do domyślnego połączenia "workspaceblobstore". Ten zrzut ekranu przedstawia krok przekazywania plików/folderów.

    1. Po wybraniu źródła danych wybierz pozycję Dalej .

    2. Wprowadź niestandardową nazwę danych, a następnie wybierz pozycję Utwórz.

    Ten zrzut ekranu przedstawia krok nazewnictwa źródła danych.

Tworzenie danych: typ folderu

Typ źródła danych Folderu (uri_folder) wskazuje folder w zasobie magazynu (na przykład folder zawierający kilka podfolderów obrazów). Wykonaj następujące kroki, aby utworzyć zasób danych typu folderu w programie Azure AI Studio:

  1. Przejdź do usługi Azure AI Studio

  2. W menu zwijanym po lewej stronie wybierz pozycję Dane w obszarze Składniki. Wybierz pozycję Nowe dane.

    Zrzut ekranu wyróżnia pozycję Dodaj dane na karcie Dane.

  3. Wybierz źródło danych. Dostępne są trzy opcje źródła danych:

    1. Wybieranie danych z istniejących Połączenie ions

    2. Wybierz pozycję Pobierz dane przy użyciu adresu URL magazynu, jeśli masz bezpośredni adres URL do konta magazynu lub publiczny dostępny serwer HTTPS

    3. Wybierz pozycję Przekaż pliki/foldery , aby przekazać folder z dysku lokalnego

      Ten zrzut ekranu przedstawia istniejące połączenia.

    • Istniejące Połączenie ions: możesz wybrać istniejące połączenie i przejść do tego połączenia i wybrać potrzebny plik. Jeśli istniejące połączenia nie działają, możesz wybrać przycisk Nowe połączenie po prawej stronie.

      Ten zrzut ekranu przedstawia krok wybierania folderu z istniejącego połączenia.

    • Pobieranie danych przy użyciu adresu URL magazynu: możesz wybrać typ jako "Folder" i podać adres URL na podstawie obsługiwanych formatów adresów URL wymienionych na tej stronie.

      Ten zrzut ekranu przedstawia krok w celu podania adresu URL wskazującego folder.

    • Przekaż pliki/foldery: możesz wybrać pozycję Przekaż pliki lub folder, a następnie wybrać pozycję Przekaż pliki, a następnie wybrać plik lokalny do przekazania. Zasoby plików są przekazywane do domyślnego połączenia "workspaceblobstore".

      Ten zrzut ekranu przedstawia krok przekazywania plików/folderów.

  4. Po wybraniu źródła danych wybierz pozycję Dalej .

  5. Wprowadź niestandardową nazwę danych, a następnie wybierz pozycję Utwórz.

    Zrzut ekranu przedstawiający nazewnictwo danych.

Zarządzanie danymi

Usuwanie danych

Ważne

Usuwanie danych nie jest obsługiwane. Dane są niezmienne w programie AI Studio. Po utworzeniu wersji danych nie można jej modyfikować ani usuwać. Ta niezmienność zapewnia poziom ochrony podczas pracy w zespole, który tworzy obciążenia produkcyjne.

Jeśli program AI Studio zezwolił na usunięcie danych, będzie to miało następujące niekorzystne skutki:

  • Zadania produkcyjne, które zużywają później usunięte dane, zakończy się niepowodzeniem.
  • Reprodukcja eksperymentów uczenia maszynowego stałaby się trudniejsza.
  • Pochodzenie zadania spowodowałoby przerwanie, ponieważ nie można wyświetlić usuniętej wersji danych.
  • Nie można już prawidłowo śledzić i przeprowadzać inspekcji, ponieważ mogą brakować wersji.

Gdy zasób danych jest błędnie tworzony — na przykład z nieprawidłową nazwą, typem lub ścieżką — usługa Azure AI oferuje rozwiązania do obsługi sytuacji bez negatywnych konsekwencji usunięcia:

Powód, dla którego możesz chcieć usunąć dane Rozwiązanie
Nazwa jest nieprawidłowa Archiwizowanie danych
Zespół nie używa już danych Archiwizowanie danych
Zaśmieca listę danych Archiwizowanie danych
Ścieżka jest niepoprawna Utwórz nową wersję danych (taką samą nazwę) z poprawną ścieżką. Aby uzyskać więcej informacji, zobacz Tworzenie danych.
Ma niepoprawny typ Obecnie usługa Azure AI nie zezwala na tworzenie nowej wersji z innym typem w porównaniu z wersją początkową.
(1) Archiwizowanie danych
(2) Utwórz nowe dane pod inną nazwą z poprawnym typem.

Archiwizowanie danych

Domyślnie archiwizowanie zasobu danych powoduje ukrycie go przed obydwoma zapytaniami listy (na przykład w interfejsie wiersza polecenia az ml data list) i listą danych w usłudze Azure AI Studio. Nadal możesz odwoływać się do zarchiwizowanego zasobu danych i używać go w przepływach pracy. Możesz zarchiwizować jedną z następujących czynności:

  • wszystkie wersje danych pod daną nazwą
  • określona wersja danych

Archiwizowanie wszystkich wersji danych

Obecnie program Azure AI Studio nie obsługuje archiwizowania wszystkich wersji zasobu danych pod daną nazwą.

Archiwizowanie określonej wersji danych

Obecnie program Azure AI Studio nie obsługuje archiwizowania określonej wersji zasobu danych.

Przywracanie zarchiwizowanych danych

Możesz przywrócić zarchiwizowany zasób danych. Jeśli wszystkie wersje danych są archiwizowane, nie można przywrócić poszczególnych wersji danych — musisz przywrócić wszystkie wersje.

Przywracanie wszystkich wersji danych

Obecnie usługa Azure AI Studio nie obsługuje przywracania wszystkich wersji danych pod daną nazwą.

Przywracanie określonej wersji danych

Ważne

Jeśli wszystkie wersje danych zostały zarchiwizowane, nie można przywrócić poszczególnych wersji danych — musisz przywrócić wszystkie wersje.

Obecnie program Azure AI Studio nie obsługuje przywracania określonej wersji danych.

Tagowanie danych

Tagowanie danych to dodatkowe metadane stosowane do danych w postaci pary klucz-wartość. Tagowanie danych zapewnia wiele korzyści:

  • Opis jakości danych. Jeśli na przykład organizacja używa architektury lakehouse medallion, możesz tagować zasoby za pomocą medallion:bronze (nieprzetworzonych), medallion:silver (zweryfikowanych) i medallion:gold (wzbogaconych).
  • Zapewnia wydajne wyszukiwanie i filtrowanie danych w celu ułatwienia odnajdywania danych.
  • Pomaga zidentyfikować poufne dane osobowe, aby prawidłowo zarządzać dostępem do danych i zarządzać nimi. Na przykład sensitivity:PII/sensitivity:nonPII.
  • Określ, czy dane są zatwierdzone, z inspekcji odpowiedzialnej sztucznej inteligencji (RAI). Na przykład RAI_audit:approved/RAI_audit:todo.

Tagi można dodawać do istniejących danych.

Podgląd danych

Możesz przeglądać strukturę folderów i wyświetlać podgląd pliku na stronie Szczegóły danych. Obsługujemy podgląd danych dla następujących typów:

  • Typy plików danych będą obsługiwane za pośrednictwem interfejsu API w wersji zapoznawczej: ".tsv", ".csv", ".parquet", ".jsonl".
  • Inne typy plików, interfejs użytkownika programu Studio podejmie próbę wyświetlenia podglądu pliku w przeglądarce natywnie. Dlatego obsługiwane typy plików mogą zależeć od samej przeglądarki. Zwykle w przypadku obrazów są one obsługiwane: ".png", ".jpg", ".gif". Zwykle są one obsługiwane przez ciąg ".ipynb", ".py", ".yml", ".html".

Następne kroki