Ładowanie danych szkoleniowych do narzędzia Model Builder

2024-01-10

Dowiedz się, jak załadować zestawy danych szkoleniowych z pliku lub bazy danych programu SQL Server do użycia w jednym ze scenariuszy narzędzia Model Builder dla ML.NET. Scenariusze konstruktora modeli mogą używać baz danych programu SQL Server, plików obrazów i formatów plików CSV lub TSV jako danych szkoleniowych.

Narzędzie Model Builder akceptuje tylko pliki TSV, CSV i TXT z przecinkami, tabulatorami i średnikami oraz obrazami PNG i JPG.

Scenariusze konstruktora modeli

Narzędzie Model Builder ułatwia tworzenie modeli dla następujących scenariuszy uczenia maszynowego:

Klasyfikacja danych (klasyfikacja binarna i wieloklasowa): klasyfikuj dane tekstowe w co najmniej dwie kategorie.
Przewidywanie wartości (regresja): przewidywanie wartości liczbowej.
Klasyfikacja obrazów (uczenie głębokie): klasyfikowanie obrazów w co najmniej dwóch kategoriach.
Zalecenie (zalecenie): utwórz listę sugerowanych elementów dla określonego użytkownika.
Wykrywanie obiektów (uczenie głębokie): wykrywanie i identyfikowanie obiektu na obrazach. Może to znaleźć co najmniej jeden obiekt i odpowiednio oznaczyć je etykietami.

W tym artykule opisano klasyfikację i regresję przy użyciu danych tekstowych lub liczbowych, klasyfikacji obrazów i scenariuszy wykrywania obiektów.

Ładowanie danych tekstowych lub liczbowych z pliku

Dane tekstowe lub liczbowe można załadować z pliku do narzędzia Model Builder. Akceptuje formaty plików rozdzielonych przecinkami (CSV) lub rozdzielanych tabulatorami (TSV).

W kroku danych konstruktora modelu wybierz pozycję Plik jako typ źródła danych.
Wybierz przycisk Przeglądaj obok pola tekstowego i użyj Eksplorator plików do przeglądania i wybierania pliku danych.
Wybierz kategorię na liście rozwijanej Kolumna, aby przewidzieć (etykietę).

Uwaga

(Opcjonalnie) scenariusze klasyfikacji danych: jeśli typ danych kolumny etykiety (wartość z listy rozwijanej "Kolumna do przewidywania (Etykieta)" jest ustawiona na wartość logiczną (prawda/fałsz), algorytm klasyfikacji binarnej jest używany w potoku trenowania modelu. W przeciwnym razie jest używany wieloklasowy trener klasyfikacji. Użyj opcji Zaawansowane dane, aby zmodyfikować typ danych dla kolumny etykiety i poinformować konstruktora modelu o typie trenera, którego powinien używać dla danych.
Zaktualizuj dane w linku Zaawansowane opcje danych, aby ustawić ustawienia kolumny lub zaktualizować formatowanie danych.

Zakończono konfigurowanie pliku źródła danych dla narzędzia Model Builder. Kliknij przycisk Dalej, aby przejść do następnego kroku w narzędziu Model Builder.

Ładowanie danych z bazy danych programu SQL Server

Program Model Builder obsługuje ładowanie danych z lokalnych i zdalnych baz danych programu SQL Server.

Lokalny plik bazy danych

Aby załadować dane z pliku bazy danych programu SQL Server do narzędzia Model Builder:

W kroku danych konstruktora modelu wybierz pozycję SQL Server jako typ źródła danych.
Wybierz przycisk Wybierz źródło danych.
1. W oknie dialogowym Wybieranie źródła danych wybierz pozycję Plik bazy danych programu Microsoft SQL Server.
2. Usuń zaznaczenie pola wyboru Zawsze używaj tego zaznaczenia i wybierz pozycję Kontynuuj
3. W oknie dialogowym Właściwości Połączenie ion wybierz pozycję Przeglądaj i wybierz pobrany plik . Plik MDF.
4. Wybierz OK
Wybierz nazwę zestawu danych z listy rozwijanej Nazwa tabeli.
Z listy rozwijanej Kolumna do przewidywania (etykieta) wybierz kategorię danych, dla której chcesz utworzyć przewidywanie.

Uwaga

(Opcjonalnie) scenariusze klasyfikacji danych: jeśli typ danych kolumny etykiety (wartość z listy rozwijanej "Kolumna do przewidywania (Etykieta)" jest ustawiona na wartość logiczną (prawda/fałsz), algorytm klasyfikacji binarnej jest używany w potoku trenowania modelu. W przeciwnym razie jest używany wieloklasowy trener klasyfikacji. Użyj opcji Zaawansowane dane, aby zmodyfikować typ danych dla kolumny etykiety i poinformować konstruktora modelu o typie trenera, którego powinien używać dla danych.
Zaktualizuj dane w linku Zaawansowane opcje danych, aby ustawić ustawienia kolumny lub zaktualizować formatowanie danych.

Zdalna baza danych programu

Aby załadować dane z połączenia z bazą danych programu SQL Server do narzędzia Model Builder:

W kroku danych konstruktora modelu wybierz pozycję SQL Server jako typ źródła danych.
Wybierz przycisk Wybierz źródło danych.
1. W oknie dialogowym Wybieranie źródła danych wybierz pozycję Microsoft SQL Server.
W oknie dialogowym Właściwości Połączenie ion wprowadź właściwości bazy danych Microsoft SQL Database.
1. Podaj nazwę serwera zawierającą tabelę, z którą chcesz nawiązać połączenie.
2. Skonfiguruj uwierzytelnianie na serwerze. Jeśli wybrano opcję Uwierzytelnianie programu SQL Server, wprowadź nazwę użytkownika i hasło serwera.
3. Wybierz bazę danych, z której chcesz nawiązać połączenie, na liście rozwijanej Wybierz lub wprowadź nazwę bazy danych. Powinno to zostać wypełnione automatycznie, jeśli nazwa serwera i informacje logowania są poprawne.
4. Wybierz OK
Wybierz nazwę zestawu danych z listy rozwijanej Nazwa tabeli.
Z listy rozwijanej Kolumna do przewidywania (etykieta) wybierz kategorię danych, dla której chcesz utworzyć przewidywanie.

Uwaga

(Opcjonalnie) scenariusze klasyfikacji danych: jeśli typ danych kolumny etykiety (wartość z listy rozwijanej "Kolumna do przewidywania (Etykieta)" jest ustawiona na wartość logiczną (prawda/fałsz), algorytm klasyfikacji binarnej jest używany w potoku trenowania modelu. W przeciwnym razie jest używany wieloklasowy trener klasyfikacji. Użyj opcji Zaawansowane dane, aby zmodyfikować typ danych dla kolumny etykiety i poinformować konstruktora modelu o typie trenera, którego powinien używać dla danych.
Zaktualizuj dane w linku Zaawansowane opcje danych, aby ustawić ustawienia kolumny lub zaktualizować formatowanie danych.

Zakończono konfigurowanie pliku źródła danych dla narzędzia Model Builder. Kliknij link Następny krok, aby przejść do następnego kroku w narzędziu Model Builder.

Konfigurowanie plików danych klasyfikacji obrazów

Program Model Builder oczekuje, że dane klasyfikacji obrazów będą plikami JPG lub PNG zorganizowanymi w folderach odpowiadających kategoriom klasyfikacji.

Aby załadować obrazy do narzędzia Model Builder, podaj ścieżkę do pojedynczego katalogu najwyższego poziomu:

Ten katalog najwyższego poziomu zawiera jeden podfolder dla każdej z kategorii do przewidzenia.
Każdy podfolder zawiera pliki obrazów należące do jego kategorii.

W strukturze folderów przedstawionej poniżej katalog najwyższego poziomu jest flower_photos. Istnieje pięć podkatalogów odpowiadających kategoriom, które chcesz przewidzieć: daisy, mniszek, róże, słoneczniki i tulipany. Każdy z tych podkatalogów zawiera obrazy należące do odpowiedniej kategorii.

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

Konfigurowanie plików danych obrazu wykrywania obiektów

Narzędzie Model Builder oczekuje, że dane obrazu wykrywania obiektów mają być w formacie JSON generowanym na podstawie voTT. Plik JSON znajduje się w folderze vott-json-export w lokalizacji docelowej określonej w ustawieniach projektu.

Plik JSON składa się z następujących informacji wygenerowanych z voTT:

Wszystkie utworzone tagi
Lokalizacje plików obrazów
Informacje o polu ograniczenia obrazu
Tag skojarzony z obrazem

Aby uzyskać więcej informacji na temat przygotowywania danych do wykrywania obiektów, zobacz Generowanie danych wykrywania obiektów z voTT.

Następne kroki

Postępuj zgodnie z poniższymi samouczkami, aby tworzyć aplikacje uczenia maszynowego za pomocą narzędzia Model Builder:

Jeśli trenujesz model przy użyciu kodu, dowiedz się, jak ładować dane przy użyciu interfejsu API ML.NET.

Udostępnij za pośrednictwem