Ładowanie danych szkoleniowych do narzędzia Model Builder
Dowiedz się, jak załadować zestawy danych szkoleniowych z pliku lub bazy danych programu SQL Server do użycia w jednym ze scenariuszy narzędzia Model Builder dla ML.NET. Scenariusze konstruktora modeli mogą używać baz danych programu SQL Server, plików obrazów i formatów plików CSV lub TSV jako danych szkoleniowych.
Narzędzie Model Builder akceptuje tylko pliki TSV, CSV i TXT z przecinkami, tabulatorami i średnikami oraz obrazami PNG i JPG.
Scenariusze konstruktora modeli
Narzędzie Model Builder ułatwia tworzenie modeli dla następujących scenariuszy uczenia maszynowego:
- Klasyfikacja danych (klasyfikacja binarna i wieloklasowa): klasyfikuj dane tekstowe w co najmniej dwie kategorie.
- Przewidywanie wartości (regresja): przewidywanie wartości liczbowej.
- Klasyfikacja obrazów (uczenie głębokie): klasyfikowanie obrazów w co najmniej dwóch kategoriach.
- Zalecenie (zalecenie): utwórz listę sugerowanych elementów dla określonego użytkownika.
- Wykrywanie obiektów (uczenie głębokie): wykrywanie i identyfikowanie obiektu na obrazach. Może to znaleźć co najmniej jeden obiekt i odpowiednio oznaczyć je etykietami.
W tym artykule opisano klasyfikację i regresję przy użyciu danych tekstowych lub liczbowych, klasyfikacji obrazów i scenariuszy wykrywania obiektów.
Ładowanie danych tekstowych lub liczbowych z pliku
Dane tekstowe lub liczbowe można załadować z pliku do narzędzia Model Builder. Akceptuje formaty plików rozdzielonych przecinkami (CSV) lub rozdzielanych tabulatorami (TSV).
W kroku danych konstruktora modelu wybierz pozycję Plik jako typ źródła danych.
Wybierz przycisk Przeglądaj obok pola tekstowego i użyj Eksplorator plików do przeglądania i wybierania pliku danych.
Wybierz kategorię na liście rozwijanej Kolumna, aby przewidzieć (etykietę).
Uwaga
(Opcjonalnie) scenariusze klasyfikacji danych: jeśli typ danych kolumny etykiety (wartość z listy rozwijanej "Kolumna do przewidywania (Etykieta)" jest ustawiona na wartość logiczną (prawda/fałsz), algorytm klasyfikacji binarnej jest używany w potoku trenowania modelu. W przeciwnym razie jest używany wieloklasowy trener klasyfikacji. Użyj opcji Zaawansowane dane, aby zmodyfikować typ danych dla kolumny etykiety i poinformować konstruktora modelu o typie trenera, którego powinien używać dla danych.
Zaktualizuj dane w linku Zaawansowane opcje danych, aby ustawić ustawienia kolumny lub zaktualizować formatowanie danych.
Zakończono konfigurowanie pliku źródła danych dla narzędzia Model Builder. Kliknij przycisk Dalej, aby przejść do następnego kroku w narzędziu Model Builder.
Ładowanie danych z bazy danych programu SQL Server
Program Model Builder obsługuje ładowanie danych z lokalnych i zdalnych baz danych programu SQL Server.
Lokalny plik bazy danych
Aby załadować dane z pliku bazy danych programu SQL Server do narzędzia Model Builder:
W kroku danych konstruktora modelu wybierz pozycję SQL Server jako typ źródła danych.
Wybierz przycisk Wybierz źródło danych.
- W oknie dialogowym Wybieranie źródła danych wybierz pozycję Plik bazy danych programu Microsoft SQL Server.
- Usuń zaznaczenie pola wyboru Zawsze używaj tego zaznaczenia i wybierz pozycję Kontynuuj
- W oknie dialogowym Właściwości Połączenie ion wybierz pozycję Przeglądaj i wybierz pobrany plik . Plik MDF.
- Wybierz OK
Wybierz nazwę zestawu danych z listy rozwijanej Nazwa tabeli.
Z listy rozwijanej Kolumna do przewidywania (etykieta) wybierz kategorię danych, dla której chcesz utworzyć przewidywanie.
Uwaga
(Opcjonalnie) scenariusze klasyfikacji danych: jeśli typ danych kolumny etykiety (wartość z listy rozwijanej "Kolumna do przewidywania (Etykieta)" jest ustawiona na wartość logiczną (prawda/fałsz), algorytm klasyfikacji binarnej jest używany w potoku trenowania modelu. W przeciwnym razie jest używany wieloklasowy trener klasyfikacji. Użyj opcji Zaawansowane dane, aby zmodyfikować typ danych dla kolumny etykiety i poinformować konstruktora modelu o typie trenera, którego powinien używać dla danych.
Zaktualizuj dane w linku Zaawansowane opcje danych, aby ustawić ustawienia kolumny lub zaktualizować formatowanie danych.
Zdalna baza danych programu
Aby załadować dane z połączenia z bazą danych programu SQL Server do narzędzia Model Builder:
W kroku danych konstruktora modelu wybierz pozycję SQL Server jako typ źródła danych.
Wybierz przycisk Wybierz źródło danych.
- W oknie dialogowym Wybieranie źródła danych wybierz pozycję Microsoft SQL Server.
W oknie dialogowym Właściwości Połączenie ion wprowadź właściwości bazy danych Microsoft SQL Database.
- Podaj nazwę serwera zawierającą tabelę, z którą chcesz nawiązać połączenie.
- Skonfiguruj uwierzytelnianie na serwerze. Jeśli wybrano opcję Uwierzytelnianie programu SQL Server, wprowadź nazwę użytkownika i hasło serwera.
- Wybierz bazę danych, z której chcesz nawiązać połączenie, na liście rozwijanej Wybierz lub wprowadź nazwę bazy danych. Powinno to zostać wypełnione automatycznie, jeśli nazwa serwera i informacje logowania są poprawne.
- Wybierz OK
Wybierz nazwę zestawu danych z listy rozwijanej Nazwa tabeli.
Z listy rozwijanej Kolumna do przewidywania (etykieta) wybierz kategorię danych, dla której chcesz utworzyć przewidywanie.
Uwaga
(Opcjonalnie) scenariusze klasyfikacji danych: jeśli typ danych kolumny etykiety (wartość z listy rozwijanej "Kolumna do przewidywania (Etykieta)" jest ustawiona na wartość logiczną (prawda/fałsz), algorytm klasyfikacji binarnej jest używany w potoku trenowania modelu. W przeciwnym razie jest używany wieloklasowy trener klasyfikacji. Użyj opcji Zaawansowane dane, aby zmodyfikować typ danych dla kolumny etykiety i poinformować konstruktora modelu o typie trenera, którego powinien używać dla danych.
Zaktualizuj dane w linku Zaawansowane opcje danych, aby ustawić ustawienia kolumny lub zaktualizować formatowanie danych.
Zakończono konfigurowanie pliku źródła danych dla narzędzia Model Builder. Kliknij link Następny krok, aby przejść do następnego kroku w narzędziu Model Builder.
Konfigurowanie plików danych klasyfikacji obrazów
Program Model Builder oczekuje, że dane klasyfikacji obrazów będą plikami JPG lub PNG zorganizowanymi w folderach odpowiadających kategoriom klasyfikacji.
Aby załadować obrazy do narzędzia Model Builder, podaj ścieżkę do pojedynczego katalogu najwyższego poziomu:
- Ten katalog najwyższego poziomu zawiera jeden podfolder dla każdej z kategorii do przewidzenia.
- Każdy podfolder zawiera pliki obrazów należące do jego kategorii.
W strukturze folderów przedstawionej poniżej katalog najwyższego poziomu jest flower_photos. Istnieje pięć podkatalogów odpowiadających kategoriom, które chcesz przewidzieć: daisy, mniszek, róże, słoneczniki i tulipany. Każdy z tych podkatalogów zawiera obrazy należące do odpowiedniej kategorii.
\---flower_photos
+---daisy
| 100080576_f52e8ee070_n.jpg
| 102841525_bd6628ae3c.jpg
| 105806915_a9c13e2106_n.jpg
|
+---dandelion
| 10443973_aeb97513fc_m.jpg
| 10683189_bd6e371b97.jpg
| 10919961_0af657c4e8.jpg
|
+---roses
| 102501987_3cdb8e5394_n.jpg
| 110472418_87b6a3aa98_m.jpg
| 118974357_0faa23cce9_n.jpg
|
+---sunflowers
| 127192624_afa3d9cb84.jpg
| 145303599_2627e23815_n.jpg
| 147804446_ef9244c8ce_m.jpg
|
\---tulips
100930342_92e8746431_n.jpg
107693873_86021ac4ea_n.jpg
10791227_7168491604.jpg
Konfigurowanie plików danych obrazu wykrywania obiektów
Narzędzie Model Builder oczekuje, że dane obrazu wykrywania obiektów mają być w formacie JSON generowanym na podstawie voTT. Plik JSON znajduje się w folderze vott-json-export w lokalizacji docelowej określonej w ustawieniach projektu.
Plik JSON składa się z następujących informacji wygenerowanych z voTT:
- Wszystkie utworzone tagi
- Lokalizacje plików obrazów
- Informacje o polu ograniczenia obrazu
- Tag skojarzony z obrazem
Aby uzyskać więcej informacji na temat przygotowywania danych do wykrywania obiektów, zobacz Generowanie danych wykrywania obiektów z voTT.
Następne kroki
Postępuj zgodnie z poniższymi samouczkami, aby tworzyć aplikacje uczenia maszynowego za pomocą narzędzia Model Builder:
- Generowanie danych wykrywania obiektów z voTT
- Przewidywanie cen przy użyciu regresji
- Analizowanie tonacji w aplikacji internetowej przy użyciu klasyfikacji binarnej
Jeśli trenujesz model przy użyciu kodu, dowiedz się, jak ładować dane przy użyciu interfejsu API ML.NET.