Načtení trénovacích dat do Tvůrce modelů

Zjistěte, jak načíst trénovací datové sady ze souboru nebo databáze SQL Serveru pro použití v jednom ze scénářů Tvůrce modelů pro ML.NET. Scénáře Tvůrce modelů můžou jako trénovací data používat databáze SQL Serveru, soubory obrázků a formáty souborů CSV nebo TSV.

Tvůrce modelů přijímá pouze soubory TSV, CSV a TXT s čárkami, tabulátorem a středníky a obrázky PNG a JPG.

Scénáře Tvůrce modelů

Tvůrce modelů pomáhá vytvářet modely pro následující scénáře strojového učení:

  • Klasifikace dat (binární a vícetřídová klasifikace): Klasifikuje textová data do dvou nebo více kategorií.
  • Predikce hodnoty (regrese): Predikce číselné hodnoty
  • Klasifikace obrázků (hluboké učení): Klasifikuje obrázky do dvou nebo více kategorií.
  • Doporučení (doporučení): Vytvoří seznam navrhovaných položek pro konkrétního uživatele.
  • Rozpoznávání objektů (hluboké učení): Detekce a identifikace objektu na obrázcích Ten může najít jeden nebo více objektů a odpovídajícím způsobem je označovat.

Tento článek se zabývá klasifikací a regresí pomocí textových nebo číselných dat, klasifikace obrázků a scénářů detekce objektů.

Načtení textových nebo číselných dat ze souboru

Do Tvůrce modelů můžete načíst textová nebo číselná data ze souboru. Přijímá formáty souborů s oddělovači (CSV) nebo tSV (tab-delimited).

  1. V datovém kroku Tvůrce modelů vyberte Jako typ zdroje dat soubor .

  2. Vyberte tlačítko Procházet vedle textového pole a pomocí Průzkumník souborů procházejte a vyberte datový soubor.

  3. V rozevíracím seznamu Sloupec zvolte kategorii, která bude predikovat (Popisek).

    Poznámka:

    (Volitelné) scénáře klasifikace dat: Pokud je datový typ sloupce popisku (hodnota v rozevíracím seznamu Sloupec k predikci (Popisek) nastavená na logickou hodnotu (True/False), použije se v kanálu trénování modelu binární klasifikační algoritmus. V opačném případě se použije klasifikační trenér s více třídami. Pomocí rozšířených možností dat můžete upravit datový typ sloupce popisku a informovat Tvůrce modelů, jaký typ trenéra by měl pro vaše data používat.

  4. Aktualizujte data v odkazu Upřesnit možnosti dat a nastavte nastavení sloupce nebo aktualizujte formátování dat.

Dokončili jste nastavení souboru zdroje dat pro Tvůrce modelů. Kliknutím na tlačítko Další krok přejdete v Tvůrci modelů na další krok.

Načtení dat z databáze SQL Serveru

Tvůrce modelů podporuje načítání dat z místních a vzdálených databází SQL Serveru.

Soubor místní databáze

Načtení dat ze souboru databáze SQL Serveru do Model Builderu:

  1. V datovém kroku Tvůrce modelů vyberte jako typ zdroje dat SQL Server .

  2. Vyberte tlačítko Zvolit zdroj dat.

    1. V dialogovém okně Zvolit zdroj dat vyberte soubor databáze microsoft SQL Serveru.
    2. Zrušte zaškrtnutí políčka Vždy použít tento výběr a vyberte Pokračovat.
    3. V dialogovém okně Vlastnosti Připojení vyberte Procházet a vyberte stažený soubor . MDF soubor.
    4. Vyberte OK.
  3. V rozevíracím seznamu Název tabulky zvolte název datové sady.

  4. V rozevíracím seznamu Sloupec k predikci (Popisek) zvolte kategorii dat, pro kterou chcete vytvořit předpověď.

    Poznámka:

    (Volitelné) scénáře klasifikace dat: Pokud je datový typ sloupce popisku (hodnota v rozevíracím seznamu Sloupec k predikci (Popisek) nastavená na logickou hodnotu (True/False), použije se v kanálu trénování modelu binární klasifikační algoritmus. V opačném případě se použije klasifikační trenér s více třídami. Pomocí rozšířených možností dat můžete upravit datový typ sloupce popisku a informovat Tvůrce modelů, jaký typ trenéra by měl pro vaše data používat.

  5. Aktualizujte data v odkazu Upřesnit možnosti dat a nastavte nastavení sloupce nebo aktualizujte formátování dat.

Vzdálená databáze

Načtení dat z připojení k databázi SQL Serveru do Model Builderu:

  1. V datovém kroku Tvůrce modelů vyberte jako typ zdroje dat SQL Server .

  2. Vyberte tlačítko Zvolit zdroj dat.

    1. V dialogovém okně Zvolit zdroj dat vyberte Microsoft SQL Server.
  3. V dialogovém okně vlastnosti Připojení ion zadejte vlastnosti databáze Microsoft SQL.

    1. Zadejte název serveru s tabulkou, ke které se chcete připojit.
    2. Nastavte ověřování na server. Pokud je vybráno ověřování SQL Serveru, zadejte uživatelské jméno a heslo serveru.
    3. V rozevíracím seznamu Vybrat nebo zadejte název databáze , vyberte databázi, ke které se chcete připojit. To by se mělo automaticky naplnit, pokud je správný název serveru a informace o přihlášení.
    4. Vyberte OK.
  4. V rozevíracím seznamu Název tabulky zvolte název datové sady.

  5. V rozevíracím seznamu Sloupec k predikci (Popisek) zvolte kategorii dat, pro kterou chcete vytvořit předpověď.

    Poznámka:

    (Volitelné) scénáře klasifikace dat: Pokud je datový typ sloupce popisku (hodnota v rozevíracím seznamu Sloupec k predikci (Popisek) nastavená na logickou hodnotu (True/False), použije se v kanálu trénování modelu binární klasifikační algoritmus. V opačném případě se použije klasifikační trenér s více třídami. Pomocí rozšířených možností dat můžete upravit datový typ sloupce popisku a informovat Tvůrce modelů, jaký typ trenéra by měl pro vaše data používat.

  6. Aktualizujte data v odkazu Upřesnit možnosti dat a nastavte nastavení sloupce nebo aktualizujte formátování dat.

Dokončili jste nastavení souboru zdroje dat pro Tvůrce modelů. Kliknutím na odkaz na tlačítko Další krok přejděte v Tvůrci modelů na další krok.

Nastavení datových souborů klasifikace obrázků

Tvůrce modelů očekává, že data klasifikace obrázků budou soubory JPG nebo PNG uspořádané do složek, které odpovídají kategoriím klasifikace.

Pokud chcete načíst image do Tvůrce modelů, zadejte cestu k jednomu adresáři nejvyšší úrovně:

  • Tento adresář nejvyšší úrovně obsahuje jednu podsložku pro každou kategorii, která se má předpovědět.
  • Každá podsložka obsahuje soubory obrázků, které patří do své kategorie.

Ve struktuře složek znázorněné níže je adresář nejvyšší úrovně flower_photos. Existuje pět podadresářů odpovídajících kategoriím, které chcete předpovědět: daisy, pamdelion, růže, slunečnice a tulipány. Každý z těchto podadresářů obsahuje obrázky patřící do příslušné kategorie.

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

Nastavení datových souborů obrázků detekce objektů

Tvůrce modelů očekává, že data obrázků detekce objektů budou ve formátu JSON vygenerovaném z VoTT. Soubor JSON se nachází ve složce vott-json-export v cílovém umístění zadaném v nastavení projektu.

Soubor JSON se skládá z následujících informací vygenerovaných z VoTT:

  • Všechny vytvořené značky
  • Umístění souboru obrázku
  • Informace o ohraničujícím rámečku obrázku
  • Značka přidružená k obrázku

Další informace o přípravě dat pro detekci objektů naleznete v tématu Generování dat detekce objektů z VoTT.

Další kroky

Při vytváření aplikací strojového učení pomocí Tvůrce modelů postupujte podle těchto kurzů:

Pokud trénujete model pomocí kódu, naučte se načítat data pomocí rozhraní ML.NET API.