Sdílet prostřednictvím


Spojení dat

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Spojí dvě datové sady.

Kategorie: transformace nebo manipulace s daty

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak použít modul join Data v aplikaci Machine Learning Studio (classic) ke sloučení dvou datových sad pomocí operace joinve stylu databáze.

Chcete-li provést spojení se dvěma datovými sadami, musí se vztahovat na jeden klíčový sloupec. Složené klíče se nepodporují.

Postup konfigurace připojení k datům

  1. v Machine Learning studiu (classic) přidejte datové sady, které chcete zkombinovat, a pak přetáhněte modul Join Data do experimentu.

    Modul můžete najít v kategorii transformace dat v části manipulace.

  2. Připojení datové sady do modulu Join Data module.

    Modul Join data nepodporuje pravé vnější spojení, takže pokud chcete zajistit, aby byly řádky z konkrétní datové sady zahrnuté do výstupu, musí být tato datová sada na vstupu LeftHand.

  3. Klikněte na tlačítko Spustit selektor sloupců a vyberte jeden klíčový sloupec pro datovou sadu na levém vstupu.

  4. Klikněte na tlačítko Spustit selektor sloupců a vyberte jeden klíčový sloupec pro datovou sadu na správném vstupu.

  5. Pokud se připojujete k textovému sloupci a chcete zajistit, aby spojení zachovává velká a malá písmena, vyberte možnost rozlišovat velká a malá písmena .

    Například pokud vyberete tuto možnost, A1000 bude považována za jinou hodnotu klíče než a1000 .

    Pokud zrušíte výběr této možnosti, rozlišování velkých a malých písmen se vynutilo a A1000 bude považováno za stejné jako. a1000

  6. Pomocí rozevíracího seznamu typ spojení můžete určit, jak se mají datové sady kombinovat. druhy

    • Vnitřní spojení: typická operace JOIN je vnitřní spojení . Vrátí kombinované řádky pouze v případě, že se hodnoty klíčových sloupců shodují.

    • Levé vnější spojení: levé vnější spojení vrátí připojené řádky pro všechny řádky z levé tabulky. Pokud řádek v levé tabulce nemá žádné odpovídající řádky v pravé tabulce, vrácený řádek obsahuje chybějící hodnoty pro všechny sloupce, které pocházejí z pravé tabulky, pokud nezadáte náhradní hodnotu pro chybějící hodnoty.

    • Úplné vnější spojení: úplné vnější spojení vrátí všechny řádky z levé tabulky (Tabulka1) a z pravé tabulky (Tabulka2).

      Pro každý z řádků v levé tabulce, které nemají odpovídající řádky v pravé tabulce, výsledky spojení zahrnují řádek, který obsahuje chybějící hodnoty z pravé tabulky.

      Pro každý z řádků v pravé tabulce, které nemají odpovídající řádky v levé tabulce, výsledky spojení zahrnují řádek, který obsahuje chybějící hodnoty pro všechny sloupce z levé tabulky.

    • LEFT JOIN: levá polovina spojení vrátí pouze hodnoty z levé tabulky, když se hodnoty klíčových sloupců shodují.

  7. Pro možnost zachovejte pravou klávesovou zkratku získat v připojené tabulce:

    • Zrušte výběr možnosti pro získání jednoho klíčového sloupce ve výsledcích.
    • Ponechte vybranou možnost pro zobrazení klíčů z obou vstupních tabulek.
  8. Spusťte experiment, nebo vyberte modul JOIN data a vybrané spuštění, aby se spojení provádělo.

  9. Chcete-li zobrazit výsledky, klikněte pravým tlačítkem myši na modul připojení dat , vyberte možnost datová sada výsledkůa klikněte na vizualizovat.

Příklady

Příklady, jak se tento modul používá, můžete zobrazit v Azure AI Gallery:

Technické poznámky

Tato část popisuje podrobné informace o implementaci a odpovědi na některé nejčastější dotazy.

Omezení

  • Kombinovaná datová sada nemůže mít dva sloupce se stejným názvem. Pokud levé a pravé datové sady obsahují duplicitní názvy sloupců, připojí se číselná přípona k názvům sloupců pravé datové sady, aby byly jedinečné.

    Například pokud jsou v obou datových sadách sloupec s názvem month, sloupec z levé datové sady zůstane tak, jak je, a sloupec z pravé datové sady by byl přejmenován na měsíc (1).

  • Algoritmus, který se používá pro porovnání hodnot klíčů, je vynucený pomocí algoritmu hash.

  • Každý sloupec připojené datové sady zachová typ kategorií, pokud je odpovídající sloupec vstupní datové sady kategorií.

  • V případě chybějících hodnot v levém vnějším spojení se v levé datové sadě vytvoří úroveň kategorií pro chybějící hodnoty. To platí i v případě, že v připojené (pravém) datové sadě nejsou žádné chybějící hodnoty.

Jak se můžu připojit k tabulce složeného klíče?

Pokud se potřebujete připojit k tabulce, která používá složené klíče (to znamená, že primární klíč spoléhá na dva nezávislé sloupce), použijte k zřetězení obsahu těchto dvou klíčových sloupců modul, například následující:

  • Spouštění skriptů R

    Například použijte kód jako follwing uvnitř skriptu jazyka R k zřetězení prvního a druhého sloupce vstupního datového rámce s použitím pomlčky jako oddělovače. paste(inputdf$Col1,inputdf$Col2,sep="-")

  • Použití transformace SQL

    Operátor zřetězení v SQLite je || .

Jak mohu připojit tabulky, které nemají klíč?

Pokud vaše datová sada neobsahuje žádný klíčový sloupec, můžete ji kombinovat s jinou datovou sadou, buď vygenerováním klíče, nebo pomocí modulu Přidat sloupce .

Modul Přidat sloupce se chová jako R a může sloučit dvě datové sady na řádek po řádku, pokud datové sady mají stejný počet řádků. Pokud jsou datové sady v jiné velikosti, vyvolá se chyba.

Očekávané vstupy

Název Typ Description
DataSet1. Tabulka dat První datová sada, která se má připojit
Dataset2 Tabulka dat Druhá datová sada se připojí

Parametry modulu

Name Rozsah Typ Výchozí Description
Připojit klíčové sloupce pro L Všechny ColumnSelection Vyberte sloupce klíče JOIN pro první datovou sadu.
Spojit klíčové sloupce pro R Všechny ColumnSelection Vyberte sloupce klíče JOIN pro druhou datovou sadu.
Rozlišovat velikost písmen Všechny Logická hodnota Ano Označuje, zda je v klíčových sloupcích povoleno porovnávání s rozlišováním velkých a malých písmen.
Typ spojení Seznam Typ Vnitřní spojení Zvolte typ spojení.
Zachovat správné klíčové sloupce ve spojené tabulce Všechny Logická hodnota Ano Určete, jestli se mají zachovat klíčové sloupce z druhé datové sady v připojené datové sadě.

Výstup

Název Typ Description
Datová sada výsledků Tabulka dat Výsledek operace spojení

Výjimky

Výjimka Description
Chyba 0001 K výjimce dojde, pokud se jeden nebo více zadaných sloupců datové sady nenašel.
Chyba 0003 K výjimce dojde, pokud má jeden nebo více vstupů hodnotu null nebo je prázdný.
Chyba 0006 K výjimce dojde, pokud je parametr větší nebo roven zadané hodnotě.
Chyba 0016 K výjimce dochází v případě, že vstupní datové sady předané modulu by měly mít kompatibilní typy sloupců, ale nemají.
Chyba 0017 K výjimce dojde v případě, že jeden nebo více zadaných sloupců obsahuje typy, které aktuální modul nepodporuje.
Chyba 0020 K výjimce dojde, pokud je počet sloupců v některých datových sadách, které jsou předány modulu, příliš malý.
Chyba 0028 K výjimce dojde, když sada sloupců obsahuje duplicitní názvy sloupců a není povolená.
Chyba 0011 K výjimce dojde, pokud argument předané sady sloupců neplatí pro žádné sloupce datové sady.
Chyba 0027 K výjimce dochází v případě, že dva objekty musí mít stejnou velikost, ale nejsou.

Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.

Viz také

Manipulace
Transformace dat
Seznam modulů A až Z