Analiza głównych składników

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
Dowiedz się więcej o Azure Machine Learning.

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Oblicza zestaw cech o większej wymiarowości w celu bardziej wydajnego uczenia

Kategoria: Przekształcanie danych / Przykład i dzielenie

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano, jak za pomocą modułu Analiza głównych składników w programie Machine Learning Studio (wersja klasyczna) zmniejszyć wymiarowość danych treningowych. Moduł analizuje dane i tworzy ograniczony zestaw funkcji, który przechwytuje wszystkie informacje zawarte w zestawie danych, ale w mniejszej liczbie funkcji.

Moduł tworzy również przekształcenie, które można zastosować do nowych danych w celu osiągnięcia podobnej redukcji wymiarów i kompresji cech, bez konieczności dodatkowego trenowania.

Więcej informacji na temat analizy głównych składników

Analiza głównych składników (PCA, Principal Component Analysis) jest popularną techniką uczenia maszynowego. Opiera się on na tym, że wiele typów danych przestrzeni wektorowej jest skompresowanych i że kompresję można osiągnąć w najbardziej wydajny sposób przez próbkowanie.

Dodatkową zaletą funkcji PCA jest ulepszona wizualizacja danych i optymalizacja użycia zasobów przez algorytm uczenia.

Moduł Principal Component Analysis w programie Machine Learning Studio (wersja klasyczna) pobiera zestaw kolumn funkcji w zestawie danych i tworzy projekcję obszaru funkcji o mniejszej wymiarowości. Algorytm używa technik randomizacji do identyfikowania podprzestrzeni cech, które przechwytują większość informacji w pełnej macierzy cech. W związku z tym przekształcone macierze danych przechwytują wariancja w oryginalnych danych przy jednoczesnym zmniejszeniu wpływu szumu i zminimalizowaniu ryzyka związanego z nadmiarem.

Aby uzyskać ogólne informacje na temat analizy głównych składników (PCA), zobacz ten artykuł w Wikipedii. Aby uzyskać informacje na temat metod pca używanych w tym module, zobacz następujące artykuły:

Znajdowanie struktury z losowością: Probabilistyczne algorytmy do konstruowania przybliżonych dekompozycji macierzy. Halko, Martinsson i Tropp, 2010.
Łączenie losowości ze strukturą i bez struktury w pca na dużą skalę Łączenie losowości ze strukturą i bez struktury w pca na dużą skalę. Karampatziakis i Mineiro, 2013.

Jak skonfigurować analizę głównych składników

Dodaj moduł Principal Component Analysis (Analiza głównych składników ) do eksperymentu. Można go znaleźć w obszarze Przekształcanie danych w kategorii Skalowanie i Redukcja.
Połączenie zestaw danych, który chcesz przekształcić, i wybierz kolumny funkcji do przeanalizowania.

Jeśli jeszcze nie jest jasne, które kolumny są funkcjami i które są etykietami, zalecamy wcześniejsze oznaczenie kolumn za pomocą modułu Edytowanie metadanych.
Liczba wymiarów do zmniejszenia: wpisz żądaną liczbę kolumn w końcowych danych wyjściowych. Każda kolumna reprezentuje wymiar przechwytując część informacji w kolumnach wejściowych.

Jeśli na przykład źródłowy zestaw 3danych zawiera osiem kolumn i wpiszemy , zostaną zwrócone trzy nowe kolumny, które przechwytują informacje o ośmiu wybranych kolumnach. Kolumny mają nazwy Col1, Col2i Col3. Te kolumny nie są mapowe bezpośrednio na kolumny źródłowe; Zamiast tego kolumny zawierają przybliżenie przestrzeni funkcji opisanej w oryginalnych kolumnach 1–8.

Porada

Algorytm działa optymalnie, gdy liczba ograniczonych wymiarów jest znacznie mniejsza niż oryginalne wymiary.
Normalizowanie gęstego zestawu danych do zera średniej: wybierz tę opcję, jeśli zestaw danych jest gęsty, co oznacza, że zawiera niewiele brakujących wartości. Jeśli ta opcja jest zaznaczona, moduł normalizuje wartości w kolumnach do średniej o wartości zero przed innym przetwarzaniem.

W przypadku rozrzednych zestawów danych ta opcja nie powinna być zaznaczona. Jeśli zostanie wykryty rozrzedny zestaw danych, parametr zostanie zastąpiony.
Uruchom eksperyment.

Wyniki

Moduł wyprowadza ograniczony zestaw kolumn, których można użyć podczas tworzenia modelu. Dane wyjściowe można zapisać jako nowy zestaw danych lub użyć ich w eksperymencie.

Opcjonalnie możesz zapisać proces analizy jako zapisane przekształcenie, aby zastosować go do innego zestawu danych przy użyciu opcji Zastosuj przekształcenie.

Zestaw danych, do których jest stosowane przekształcenie, musi mieć taki sam schemat, jak oryginalny zestaw danych.

Przykłady

Aby uzyskać przykłady sposobu, w jaki analiza głównych składników jest używana w uczeniu maszynowym, zobacz Azure AI Gallery:

Klastrowanie: wyszukiwanie podobnych firm: używa analizy głównych składników w celu zmniejszenia liczby wartości z wyszukiwania tekstu do owalnej liczby funkcji.

Mimo że w tym przykładzie pca jest stosowany przy użyciu niestandardowego skryptu R, ilustruje to, jak pca jest zwykle używany.

Uwagi techniczne

Istnieją dwa etapy obliczania składników z niższymi wymiarami.

Pierwszym z nich jest skonstruowanie podprzestrzeni o małych wymiarach, która przechwyci akcję macierzy.
Drugim jest ograniczenie macierzy do przestrzeni podrzędnej, a następnie obliczenie standardowej faktoryzacji obniżonej macierzy.

Oczekiwane dane wejściowe

Nazwa	Typ	Opis
Zestaw danych	Tabela danych	Zestaw danych, którego wymiary mają zostać ograniczone

Parametry modułu

Nazwa	Typ	Zakres	Opcjonalne	Opis	Domyślny
Wybrane kolumny	ColumnSelection		Wymagane		Wybrane kolumny, do których ma być stosowane pca
Liczba wymiarów, do których należy zmniejszyć	Liczba całkowita	>= 1	Wymagane		Liczba żądanych wymiarów w zredukowanym zestawie danych
Normalizowanie gęstego zestawu danych do średniej zerowej	Wartość logiczna		Wymagane	true	Wskaż, czy kolumny wejściowe będą oznaczane jako znormalizowane dla gęstych zestawów danych (parametr rozrzednych danych jest ignorowany)

Dane wyjściowe

Nazwa	Typ	Opis
Zestaw danych wyników	Tabela danych	Zestaw danych o ograniczonych wymiarach
Przekształcanie PCA	ITransform, interfejs	Przekształcenie, które po zastosowaniu do zestawu danych zapewni nowy zestaw danych o ograniczonych wymiarach

Wyjątki

Wyjątek	Opis
Błąd 0001	Wyjątek występuje, jeśli nie można odnaleźć co najmniej jednej określonej kolumny zestawu danych.
Błąd 0003	Wyjątek występuje, jeśli co najmniej jeden z danych wejściowych ma wartość null lub jest pusty.
Błąd 0004	Wyjątek występuje, jeśli parametr jest mniejszy lub równy określonej wartości.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Przykład i podział
Wybór funkcji

Last updated on 2019-05-06