데이터 세트에서 열 선택 구성 요소
이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.
이 구성 요소를 사용하여 다운스트림 작업에서 사용할 열 하위 집합을 선택할 수 있습니다. 이 구성 요소는 원본 데이터 세트에서 열을 물리적으로 제거하지 않습니다. 대신, 데이터베이스 뷰 또는 프로젝션과 유사하게 열 하위 집합을 만듭니다.
이 구성 요소는 다운스트림 작업에 사용할 수 있는 열을 제한해야 하거나 필요 없는 열을 제거하여 데이터 세트의 크기를 줄이려는 경우에 유용합니다.
데이터 세트의 열은 지정한 순서에 관계없이 원래 데이터와 동일한 순서로 출력됩니다.
사용 방법
이 구성 요소에는 매개 변수가 없습니다. 열 선택기를 사용하여 포함하거나 제외할 열을 선택합니다.
이름으로 열 선택
이 구성 요소에는 이름으로 열을 선택하기 위한 여러 옵션이 있습니다.
필터링 및 검색
이름별 옵션을 클릭합니다.
이미 채워진 데이터 세트를 연결한 경우 사용 가능한 열 목록이 표시됩니다. 열이 표시되지 않으면 업스트림 구성 요소를 실행하여 열 목록을 확인해야 할 수도 있습니다.
목록을 필터링하려면 검색 상자에 입력합니다. 예를 들어 검색 상자에
w
문자를 입력하면w
문자가 포함된 열 이름을 표시하도록 목록이 필터링됩니다.열을 선택하고 오른쪽 화살표 단추를 클릭하여 선택한 열을 오른쪽 창의 목록으로 이동합니다.
- 연속 범위의 열 이름을 선택하려면 Shift+클릭을 누릅니다.
- 선택 영역에 개별 열을 추가하려면 Ctrl+클릭을 누릅니다.
확인 표시 단추를 클릭하여 저장하고 닫습니다.
다른 규칙과 함께 이름 사용
규칙 사용 옵션을 클릭합니다.
특정 데이터 형식의 열 표시 등의 규칙을 선택합니다.
그런 다음 해당 형식의 개별 열을 이름으로 클릭하여 선택 목록에 추가합니다.
쉼표로 구분된 열 이름 목록을 입력하거나 붙여넣습니다.
데이터 세트가 넓은 경우 열을 개별적으로 선택하는 대신 인덱스 또는 생성된 이름 목록을 사용하는 것이 더 쉬울 수 있습니다. 목록을 미리 준비했다고 가정합니다.
- 규칙 사용 옵션을 클릭합니다.
- 열 없음, 포함을 차례로 선택한 다음, 빨간색 느낌표가 있는 텍스트 상자 안을 클릭합니다.
- 이전에 유효성이 검사된 열 이름의 쉼표로 구분된 목록을 붙여넣거나 입력합니다. 열에 잘못된 이름이 있는 경우 구성 요소를 저장할 수 없으므로 이름을 미리 검사해야 합니다.
이 방법을 사용하여 인덱스 값으로 열 목록을 지정할 수도 있습니다.
형식으로 선택
규칙 사용 옵션을 사용하는 경우 선택한 열에 여러 조건을 적용할 수 있습니다. 예를 들어 숫자 데이터 형식의 기능 열만 가져와야 할 수 있습니다.
시작 옵션은 시작 지점을 결정하며 결과를 이해하는 데 중요합니다.
모든 열 옵션을 선택하면 모든 열이 목록에 추가됩니다. 그런 다음 제외 옵션을 사용하여 특정 조건에 맞는 열을 ‘제거’해야 합니다.
예를 들어 모든 열로 시작한 다음, 이름이나 형식으로 열을 제거할 수 있습니다.
열 없음 옵션을 선택하면 열 목록이 빈 상태로 시작됩니다. 그런 다음 목록에 열을 ‘추가’하는 조건을 지정합니다.
여러 규칙을 적용하는 경우 각 조건이 가산됩니다. 예를 들어 열 없이 시작한 다음, 모든 숫자 열을 가져오는 규칙을 추가한다고 가정합니다. 이 경우 자동차 가격 데이터 세트에 16개의 열이 생성됩니다. 그런 다음, + 기호를 클릭하여 새 조건을 추가하고 모든 기능 포함을 선택합니다. 결과 데이터 세트에는 일부 문자열 기능 열을 포함하여 모든 숫자 열과 모든 기능 열이 포함됩니다.
열 인덱스로 선택
열 인덱스는 원래 데이터 세트 내의 열 순서를 참조합니다.
- 열은 1부터 시작하여 순차적으로 번호가 매겨집니다.
- 열 범위를 가져오려면 하이픈을 사용합니다.
1-
또는-3
과 같은 개방형 사양은 허용되지 않습니다.- 중복된 인덱스 값(또는 열 이름)은 허용되지 않으며 오류가 발생할 수 있습니다.
예를 들어 데이터 세트에 열이 8개 이상 있다고 가정할 경우 다음 예제 중 하나를 붙여넣어 연속하지 않는 여러 열을 반환할 수 있습니다.
8,1-4,6
1,3-8
1,3-6,4
최종 예제에서는 오류가 발생하지 않지만 4
열의 단일 인스턴스가 반환됩니다.
열 순서 변경
선택 영역에서 중복 허용 및 열 순서 유지 옵션은 빈 목록으로 시작하고 이름 또는 인덱스로 지정한 열을 추가합니다. 항상 “자연스러운 순서”로 열을 반환하는 다른 옵션과 달리 이 옵션은 이름이 지정되거나 나열된 순서로 열을 출력합니다.
예를 들어 Col1, Col2, Col3, Col4 열이 포함된 데이터 세트에서 다음 목록 중 하나를 지정하여 열의 순서를 반대로 바꾸고 열 2를 제거할 수 있습니다.
Col4, Col3, Col1
4,3,1
다음 단계
Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.