중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
이 문서에서는 Machine Learning Studio(클래식)의 데이터 분할 모듈에서 상대 식 분할 옵션을 사용하는 방법을 설명합니다. 이 옵션은 숫자 식을 사용하여 데이터 세트를 학습 및 테스트 데이터 세트로 나누어야 하는 경우에 유용합니다. 예를 들면 다음과 같습니다.
- 40세 이상 및 40세 이하의 연령
- 60 이상 및 60 미만의 테스트 점수
- 1의 순위 값과 다른 모든 값
데이터를 나누려면 데이터에서 단일 숫자 열을 선택하고 각 행을 평가하는 데 사용할 식을 정의합니다. 상대 식에는 열 이름, 값 및 보다 크거나 작음, 같음 및 같지 않음과 같은 연산자가 포함되어야 합니다.
이 옵션은 데이터 세트를 두 그룹으로 나눕니다.
기계 학습 실험에 대한 데이터 분할에 대한 일반적인 내용은 데이터 분할 및 분할 및 분할을 참조하세요.
관련 작업
데이터 분할 모듈의 다른 옵션:
정규식을 사용하여 데이터 분할: 단일 텍스트 열에 정규식을 적용하고 결과에 따라 데이터 세트를 나눕니다.
추천 데이터 세트 분할: 권장 사항 모델에 사용되는 데이터 세트를 나눕니다. 데이터 세트에는 항목, 사용자 및 등급의 세 개의 열이 있어야 합니다.
상대 식을 사용하여 데이터 세트 나누기
Stuio에서 실험에 데이터 분할 모듈을 추가하고 분할하려는 데이터 세트에 입력으로 연결합니다.
분할 모드에서 상대 식 분할을 선택합니다.
관계형 식 텍스트 상자에 단일 열에 숫자 비교 작업을 수행하는 식을 입력합니다.
열에는 날짜/시간 데이터 형식을 포함하여 숫자 데이터 형식의 숫자가 포함됩니다.
식은 열 이름을 하나까지만 참조할 수 있습니다.
AND 작업에 앰퍼샌드 문자(&)를 사용하고 OR 작업에 파이프 문자(|)를 사용합니다.
지원
<되는 연산자는 , ,><=,>=, ,==입니다.!=및
)를 사용하여(작업을 그룹화할 수 없습니다.
아이디어는 예제 섹션을 참조 하세요 .
실험을 실행하거나 모듈을 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택합니다.
이 표현식은 데이터 집합을 두 개의 행 집합(조건에 맞는 값이 있는 행과 나머지 모든 행)으로 나눕니다.
추가 분할 작업을 수행해야 하는 경우 *데이터 분할의 두 번째 instance 추가하거나 SQL 변환 적용 모듈을 사용하고 CASE 문을 정의할 수 있습니다.
상대 식의 예
다음 예제에서는 데이터 분할 모듈의 상대 식 옵션을 사용하여 데이터 세트를 나누는 방법을 보여 줍니다.
연도 사용
연도별로 데이터 집합을 나누는 것이 일반적인 시나리오입니다. 다음 식은 Year 열의 값이 2010보다 큰 모든 행을 선택합니다.
\"Year" > 2010
날짜 식은 데이터 열에 포함된 모든 날짜 부분을 고려해야 하며 데이터 열의 날짜 형식은 일치해야 합니다.
예를 들어 형식 mmddyyyy을 사용하는 날짜 열에서 식은 다음과 같아야 합니다.
\"Date" > 1/1/2010
열 인덱스 사용
다음 식은 열 인덱스를 사용하여 30 이하이지만 20과는 같지 않은 값이 포함된 데이터 집합의 첫 번째 열에 있는 모든 행을 선택하는 방법을 보여 줍니다.
(\0)<=30 & !=20
여러 분할을 사용하여 시간 값에 대한 복합 작업
너무 오래 실행되는 쿼리를 그룹화하기 위해 로그 데이터의 테이블을 분할하려 한다고 가정합니다. 열 Elapsed에서 다음 상대 식을 사용하여 1분 이상 실행된 쿼리를 가져올 수 있습니다.
\"Elapsed" >00:01:00
응답 시간이 1분 미만이지만 30초보다 많은 쿼리를 얻으려면 오른쪽 출력에 데이터 분할의 또 다른 instance 추가하고 다음과 같은 식을 사용합니다.
\"Elapsed" <:00:01:00 & >00:00:30
날짜 값에 대한 데이터 세트 분할
다음 상대 식은 열 dt1의 날짜 값을 사용하여 데이터 세트를 나눕니다.
\"dt1" > 10-08-2015
날짜가 10-08-2015보다 큰 행이 첫 번째(왼쪽) 출력 데이터 세트에 추가됩니다.
날짜가 10-08-2015 이전인 행은 두 번째(오른쪽) 출력 데이터 세트에 추가됩니다.
기술 정보
이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 대답이 포함되어 있습니다.
제한
다음 제한 사항은 데이터 세트의 상대 식에 적용됩니다.
- 상대 식은 숫자 데이터 형식 및 날짜/시간 데이터 형식에만 적용할 수 있습니다.
- 상대 식은 열 이름을 하나까지만 참조할 수 있습니다.
- AND 연산에 앰퍼샌드 문자(&)를 사용하고 OR 작업에 파이프 문자(|)를 사용합니다.
- 상대 식에 대해 허용되는 연산자는 , ,
><=, ,>=,==입니다<.!= - 괄호로 작업 그룹화는 지원되지 않습니다.