중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
이 문서에서는 Machine Learning Studio(클래식)의 데이터 분할 모듈에서 정규식 분할 옵션을 사용하는 방법을 설명합니다. 이 옵션은 텍스트 열에 필터 조건을 적용해야 하는 경우에 유용합니다. 예를 들어 특정 제품이 언급되는지 여부에 따라 데이터 세트를 나눌 수 있습니다.
단일 텍스트 열에서 정규식 분할 을 사용할 수 있습니다. 텍스트 열 이름을 포함하는 정규식을 정의한 다음 열에 적용되는 조건을 설정합니다(예: "begins with", "contains", "contains", "contain not not contain").
기계 학습 실험의 데이터 분할에 대한 일반적인 내용은 데이터 분할 및 파티션 및 분할을 참조하세요.
관련 작업
데이터 분할 모듈의 기타 옵션:
상대 식을 사용하여 데이터 분할: 숫자 데이터에 식을 적용합니다.
추천 데이터 세트 분할: 권장 사항 모델에 사용되는 데이터 세트를 나눕니다. 데이터 세트에는 항목, 사용자 및 등급의 세 개의 열이 있어야 합니다.
정규식을 사용하여 데이터 세트 나누기
데이터 분할 모듈을 실험에 추가하고 분할하려는 데이터 세트에 입력으로 연결합니다.
분할 모드의 경우 정규식 분할을 선택합니다.
정규식 상자에 유효한 정규식을 입력합니다. 여기에 몇 가지 예제가 제공됩니다.
정규식은 문자열 데이터 형식이어야 하는 지정된 열에만 적용됩니다.
정규식 작성에 대한 도움말은 정규식 언어 - 빠른 참조를 참조하세요.
실험을 실행하거나 모듈을 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택합니다.
제공하는 정규식에 따라 데이터 집합은 두 개의 행 집합(표현식과 일치하는 값이 있는 행과 나머지 모든 행)으로 나뉩니다.
예
다음 예제에서는 정규식 옵션을 사용하여 데이터 세트를 나누는 방법을 보여 줍니다.
단일 단어
다음은 열Text의 텍스트 Gryphon 가 포함된 모든 행을 첫 번째 데이터 세트에 넣고 다른 행을 분할 데이터의 두 번째 출력에 넣는 예제입니다.
\"Text" Gryphon
Substring
다음은 데이터 세트의 두 번째 열 내에서 인덱스 값 1로 표시된 위치에 있는 지정된 문자열을 찾는 예제입니다. 일치 항목 찾기에서는 대/소문자를 구분합니다.
(\1) ^[a-f]
첫 번째 결과 데이터 세트에는 인덱스 열이 a, b, c, d, e, f 문자 중 하나로 시작하는 모든 행이 포함됩니다. 다른 모든 행은 두 번째 출력으로 전달됩니다.
IP 주소의 문자열 일치
이 예제에서는 일부 서버 로그 데이터를 분석을 위해 방화벽 뒤의 연결 및 방화벽 외부의 IP 주소와의 연결이라는 두 가지 범주로 나눕니다. 정규식은 필드(문자열 데이터 형식)에 적용됩니다IP_Address.
(\IP_Address) ^[10]
첫 번째 출력에는 .로 10시작하는 모든 주소가 포함됩니다.