모델 작성기로 학습 데이터 로드

ML.NET의 모델 작성기 시나리오 중 하나에서 사용하기 위해 파일 또는 SQL Server 데이터베이스에서 학습 데이터 세트를 로드하는 방법에 대해 알아봅니다. 모델 작성기 시나리오에서는 SQL Server 데이터베이스, 이미지 파일, CSV 또는 TSV 파일 형식을 학습 데이터로 사용할 수 있습니다.

Model Builder는 쉼표, 탭, 세미콜론 구분 기호가 있는 TSV, CSV 및 TXT 파일과 PNG 및 JPG 이미지만 허용합니다.

모델 작성기 시나리오

모델 작성기를 사용하면 다음과 같은 기계 학습 시나리오에 대한 모델을 만들 수 있습니다.

  • 데이터 분류(이진 및 다중 클래스 분류): 텍스트 데이터를 두 개 이상의 범주로 분류합니다.
  • 값 예측(재발): 숫자 값을 예측합니다.
  • 이미지 분류(딥 러닝): 이미지를 두 개 이상의 범주로 분류합니다.
  • 권장 사항(권장 사항): 특정 사용자를 위해 제안된 항목 목록을 생성합니다.
  • 개체 감지(딥 러닝): 이미지에서 개체를 감지하고 식별합니다. 이렇게 하면 하나 이상의 개체를 찾아 그에 따라 레이블을 지정할 수 있습니다.

이 문서에서는 텍스트 또는 숫자 데이터, 이미지 분류, 개체 감지 시나리오를 사용하여 분류와 회귀를 설명합니다.

파일에서 텍스트 또는 숫자 데이터 로드

파일의 텍스트 또는 숫자 데이터를 모델 작성기로 로드할 수 있습니다. 쉼표로 구분된(CSV) 파일 형식 또는 탭으로 구분된(TSV) 파일 형식을 허용합니다.

  1. Model Builder의 데이터 단계에서 파일을 데이터 원본 형식으로 선택합니다.

  2. 텍스트 상자 옆의 있는 찾아보기 단추를 선택하고 파일 탐색기를 사용하여 데이터 파일을 찾고 선택합니다.

  3. 예측할 열(레이블) 드롭다운에서 범주를 선택합니다.

    참고 항목

    (선택 사항) 데이터 분류 시나리오: 레이블 열의 데이터 형식(“예측할 열(레이블)” 드롭다운의 값)이 부울(True/False)로 설정되면 모델 학습 파이프라인에서 이진 분류 알고리즘이 사용됩니다. 그렇지 않으면 다중 클래스 분류 트레이너가 사용됩니다. 고급 데이터 옵션을 사용하여 레이블 열의 데이터 형식을 수정하고 데이터에 사용해야 하는 트레이너 유형을 Model Builder에 알립니다.

  4. 고급 데이터 옵션 링크에서 데이터를 업데이트하여 열 설정을 지정하거나 데이터 서식을 업데이트합니다.

모델 작성기에 대한 데이터 원본 파일을 설정하는 작업을 완료했습니다. 다음 단계 단추를 클릭하여 Model Builder의 다음 단계로 이동합니다.

SQL Server 데이터베이스에서 데이터 로드

모델 작성기는 로컬 및 원격 SQL Server 데이터베이스에서 데이터를 로드할 수 있도록 지원합니다.

로컬 데이터베이스 파일

SQL Server 데이터베이스 파일에서 Model Builder로 데이터를 로드하려면 다음을 수행합니다.

  1. Model Builder의 데이터 단계에서 SQL Server를 데이터 원본 형식으로 선택합니다.

  2. 데이터 원본 선택 단추를 선택합니다.

    1. 데이터 원본 선택 대화 상자에서 Microsoft SQL Server 데이터베이스 파일을 선택합니다.
    2. 항상 이 선택 사용 확인란의 선택을 취소하고 계속을 선택합니다.
    3. 연결 속성 대화 상자에서 찾아보기를 선택한 후 다운로드한 .MDF 파일을 선택합니다.
    4. 확인을 선택합니다.
  3. 테이블 이름 드롭다운에서 데이터 세트 이름을 선택합니다.

  4. 예측할 열(레이블) 드롭다운에서 예측을 수행하려는 데이터 범주를 선택합니다.

    참고 항목

    (선택 사항) 데이터 분류 시나리오: 레이블 열의 데이터 형식(“예측할 열(레이블)” 드롭다운의 값)이 부울(True/False)로 설정되면 모델 학습 파이프라인에서 이진 분류 알고리즘이 사용됩니다. 그렇지 않으면 다중 클래스 분류 트레이너가 사용됩니다. 고급 데이터 옵션을 사용하여 레이블 열의 데이터 형식을 수정하고 데이터에 사용해야 하는 트레이너 유형을 Model Builder에 알립니다.

  5. 고급 데이터 옵션 링크에서 데이터를 업데이트하여 열 설정을 지정하거나 데이터 서식을 업데이트합니다.

원격 데이터베이스

SQL Server 데이터베이스 연결에서 Model Builder로 데이터를 로드하려면 다음을 수행합니다.

  1. Model Builder의 데이터 단계에서 SQL Server를 데이터 원본 형식으로 선택합니다.

  2. 데이터 원본 선택 단추를 선택합니다.

    1. 데이터 원본 선택 대화 상자에서 Microsoft SQL Server를 선택합니다.
  3. 연결 속성 대화 상자에서 Microsoft SQL 데이터베이스의 속성을 입력합니다.

    1. 연결하려는 테이블이 있는 서버 이름을 제공합니다.
    2. 서버에 대한 인증을 설정합니다. SQL Server 인증을 선택한 경우 서버의 사용자 이름 및 암호를 입력합니다.
    3. 데이터베이스 이름 선택 또는 입력 드롭다운에서 연결할 데이터베이스를 선택합니다. 서버 이름 및 로그인 정보가 올바른 경우 자동으로 채워집니다.
    4. 확인을 선택합니다.
  4. 테이블 이름 드롭다운에서 데이터 세트 이름을 선택합니다.

  5. 예측할 열(레이블) 드롭다운에서 예측을 수행하려는 데이터 범주를 선택합니다.

    참고 항목

    (선택 사항) 데이터 분류 시나리오: 레이블 열의 데이터 형식(“예측할 열(레이블)” 드롭다운의 값)이 부울(True/False)로 설정되면 모델 학습 파이프라인에서 이진 분류 알고리즘이 사용됩니다. 그렇지 않으면 다중 클래스 분류 트레이너가 사용됩니다. 고급 데이터 옵션을 사용하여 레이블 열의 데이터 형식을 수정하고 데이터에 사용해야 하는 트레이너 유형을 Model Builder에 알립니다.

  6. 고급 데이터 옵션 링크에서 데이터를 업데이트하여 열 설정을 지정하거나 데이터 서식을 업데이트합니다.

모델 작성기에 대한 데이터 원본 파일을 설정하는 작업을 완료했습니다. 다음 단계 단추 링크를 클릭하여 Model Builder의 다음 단계로 이동합니다.

이미지 분류 데이터 파일 설정

Model Builder에서는 이미지 분류 데이터가 분류 범주에 해당하는 폴더에 구성된 JPG 또는 PNG 파일이어야 합니다.

모델 작성기에 이미지를 로드하려면 단일 최상위 디렉터리에 대한 경로를 제공합니다.

  • 이 최상위 디렉터리에는 예측할 각 범주에 대한 하위 폴더가 하나씩 포함되어 있습니다.
  • 각 하위 폴더에는 해당 범주에 속하는 이미지 파일이 포함되어 있습니다.

아래 그림에 나와 있는 폴더 구조에서 최상위 디렉터리는 flower_photos입니다. 예측하려는 범주에 해당하는 5개의 하위 디렉터리(daisy, dandelion, roses, sunflowers 및 tulips)가 있습니다. 이러한 각 하위 디렉터리는 해당 범주에 속하는 이미지를 포함합니다.

\---flower_photos
    +---daisy
    |       100080576_f52e8ee070_n.jpg
    |       102841525_bd6628ae3c.jpg
    |       105806915_a9c13e2106_n.jpg
    |
    +---dandelion
    |       10443973_aeb97513fc_m.jpg
    |       10683189_bd6e371b97.jpg
    |       10919961_0af657c4e8.jpg
    |
    +---roses
    |       102501987_3cdb8e5394_n.jpg
    |       110472418_87b6a3aa98_m.jpg
    |       118974357_0faa23cce9_n.jpg
    |
    +---sunflowers
    |       127192624_afa3d9cb84.jpg
    |       145303599_2627e23815_n.jpg
    |       147804446_ef9244c8ce_m.jpg
    |
    \---tulips
            100930342_92e8746431_n.jpg
            107693873_86021ac4ea_n.jpg
            10791227_7168491604.jpg

개체 감지 이미지 데이터 파일 설정

Model Builder에서는 VoTT에서 생성된 JSON 형식의 개체 감지 이미지 데이터가 필요합니다. JSON 파일은 프로젝트 설정에 지정된 대상 위치vott-json-export 폴더에 있습니다.

JSON 파일은 VoTT에서 생성된 다음 정보로 구성됩니다.

  • 생성된 모든 태그
  • 이미지 파일 위치
  • 이미지 경계 상자 정보
  • 이미지와 연결된 태그

개체 감지를 위한 데이터 준비에 관한 자세한 내용은 VoTT에서 개체 감지 데이터 생성을 참조하세요.

다음 단계

모델 작성기를 사용하여 기계 학습 앱을 빌드하려면 다음 자습서를 따릅니다.

코드를 사용하여 모델을 학습하는 경우 ML.NET API를 사용하여 데이터를 로드하는 방법을 알아보세요.