FileDatasetFactory 클래스

Azure Machine Learning용 파일 데이터 세트를 만드는 메서드가 포함되어 있습니다.

이 클래스에 정의된 from_files 메서드에서 FileDataset가 만들어집니다.

파일 데이터 세트 작업에 대한 자세한 내용은 Notebook https://aka.ms/filedataset-samplenotebook을 참조하세요.

상속
builtins.object
FileDatasetFactory

생성자

FileDatasetFactory()

메서드

from_files

파일 스트림을 나타내는 FileDataset을 만듭니다.

upload_directory

소스 디렉터리에서 데이터 세트를 만듭니다.

from_files

파일 스트림을 나타내는 FileDataset을 만듭니다.

static from_files(path, validate=True, partition_format=None, is_file=False)

매개 변수

path
Union[str, list[str], DataPath, list[DataPath], (Datastore, str), list[(Datastore, str)]]
필수

단일 값 또는 URL 문자열 목록(http[s]|abfs[s]|wasb[s]), DataPath 개체 또는 및 상대 경로의 튜플일 수 있는 원본 파일의 Datastore 경로입니다. 경로 목록에는 URL과 데이터 저장소를 함께 포함할 수 없습니다.

validate
bool
필수

반환된 데이터 세트에서 데이터를 로드할 수 있는지 확인할지 여부를 나타냅니다. 기본값은 True입니다. 유효성을 검사하려면 현재 컴퓨팅에서 데이터 원본에 액세스할 수 있어야 합니다.

partition_format
str
필수

경로의 파티션 형식을 지정합니다. 기본값은 None입니다. 각 경로의 파티션 정보는 지정된 형식에 따라 열로 추출됩니다. 형식 부분 '{column_name}'은 문자열 열을 만들고, '{column_name:yyyy/MM/dd/HH/mm/ss}'는 datetime 열을 만듭니다. 여기서 'yyyy', 'MM', 'dd', 'HH', 'mm' 및 'ss'는 datetime 형식의 연도, 월, 일, 시, 분 및 초를 추출하는 데 사용됩니다. 형식은 첫 번째 파티션 키의 위치에서 시작하여 파일 경로의 끝까지입니다. 예를 들어 '../Accounts/2019/01/01/data.jsonl' 경로가 지정되면 파티션은 부서 이름 및 시간 기준, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.jsonl'은 값이 'Accounts'인 문자열 열 'Department'와 값이 '2019-01-01'인 날짜/시간 열 'PartitionDate'를 만듭니다.

is_file
bool
필수

모든 입력 경로가 파일을 가리키는지 여부를 나타냅니다. 데이터 세트 엔진은 기본적으로 입력 경로가 파일을 가리키는지 여부를 확인하려고 시도합니다. 모든 입력 경로가 파일인 경우 이 플래그를 True로 설정하여 데이터 세트 만들기 속도를 높입니다.

반환

FileDataset 개체입니다.

반환 형식

설명

from_files는 제공된 경로에서 파일 스트림을 로드하는 작업을 정의하는 FileDataset 클래스의 개체를 만듭니다.

Azure Machine Learning에서 데이터에 액세스할 수 있도록 하려면 에 지정된 path 파일이 에 Datastore 있거나 Blob, ADLS Gen1 및 ADLS Gen2의 공용 웹 URL 또는 URL을 사용하여 액세스할 수 있어야 합니다.

사용자의 AAD 토큰은 Notebook 또는 로컬 Python 프로그램에서 FileDataset.mount FileDataset.download 함수 중 하나를 직접 호출하는 경우 사용됩니다. FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files 컴퓨팅 대상의 ID는 데이터 액세스 인증을 위해 Experiment.submit에서 제출한 작업에 사용됩니다. 자세한 정보: https://aka.ms/data-access


   from azureml.core import Dataset, Datastore

   # create file dataset from a single file in datastore
   datastore = Datastore.get(workspace, 'workspaceblobstore')
   file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))

   # create file dataset from a single directory in datastore
   file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))

   # create file dataset from all jpeg files in the directory
   file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))

   # create filedataset from multiple paths
   data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
   file_dataset_4 = Dataset.File.from_files(path=data_paths)

   # create file dataset from url
   file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')

upload_directory

소스 디렉터리에서 데이터 세트를 만듭니다.

static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)

매개 변수

src_dir
str
필수

업로드할 로컬 디렉터리입니다.

target
Union[DataPath, Datastore, tuple(Datastore, str)]
필수

필수, 파일이 업로드될 데이터 저장소 경로입니다.

pattern
str
필수

선택 사항, 제공된 경우 '*', '?'를 지원하고 []로 표현된 문자 범위를 지원하는 Python glob 패키지와 유사하게 지정된 패턴과 일치하는 모든 경로 이름을 필터링합니다.

show_progress
bool
필수

선택 사항으로 콘솔에 업로드 진행률을 표시할지 여부를 나타냅니다. 기본값은 True입니다.

반환

등록된 데이터 세트입니다.

반환 형식