이 페이지는 Unity 카탈로그와 함께 Databricks 기능 저장소를 사용할 때 사용할 수 있는 기능에 대한 개요입니다.
Databricks 기능 저장소는 AI 및 ML 모델에 사용되는 기능에 대한 중앙 레지스트리를 제공합니다. 기능 테이블 및 모델은 Unity 카탈로그에 등록되어 기본 제공 거버넌스, 계보 및 작업 영역 간 기능 공유 및 검색을 제공합니다. Databricks를 사용하면 전체 모델 학습 워크플로가 다음을 비롯한 단일 플랫폼에서 수행됩니다.
- 원시 데이터를 수집하고, 기능 테이블을 만들고, 모델을 학습시키고, 일괄 처리 유추를 수행하는 데이터 파이프라인입니다.
- 한 번의 클릭으로 사용할 수 있고 대기 시간(밀리초)을 제공하는 엔드포인트를 제공하는 모델 및 기능입니다.
- 데이터 및 모델 모니터링.
기능 저장소의 기능을 사용하여 모델을 학습하는 경우 모델은 학습에 사용된 기능에 대한 계보를 자동으로 추적합니다. 유추 시 모델은 자동으로 최신 기능 값을 조회합니다. 또한 기능 저장소는 실시간 애플리케이션에 대한 기능의 주문형 계산을 제공합니다. 기능 저장소는 모든 기능 계산 작업을 처리합니다. 이렇게 하면 학습/서비스 기울이기를 제거하여 유추 시 사용되는 기능 계산이 모델 학습 중에 사용된 기능 계산과 동일한지 확인합니다. 또한 모든 기능 조회 및 계산이 기능 저장소에서 처리되므로 클라이언트 쪽 코드도 크게 간소화됩니다.
비고
이 페이지에서는 Unity 카탈로그에 사용하도록 설정된 작업 영역에 대한 기능 엔지니어링 및 서비스 기능을 다룹니다. Unity 카탈로그에 대해 작업 영역이 사용 설정되지 않은 경우, 작업 영역 기능 저장소(레거시)을 참조하세요.
개념적 개요
Databricks 기능 저장소의 작동 방식과 용어집에 대한 개요는 기능 저장소 개요 및 용어집을 참조하세요.
기능 엔지니어링
| 특징 | Description |
|---|---|
| Unity 카탈로그에서 기능 테이블 작업 | 기능 테이블을 만들고 작업합니다. |
기능 검색 및 공유
| 특징 | Description |
|---|---|
| Unity 카탈로그의 기능 살펴보기 | 카탈로그 탐색기 및 기능 UI를 사용하여 기능 테이블을 탐색하고 관리합니다. |
| Unity 카탈로그에서 기능 테이블 및 기능과 함께 태그 사용 | 간단한 키-값 쌍을 사용하여 기능 테이블 및 기능을 분류하고 관리합니다. |
학습 워크플로의 기능 사용
| 특징 | Description |
|---|---|
| 기능을 사용하여 모델 학습 | 기능을 사용하여 모델을 학습합니다. |
| 지정 시간 기능 조인 | 지정 시간 정확성을 사용하여 레이블 관찰이 기록된 시점의 기능 값을 반영하는 학습 데이터 세트를 만듭니다. |
| Python API | Python API 참조 |
기능 제공
| 특징 | Description |
|---|---|
| Databricks Online 기능 저장소 | 기능 데이터를 온라인 애플리케이션 및 실시간 기계 학습 모델에 제공합니다. Databricks Lakebase에 의해 구동됩니다. |
| 자동 기능 조회를 사용한 모델 서비스 | 온라인 스토어에서 기능 값을 자동으로 조회합니다. |
| 기능 서비스 엔드포인트 | Databricks 외부에서 모델 및 애플리케이션에 기능을 제공합니다. |
| 주문형 기능 계산 | 유추 시 기능 값을 계산합니다. |
특징 거버넌스 및 계통
| 특징 | Description |
|---|---|
| 기능 거버넌스 및 계보 | Unity 카탈로그를 사용하여 기능 테이블에 대한 액세스를 제어하고 기능 테이블, 모델 또는 함수의 계보를 볼 수 있습니다. |
Tutorials
| Tutorial | Description |
|---|---|
| 시작할 Notebook 예제 |
기본 전자 필기장입니다. 기능 테이블을 만들고, 이를 사용하여 모델을 학습시키고, 자동 기능 조회를 사용하여 일괄 처리 채점을 실행하는 방법을 보여 줍니다. 또한 기능을 검색하고 계보를 볼 수 있는 기능 엔지니어링 UI를 보여줍니다. 택시 예제 전자 필기장입니다. 기능을 만들고, 업데이트하고, 모델 학습 및 일괄 처리 유추에 사용하는 프로세스를 보여줍니다. |
| 예: 엔드포인트를 제공하는 기능 배포 및 쿼리 | 엔드포인트를 제공하는 기능을 배포하고 쿼리하는 방법을 보여 주는 자습서 및 예제 Notebook입니다. |
| 예: 구조적 RAG 애플리케이션에서 기능 사용 | DATAbricks 온라인 테이블 및 RAG(검색 보강 세대) 애플리케이션에 엔드포인트를 제공하는 기능을 사용하는 방법을 보여 주는 자습서입니다. |
요구 사항
- 작업 영역이 Unity 카탈로그에 사용할 수 있도록 설정되어야 합니다.
- Unity 카탈로그의 기능 엔지니어링에는 Databricks Runtime 13.3 LTS 이상이 필요합니다.
작업 영역이 이러한 요구 사항을 충족하지 않는 경우 레거시 작업 영역 기능 저장소를 사용하는 방법은 작업 영역 기능 저장소(레거시) 참조하세요.
지원되는 데이터 유형
Unity 카탈로그 및 레거시 작업 영역 기능 저장소의 기능 엔지니어링은 다음과 같은 PySpark 데이터 형식지원합니다.
IntegerTypeFloatTypeBooleanTypeStringTypeDoubleTypeLongTypeTimestampTypeDateTypeShortTypeArrayType-
BinaryType[1] -
DecimalType[1] -
MapType[1] -
StructType[2]
[1] BinaryType, DecimalType 및 MapType는 Unity 카탈로그의 모든 Feature Engineering 버전과 Workspace Feature Store v0.3.5 이상에서 지원됩니다.
[2] StructType는 기능 엔지니어링 v0.6.0 이상에서 지원됩니다.
위에 나열된 데이터 형식은 기계 학습 애플리케이션에서 일반적인 기능 유형을 지원합니다. 예시:
- 조밀한 벡터, 텐서 및 포함을
ArrayType으로 저장할 수 있습니다. - 희박한 벡터, 텐서 및 포함을
MapType으로 저장할 수 있습니다. - 텍스트를
StringType으로 저장할 수 있습니다.
온라인 저장소에 게시되면 ArrayType 및 MapType 기능이 JSON 형식으로 저장됩니다.
기능 저장소 UI는 기능 데이터 형식의 메타데이터를 표시합니다.
자세한 정보
모범 사례에 대한 자세한 내용을 보려면 포괄적인 기능 저장소 가이드를 다운로드하세요.