A
ACL(액세스 제어 목록)
작업 영역, 클러스터, 작업, 테이블 또는 실험에 연결된 사용 권한 목록입니다. ACL은 개체에 대한 액세스 권한이 부여된 사용자 또는 시스템 프로세스와 자산에 허용되는 작업을 지정합니다. 일반적인 ACL의 각 항목은 제목과 작업을 지정합니다. 액세스 제어 목록을 참조하세요.
액세스 모드
컴퓨팅 리소스를 사용할 수 있는 사용자와 컴퓨팅 리소스를 사용하는 동안 액세스할 수 있는 데이터를 결정하는 보안 기능입니다. Azure Databricks의 모든 컴퓨팅 리소스에는 액세스 모드가 있습니다. 액세스 모드를 참조하세요.
ACID 트랜잭션
안정적으로 처리되는 데이터베이스 트랜잭션입니다. ACID는 원자성, 일관성, 격리, 내구성을 의미합니다. 안정성에 대한 모범 사례를 참조하세요.
AI(인공 지능)
지능형 인간의 동작을 모방하는 컴퓨터의 기능입니다. Databricks에서 AI 및 기계 학습을 참조하세요.
AI 에이전트
고유한 계획을 만들고 도구에 따라 작업을 실행할 수 있는 복잡한 추론 기능이 있는 애플리케이션입니다. Databricks의 생성 AI 앱 소개를 참조하세요.
AI 함수
Azure Databricks의 SQL에서 직접 데이터에 AI를 적용할 수 있는 기본 제공 SQL 함수입니다. Azure Databricks AI Functions를 사용하여 데이터에 AI 적용을 참조하세요.
AI 플레이그라운드
사용자가 Azure Databricks 작업 영역에서 제공되는 생성 AI 모델과 상호 작용, 테스트 및 비교할 수 있는 Azure Databricks 기능입니다. AI Playground를 사용하여 LLM 및 프로토타입 생성 AI 앱과의 채팅을 참조하세요.
이상 감지
데이터 세트의 예상 동작을 따르지 않는 비정상적인 패턴을 식별하는 데 사용되는 기술 및 도구입니다. Azure Databricks는 기계 학습 및 데이터 처리 기능을 통해 변칙 검색을 용이하게 합니다.
Apache Spark
빅 데이터 워크로드에 사용되는 오픈 소스 분산 컴퓨팅 시스템입니다. Azure Databricks의 Apache Spark를 참조하세요.
ANN(인공 신경망)
인간 뇌의 뉴런 작동을 모방한 컴퓨팅 시스템.
자산
Azure Databricks 작업 영역의 엔터티(예: 개체 또는 파일)입니다.
감사 로그
보안, 규정 준수 및 운영 모니터링에 중요한 Azure Databricks 환경 내의 사용자 활동 및 작업에 대한 기록입니다. 진단 로그 참조를 참조하세요.
자동 로더
추가 설정 없이 클라우드 스토리지에 도착할 때 새 데이터 파일을 증분하고 효율적으로 처리하는 데이터 수집 기능입니다. 자동 로더란?을 참조하세요.
AutoML
최상의 알고리즘 및 하이퍼 매개 변수 구성을 자동으로 찾아서 데이터 세트에 기계 학습을 적용하는 프로세스를 간소화하는 Azure Databricks 기능입니다. AutoML이란?을 참조하세요.
자동화된 데이터 계보
디버깅, 규정 준수 및 데이터 종속성 이해에 필수적인 다양한 변환을 통해 원본에서 최종 형식으로의 데이터 흐름을 자동으로 추적하고 시각화하는 프로세스입니다. Azure Databricks는 데이터 계보 도구와의 통합을 통해 이를 용이하게 합니다.
자동 크기 조정, 가로
예약 대기 중인 작업 수에 따라 실행기를 추가하거나 제거합니다. 단일 업데이트 중에 동적으로 발생합니다.
자동 크기 조정, 세로
메모리 압력(또는 그 부족)에 따라 컴퓨터(드라이버 또는 실행기)의 크기를 늘리거나 줄입니다. 이 문제는 새 업데이트가 시작될 때만 발생합니다.
Azure Databricks
Microsoft Azure 클라우드 플랫폼에 최적화된 Databricks 버전입니다.
b
일괄 처리
고정된 양의 정적, 변경되지 않는 데이터를 단일 작업으로 처리하는 명시적 지침을 정의할 수 있는 데이터 처리 메서드입니다. Azure Databricks는 Spark SQL 또는 DataFrames를 사용합니다. Lakeflow Connect의 표준 커넥터를 참조하세요.
편향 탐지 및 완화
공정성과 정확성을 보장하기 위해 데이터 및 기계 학습 모델의 편견을 식별하고 해결하는 프로세스입니다. Databricks는 편견을 감지하고 완화하는 데 도움이 되는 도구와 통합을 제공합니다. 분류 모델에 대한 공정성 및 바이어스 모니터링을 참조하세요.
BI(비즈니스 인텔리전스)
기업에서 비즈니스 정보의 데이터 분석 및 관리에 사용하는 전략 및 기술입니다.
C
카탈로그 탐색기
데이터, 스키마(데이터베이스), 테이블, 모델, 함수 및 기타 AI 자산을 탐색하고 관리하는 UI를 제공하는 Azure Databricks 기능입니다. 이를 사용하여 데이터 개체 및 소유자를 찾고, 테이블 간의 데이터 관계를 이해하고, 사용 권한 및 공유를 관리할 수 있습니다. 카탈로그 탐색기란?을 참조하세요.
자식 인스턴스
자식 인스턴스는 원래 데이터베이스 인스턴스의 쓰기 복사 복제본입니다. 현재 시점 또는 보존 기간 내의 기록 지정 시간에서 만들 수 있습니다. 자식 인스턴스 만들기를 참조하세요.
CICD 또는 CI/CD
CI(연속 통합) 및 CD(지속적인 업데이트)의 결합된 사례입니다. Azure Databricks에서 CI/CD를 참조하세요.
데이터 정리
데이터 정리 프로세스를 거친 데이터는 레코드 집합, 테이블 또는 데이터베이스에서 손상되거나 부정확한 레코드를 검색 및 수정(또는 제거하는 프로세스)이며 데이터의 불완전하거나 부정확하거나 부정확하거나 관련이 없는 부분을 식별한 다음 더티 또는 거친 데이터를 대체, 수정 또는 삭제하는 것을 의미합니다.
클린룸
델타 공유 및 서버리스 컴퓨팅을 사용하여 여러 당사자가 중요한 엔터프라이즈 데이터를 공유하고 서로의 데이터에 직접 액세스하지 않고 공동 작업할 수 있는 안전하고 개인 정보 보호 환경을 제공하는 Azure Databricks 기능입니다. 클린 룸을 사용하면 다른 Databricks 계정의 사용자가 공동 작업하여 중요한 기본 데이터에 대한 액세스를 공유하지 않고 광고 캠페인, 투자 결정 또는 연구 개발과 같은 공유 프로젝트에 대한 인사이트를 생성할 수 있습니다. Azure Databricks Clean Rooms란?을 참조하세요.
클라우드 플랫폼 공급자
클라우드 컴퓨팅 플랫폼을 제공하는 회사입니다. 예를 들어 Microsoft Azure, AWS(Amazon Web Services) 및 GCP(Google Cloud Platform)가 있습니다.
클러스터
노트북, 작업, 그리고 Lakeflow 선언적 파이프라인에 사용되는 비서버리스 컴퓨팅 리소스입니다. 컴퓨팅이라는 용어는 Azure Databricks UI 전체에서 클러스터를 대체했지만 클러스터 API 및 메타데이터에서 여전히 사용됩니다.
계산
하드웨어 또는 소프트웨어와 같은 인프라 요소인 컴퓨팅 리소스를 참조하여 데이터 수신, 분석 및 저장을 통해 문제 해결 및 솔루션을 만들 수 있습니다. 컴퓨팅.
연속 파이프라인
새 데이터가 중지하지 않고 입력에 도착할 때 모든 테이블을 지속적으로 업데이트하는 파이프라인입니다. 트리거된 파이프라인 모드와 연속 파이프라인 모드를 참조하세요.
D
DAG(유향 비순환 그래프)
워크플로 또는 파이프라인의 작업 간 종속성을 나타내는 메서드입니다. DAG 처리 모델에서 태스크는 지시된 순환 그래프에서 노드로 표시됩니다. 여기서 에지는 태스크 간의 종속성을 나타냅니다.
데이터 카탈로그
데이터 원본을 관리하여 데이터의 구조, 위치 및 사용량에 대한 정보를 제공하는 메타데이터 관리 도구입니다. Azure Databricks는 향상된 메타데이터 관리를 위해 외부 데이터 카탈로그와 통합됩니다.
데이터 거버넌스
데이터 품질 및 규정 준수를 보장하기 위한 정책, 절차 및 기술과 관련된 데이터의 가용성, 무결성, 보안 및 유용성을 관리하는 방법입니다.
데이터 수집
스토리지, 분석 및 처리를 위해 다양한 원본에서 Azure Databricks로 데이터를 가져오고, 전송하고, 로드하고, 처리하는 프로세스입니다.
data lake
필요할 때까지 방대한 양의 원시 데이터를 네이티브 형식으로 보유하는 대규모 스토리지 리포지토리입니다.
Data Lakehouse
데이터 레이크와 데이터 웨어하우스의 이점을 결합한 데이터 관리 시스템입니다. 데이터 레이크하우스는 ML(기계 학습) 및 BI(비즈니스 인텔리전스)와 같은 다양한 워크로드를 처리하기 위해 격리된 시스템을 방지하려는 최신 조직에 확장 가능한 스토리지 및 처리 기능을 제공합니다. 데이터 레이크하우스는 단일 진실 소스를 설정하고 중복 비용을 제거하며 데이터 새로 고침을 보장하는 데 도움이 될 수 있습니다. 데이터 레이크하우스란?을 참조하세요.
데이터 파이프라인
데이터가 생성, 수집, 처리 및 대상으로 이동하는 일련의 단계입니다. Databricks를 사용하면 일괄 처리 및 실시간 데이터 처리를 위해 복잡한 데이터 파이프라인을 만들고 관리할 수 있습니다.
데이터 개인정보 보호
무단 액세스, 사용, 공개 또는 도난으로부터 개인 데이터를 보호하는 관행입니다. Azure Databricks는 중요한 정보를 보호하고 데이터 거버넌스를 보장하기 위해 엔드 투 엔드 암호화, 역할 기반 액세스 제어 및 주요 데이터 보호 규정 준수를 비롯한 강력한 데이터 개인 정보 보호 및 보안 기능을 강조합니다.
데이터 시각화
애플리케이션이 데이터 형식 지정 방법 또는 물리적 위치와 같은 데이터에 대한 기술적 세부 정보를 요구하지 않고도 데이터를 검색하고 조작할 수 있도록 하는 데이터 관리 접근 방식입니다. Azure Databricks는 서로 다른 원본에서 데이터에 원활하게 액세스하고 분석하여 데이터 가상화 계층의 일부로 사용될 수 있습니다.
데이터 웨어하우징
비즈니스 인사이트 및 보고를 위해 신속하게 액세스할 수 있도록 여러 원본에서 데이터를 수집하고 저장하는 것을 말합니다. 레이크하우스 아키텍처 및 Databricks SQL은 클라우드 데이터 웨어하우징 기능을 데이터 레이크에 제공합니다. Azure Databricks에서 데이터 웨어하우징이란?을 참조하세요.
데이터베이스 카탈로그
Unity 카탈로그의 엔터티로 하나의 인스턴스에 있는 Postgres 데이터베이스를 나타냅니다. 개념적으로, 이는 Unity 카탈로그의 외래 카탈로그와 유사합니다. Unity 카탈로그에서 데이터베이스 등록을 참조하세요.
데이터베이스 인스턴스
데이터베이스 인스턴스는 스토리지 및 컴퓨팅 리소스를 관리하고 사용자가 연결하는 엔드포인트를 제공합니다. 데이터베이스 인스턴스란?을 참조하세요.
Databricks
엔터프라이즈급 데이터, 분석 및 AI 솔루션을 대규모로 빌드, 배포, 공유 및 유지 관리하기 위한 통합된 개방형 분석 플랫폼입니다. Databricks Data Intelligence 플랫폼은 클라우드 계정의 클라우드 스토리지 및 보안과 통합되고 사용자를 대신하여 클라우드 인프라를 관리하고 배포합니다. Azure Databricks란?을 참조하세요.
Databricks AI/BI
데이터의 의미 체계를 이해하고 셀프 서비스 데이터 분석을 가능하게 하는 비즈니스 인텔리전스 제품입니다. AI/BI는 ETL 파이프라인, 계보 및 기타 쿼리를 포함하여 Databricks 플랫폼에서 데이터의 전체 수명 주기에서 인사이트를 끌어들이는 복합 AI 시스템을 기반으로 합니다. Databricks AI/BI란?을 참조하세요.
Databricks Platform을 구동하는 데이터 인텔리전스 엔진입니다. AI 모델, 검색, 순위 및 개인 설정 시스템을 결합하여 조직의 데이터 및 사용 패턴의 의미 체계를 이해하는 복합 AI 시스템입니다. Databricks AI 기반 기능을 참조하세요.
Databricks 자산 번들
데이터 및 AI 프로젝트에 대한 소스 제어, 코드 검토, 테스트 및 CI/CD(지속적인 통합 및 전달)를 비롯한 소프트웨어 엔지니어링 모범 사례를 쉽게 채택할 수 있는 도구입니다. 번들을 사용하면 작업, 파이프라인 및 Notebook과 같은 Azure Databricks 리소스를 원본 파일로 설명할 수 있습니다. "Databricks 자산 번들이란 무엇인가요?"를 참조하세요.
Databricks 어시스턴트
AI 기반 페어 프로그래머와 지원 에이전트를 통해 노트북, 쿼리, 대시보드, 파일을 작성할 때 더 효율적으로 작업할 수 있습니다. 코드와 쿼리를 생성, 최적화, 완료, 설명 및 수정하여 질문에 신속하게 답변할 수 있습니다. Databricks Assistant란?을 참조하세요.
Databricks CLI
사용자가 Databricks 작업 영역을 관리 및 자동화하고 작업, Notebook 및 라이브러리를 배포할 수 있도록 하는 Azure Databricks용 명령줄 인터페이스입니다. Databricks CLI란?을 참조하세요.
Databricks Connect
개발자가 즐겨 찾는 IDE, Notebook 및 기타 도구를 Azure Databricks 컴퓨팅과 연결하고 Spark 코드를 원격으로 실행할 수 있는 클라이언트 라이브러리입니다. Databricks Connect란?을 참조하세요.
Databricks Container Services
컴퓨팅을 만들 때 Docker 이미지를 지정할 수 있는 Azure Databricks 기능입니다. Databricks Container Service를 사용하여 컨테이너 사용자 지정을 참조하세요.
Databricks Marketplace
데이터 제품을 교환하기 위한 공개 포럼입니다. 공급자는 Azure Databricks 계정이 있어야 하지만 받는 사람은 누구나 될 수 있습니다. Marketplace 자산에는 데이터 세트, Azure Databricks Notebook, Azure Databricks 솔루션 가속기 및 AI(기계 학습) 모델이 포함됩니다. 데이터 세트는 일반적으로 테이블 형식 데이터의 카탈로그로 사용할 수 있지만 테이블 형식이 아닌 데이터도 Azure Databricks 볼륨 형식으로 지원됩니다. Databricks Marketplace란?을 참조하세요.
Databricks 런타임
빅 데이터 분석에 최적화된 런타임입니다. Databricks는 기계 학습 워크로드에 최적화된 Machine Learning용 Databricks 런타임도 제공합니다. Databricks 런타임 및 Databricks 런타임 릴리스 정보 버전 및 호환성을 참조하세요.
Databricks SQL(DBSQL)
기존 데이터 레이크에 데이터 웨어하우징 기능 및 성능을 제공하는 서비스 컬렉션입니다. Azure Databricks SQL은 개방형 형식 및 표준 ANSI SQL을 지원합니다. 플랫폼 내 SQL 편집기 및 대시보드 도구를 사용하면 팀 구성원이 작업 영역에서 직접 다른 Azure Databricks 사용자와 공동 작업할 수 있습니다. Azure Databricks에서 데이터 웨어하우징이란?을 참조하세요.
DBU
DBU(Databricks Unit)는 측정 및 가격 책정 목적으로 사용되는 Databricks Lakehouse 플랫폼의 정규화된 처리 능력 단위입니다. 워크로드에서 사용하는 DPU 수는 사용된 컴퓨팅 리소스와 처리된 데이터의 양을 포함할 수 있는 메트릭 처리에 의해 좌우됩니다. Azure Databricks 구성 요소를 참조하세요.
DataFrame
스프레드시트와 마찬가지로 데이터를 행과 열의 2차원 테이블로 구성하는 데이터 구조입니다. 데이터 프레임은 유연하고 직관적인 데이터 저장 및 작업 방식이므로 최신 데이터 분석에 사용되는 가장 일반적인 데이터 구조 중 하나입니다. 자습서: Apache Spark DataFrames를 사용하여 데이터 로드 및 변환을 참조하세요.
데이터 세트
분석 또는 처리를 위해 함께 구성되고 저장되는 구조적 데이터 컬렉션입니다. 데이터 세트의 데이터는 일반적으로 어떤 방식으로든 관련되어 있으며 단일 원본에서 가져온 것이거나 단일 프로젝트용입니다.
Delta Lake
데이터 레이크에 안정성을 제공하는 오픈 소스 스토리지 계층입니다. Delta Lake는 ACID 트랜잭션, 스케일링 가능한 메타데이터 처리를 제공하고 스트리밍 및 일괄 처리 데이터 처리를 통합합니다. Azure Databricks에서 Delta Lake란?을 참조하세요.
파이프라인
안정적이고 유지 관리 가능하며 테스트 가능한 데이터 처리 파이프라인을 빌드하기 위한 선언적 프레임워크입니다. 데이터에 대해 수행할 변환을 정의하고 Lakeflow 선언적 파이프라인은 작업 오케스트레이션, 클러스터 관리, 모니터링, 데이터 품질 및 오류 처리를 관리합니다. Lakeflow 선언적 파이프라인을 참조하세요.
파이프라인 데이터 세트
스트리밍 테이블, 구체화된 뷰, 그리고 뷰는 모두 선언적 쿼리의 결과로 유지됩니다.
델타 공유
Azure Databricks의 데이터 및 AI 자산을 해당 사용자가 Azure Databricks를 사용하는지 여부에 관계없이 조직 외부의 사용자와 공유할 수 있습니다. 테이블 형식 데이터를 공유하기 위한 오픈 소스 프로젝트로도 사용할 수 있으며, Azure Databricks에서 사용하면 테이블 형식이 아닌 구조화되지 않은 데이터(볼륨), AI 모델, 뷰, 필터링된 데이터 및 Notebook을 공유하는 기능이 추가됩니다. 델타 공유란?을 참조하세요.
델타 테이블
Azure Databricks의 기본 데이터 테이블 형식이며 Delta Lake 오픈 소스 데이터 프레임워크의 기능입니다. 델타 테이블은 일반적으로 스트리밍 또는 대규모 일괄 처리를 통해 데이터를 수집하는 데이터 레이크에 사용됩니다. Azure Databricks 테이블 소개를 참조하세요.
E
ETL(추출, 변환, 로드)
원본에서 데이터를 추출하고 대상 시스템에 로드한 다음 대상 시스템 내에서 변환하는 데이터 통합에 대한 최신 접근 방식입니다. 자습서: Lakeflow 선언적 파이프라인을 사용하여 ETL 파이프라인 빌드를 참조하세요.
F
기능 저장소
기계 학습 모델의 기능을 저장, 관리 및 제공하기 위한 중앙 리포지토리입니다. 기능 관리를 참조하세요.
흐름
흐름은 데이터를 읽고, 변환하고, 대상에 쓰는 Lakeflow 선언적 파이프라인의 프로세스입니다.
기초 모델
대규모 ML 모델은 보다 구체적인 언어 이해 및 생성 작업을 위해 미세 조정되도록 미리 학습되었습니다. Databricks Foundation 모델 API를 참조하세요.
G
생성 AI
컴퓨터가 모델을 사용하여 이미지, 텍스트, 코드 및 합성 데이터와 같은 콘텐츠를 만드는 기능에 초점을 맞춘 인공 지능 유형입니다. 생성형 AI 애플리케이션은 LLM(대규모 언어 모델) 및 파운데이션 모델과 같은 생성 AI 모델을 기반으로 합니다. Databricks에서 AI 및 기계 학습을 참조하세요.
J
직업
Azure Databricks에서 프로덕션 워크로드를 예약하고 오케스트레이션하기 위한 기본 단위입니다. 작업은 하나 이상의 태스크로 구성됩니다. Lakeflow 작업을 참조하세요.
엘
Lakeflow Connect
엔터프라이즈 애플리케이션 및 데이터베이스에서 수집하기 위한 기본 제공 커넥터를 제공합니다. 결과 수집 파이프라인은 Unity 카탈로그에 의해 제어되며 서버리스 컴퓨팅 및 Lakeflow 선언적 파이프라인에 의해 구동됩니다. Lakeflow Connect에서 관리되는 커넥터를 참조하세요.
레이크하우스 페더레이션
Azure Databricks에 대한 쿼리 페더레이션 플랫폼입니다. 쿼리 페더레이션이라는 용어는 모든 데이터를 통합 시스템으로 마이그레이션할 필요 없이 사용자와 시스템이 여러 데이터 원본에 대해 쿼리를 실행할 수 있도록 하는 기능 컬렉션을 설명합니다. Azure Databricks는 Unity 카탈로그를 사용하여 쿼리 페더레이션을 관리합니다. 레이크하우스 페더레이션이란?을 참조하세요.
Lakebase
Azure Databricks Lakebase는 Lakehouse와 통합된 OLTP 데이터베이스입니다. OLTP(온라인 트랜잭션 처리) 데이터베이스는 대량의 실시간 트랜잭션 데이터를 효율적으로 처리하도록 설계된 특수한 유형의 데이터베이스 시스템입니다. Lakebase를 사용하면 Azure Databricks에 OLTP 데이터베이스를 만들고 OLTP 워크로드를 Lakehouse로 가져올 수 있습니다. Lakebase란?을 참조하세요.
Lakehouse 모니터링
계정의 모든 테이블에서 데이터의 통계 속성 및 품질을 모니터링합니다. 모델 입력 및 예측을 포함하는 유추 테이블을 모니터링하여 기계 학습 모델 및 모델 제공 엔드포인트의 성능을 추적하는 데 사용할 수도 있습니다. Databricks Lakehouse 모니터링 소개를 참조하세요.
LLM(큰 언어 모델)
개방형 질문, 채팅, 콘텐츠 요약, 거의 임의 명령 실행, 번역, 콘텐츠 및 코드 생성과 같은 작업을 위해 설계된 NLP(자연어 처리) 모델입니다. LLM은 고급 기계 학습 알고리즘을 사용하여 인간 언어의 패턴과 구조를 학습하는 대규모 데이터 집합에서 학습됩니다. Databricks에서 LLM(대규모 언어 모델)을 참조하세요.
도서관
클러스터에서 실행 중인 Notebook 또는 작업에 사용할 수 있는 코드 패키지입니다. Databricks Runtime은 많은 라이브러리를 포함하며 사용자가 직접 업로드할 수도 있습니다. 라이브러리 설치를 참조하세요.
M
구체화된 뷰
대기 시간이 짧거나 중복 계산 없이 반복적으로 쿼리할 수 있도록 미리 계산되고 저장된 뷰입니다. 구체화된 뷰를 참조하세요.
메달리온 아키텍처
데이터가 아키텍처의 각 계층(Bronze ⇒ Silver ⇒ Gold 계층 테이블)을 통해 흐르면서 구조와 품질을 점진적이고 순차적으로 개선하는 것을 목표로, 레이크하우스 내에서 데이터를 논리적으로 구성하는 데 사용되는 데이터 디자인 패턴입니다. 메달리온 레이크하우스 건축이란?
metastore
열 및 열 형식 정보, 데이터를 읽고 쓰는 데 필요한 직렬 변환기 및 역직렬 변환기, 데이터가 저장된 해당 파일을 포함하여 데이터 웨어하우스에 있는 다양한 테이블 및 파티션의 모든 구조 정보를 저장하는 구성 요소입니다. 메타스토어를 참조하세요.
MLflow
실험, 재현성 및 배포를 포함하여 엔드 투 엔드 기계 학습 수명 주기를 관리하기 위한 오픈 소스 플랫폼입니다. Azure Databricks의 MLflow는 엔터프라이즈 고객을 위한 추가 기능을 갖춘 완전 관리형 서비스로, MLflow의 확장 가능하고 안전한 관리형 배포를 제공합니다. ML 모델 수명 주기는 MLflow를 참조하세요.
모델 학습
많은 인기 있는 오픈 소스 라이브러리를 사용하여 Azure Databricks에서 기계 학습 및 딥 러닝 모델을 학습하는 프로세스입니다. AI 및 ML 모델 학습을 참조하세요.
모자이크 AI
예측 ML 모델 빌드에서 최신 생성 AI 앱에 이르기까지 AI 및 ML 솔루션을 빌드, 배포, 평가 및 제어하는 통합 도구를 제공하는 기능입니다. Databricks에서 AI 및 기계 학습을 참조하세요.
모자이크 AI 모델 서비스
실시간 및 일괄 처리 유추를 위해 AI 모델을 배포, 관리 및 쿼리하는 통합 인터페이스입니다. Mosaic AI 모델 서비스를 사용하여 모델 배포를 참조하세요.
모자이크 AI 모델 학습
이 기능을 사용하면 데이터를 사용하여 기본 모델을 사용자 지정하여 특정 애플리케이션에 대한 성능을 최적화할 수 있습니다. 기본 모델의 전체 매개 변수 미세 조정 또는 지속적인 학습을 수행하면 모델을 처음부터 학습하는 것보다 훨씬 적은 데이터, 시간 및 컴퓨팅 리소스를 사용하여 고유한 모델을 학습할 수 있습니다. 파운데이션 모델 미세 조정을 참조하세요.
모자이크 AI 벡터 검색
Databricks Data Intelligence 플랫폼에 기본 제공되고 거버넌스 및 생산성 도구와 통합된 벡터 검색 인덱스입니다. 모자이크 AI 벡터 검색을 참조하세요.
N
공책
데이터 과학자와 엔지니어가 동일한 문서에서 여러 언어(예: Python, Scala, SQL)로 코드를 작성하고 실행하는 데 사용하는 대화형 웹 인터페이스입니다. Databricks Notebook을 참조하세요.
O
OAuth
OAuth는 액세스 위임을 위한 개방형 표준으로, 일반적으로 인터넷 사용자가 웹 사이트 또는 애플리케이션에 다른 웹 사이트의 정보에 대한 액세스 권한을 부여하지만 암호를 제공하지 않는 방법으로 사용됩니다. Azure Databricks 리소스에 대한 액세스 권한 부여를 참조하세요.
P
파트너 연결
대부분의 엔터프라이즈 데이터 시스템에 연결하기 위해 독립 소프트웨어 공급업체가 유지 관리하는 통합을 제공하는 Databricks 프로그램입니다. Databricks 파트너 연결이란?을 참조하세요.
PAT(개인용 액세스 토큰)
암호 대신 컴퓨터 시스템에 액세스할 때 사용자를 인증하는 데 사용되는 문자 문자열입니다. Azure Databricks 리소스에 대한 액세스 권한 부여를 참조하세요.
광자
SQL 워크로드 및 DataFrame API 호출을 더 빠르게 실행하는 고성능 Databricks 네이티브 벡터화된 쿼리 엔진은 워크로드당 총 비용을 절감합니다. Photon은 Apache Spark API와 호환되므로 기존 코드와 함께 사용할 수 있습니다. Photon이란?을 참조하세요.
파이프라인
시스템에 의해 결정되는 종속성 순서로 지연 업데이트되는 테이블, 뷰, 구체화된 뷰, 흐름 및 싱크의 DAG입니다.
R 프로그래밍 언어
검색 증강 생성(RAG)
LLM(대규모 언어 모델)이 외부 정보 원본에서 검색된 지원 데이터를 사용하여 사용자의 프롬프트를 보강하여 보강된 응답을 생성할 수 있도록 하는 기술입니다. 검색된 정보를 통합함으로써, RAG는 LLM이 추가적인 컨텍스트 없이 프롬프트를 사용할 때보다, 보다 정확하고 높은 품질의 응답을 생성하도록 돕습니다. Azure Databricks에서 RAG(검색 증강 세대)를 참조하세요.
에스
스키마(유니티 카탈로그)
Unity 카탈로그에서 테이블, 뷰, 볼륨, 모델 및 함수를 포함할 수 있는 자식 항목입니다. 스키마는 Unity 카탈로그의 세 수준 네임스페이스(catalog.schema.table-etc)의 두 번째 수준입니다. Unity 카탈로그란?을 참조하세요.
서버리스 컴퓨팅
Azure Databricks에서 관리하는 컴퓨팅으로, 관리 오버헤드를 줄이고 즉각적인 컴퓨팅을 제공하여 사용자 생산성을 향상시킵니다. 서버리스 컴퓨팅에 연결하기를 참조하십시오.
서비스 프린시펄
자동화된 도구, 실행 중인 작업 및 애플리케이션에서 사용하기 위해 만든 ID입니다. Azure Databricks 사용자와 동일한 방식으로 권한을 사용하여 리소스에 대한 서비스 주체의 액세스를 제한할 수 있습니다. Azure Databricks 사용자와 달리 서비스 주체는 API 전용 ID입니다. Azure Databricks UI 또는 Databricks CLI에 직접 액세스할 수 없습니다. 서비스 주체를 참조하세요.
싱크(파이프라인)
싱크는 외부 시스템에 데이터를 쓰는 흐름의 목적지입니다(예: Kafka, Kinesis, Delta).
SQL 웨어하우스
Azure Databricks에서 데이터를 쿼리하고 탐색할 수 있는 컴퓨팅 리소스입니다. SQL 웨어하우스에 대한 연결을 참조하세요.
스트림 처리
지속적으로 증가하는 무제한 데이터 세트에 대해 쿼리를 정의한 다음 작은 증분 일괄 처리로 데이터를 처리할 수 있는 데이터 처리 방법입니다. Azure Databricks 스트림 처리는 구조적 스트리밍을 사용합니다. 구조적 스트리밍 개념을 참조하세요.
스트리밍
스트리밍은 인터넷을 통해 컴퓨터 및 모바일 디바이스에 전달되고 실시간으로 재생되는 모든 미디어 콘텐츠(라이브 또는 기록된 데이터 스트림)를 가리킵니다. 구조적 스트리밍 개념을 참조하세요.
스트리밍 분석
다른 원본에서 지속적으로 생성되는 데이터를 분석하는 프로세스입니다. Azure Databricks는 구조적 스트리밍을 통한 스트리밍 분석을 지원하므로 실시간 인사이트를 위해 라이브 데이터를 처리하고 분석할 수 있습니다.
구조적 스트리밍
Spark SQL 엔진을 기반으로 구축된 확장 가능하고 내결함성 있는 스트림 처리 엔진으로, 복잡한 계산을 스트리밍 쿼리로 사용할 수 있습니다. 구조적 스트리밍 개념을 참조하세요.
스트리밍 테이블
관리되는 테이블로, 여기에 스트림이 쓰기 작업을 수행합니다. 스트리밍 테이블 참조
동기화된 테이블
동기화된 테이블은 Unity 카탈로그 테이블에서 데이터베이스 인스턴스로 데이터를 자동으로 동기화하는 Unity 카탈로그 읽기 전용 Postgres 테이블입니다. Unity 카탈로그 테이블에서 데이터베이스 인스턴스로 데이터 동기화를 참조하세요.
T
테이블
테이블은 스키마에 상주하며 데이터 행을 포함합니다. Databricks에서 만든 모든 테이블은 기본적으로 Delta Lake를 사용합니다. Delta Lake에서 지원되는 테이블을 델타 테이블이라고도 합니다. Azure Databricks 테이블 소개를 참조하세요.
트리거된 파이프라인
각 테이블에 대한 업데이트 시작 시 사용 가능한 모든 데이터를 수집하여 종속성 순서로 실행한 다음 종료하는 파이프라인입니다. 트리거된 파이프라인 모드와 연속 파이프라인 모드를 참조하세요.
U
Unity 카탈로그
Azure Databricks 작업 영역에서 중앙 집중식 액세스 제어, 감사, 계보 및 데이터 검색 기능을 제공하는 Azure Databricks 기능입니다. Unity 카탈로그란?을 참조하세요.
V
vector 데이터베이스
임베딩을 저장하고 검색하도록 최적화된 데이터베이스입니다. 포함은 데이터의 의미 체계 콘텐츠(일반적으로 텍스트 또는 이미지 데이터)의 수학적 표현입니다. Databricks는 델타 테이블에서 벡터 데이터베이스 기능을 사용할 수 있는 벡터 검색 인덱스를 제공합니다. 모자이크 AI 벡터 검색을 참조하세요.
보기
SQL 쿼리로 정의된 가상 테이블입니다. 데이터 자체는 저장하지 않지만 하나 이상의 테이블에서 특정 형식 또는 추상화로 데이터를 표시하는 방법을 제공합니다. 보기란 무엇인가?를 참조하세요.
볼륨들(유니티 카탈로그)
테이블 형식이 아닌 데이터 세트에 대한 거버넌스를 사용하도록 설정하는 Unity 카탈로그 개체입니다. 볼륨은 클라우드 개체 스토리지 위치에 있는 스토리지의 논리적 볼륨을 나타냅니다. 볼륨은 파일 액세스, 저장, 관리 및 구성 기능을 제공합니다. Unity 카탈로그 볼륨이란?을 참조하세요.
W
Lakeflow 직업
Azure Databricks에서 데이터 처리 작업을 예약하고 오케스트레이션할 수 있는 도구 집합입니다. Lakeflow 작업을 참조하세요.
업무량
작업 또는 작업 그룹을 수행하는 데 필요한 처리 기능의 양입니다. Azure Databricks는 데이터 엔지니어링(작업) 및 데이터 분석(다목적)의 두 가지 유형의 워크로드를 식별합니다. Azure Databricks 구성 요소를 참조하세요.
작업 공간
Databricks 사용자가 Notebook, 실험, 쿼리 및 대시보드와 같은 개체를 개발, 찾아보기 및 공유할 수 있는 조직 환경입니다. 작업 영역 UI를 참조하세요.