메모
이 문서에서는 Databricks Runtime 14.0 이상용 Databricks Connect에 대해 설명합니다.
이 문서에서는 Python용 Databricks Connect를 사용하여 비동기 쿼리 및 중단을 처리하는 방법을 설명합니다. Databricks Connect를 사용하면 인기 있는 IDE, Notebook 서버 및 사용자 지정 애플리케이션을 Azure Databricks 클러스터에 연결할 수 있습니다. Databricks Connect란 무엇인가요?를 참조하세요.
Databricks Connect 사용을 시작하기 전에 Databricks Connect 클라이언트를설정해야 합니다.
이 문서의 Scala 버전을 보려면 Databricks Connect for Scala를 사용한 비동기 쿼리 및 중단을 확인하세요.
쿼리 실행 중단
Databricks Runtime 14.0 이상용 Databricks Connect의 경우 장기 실행 쿼리를 실행할 때 네트워크 및 기타 인터럽트에서 쿼리 실행이 더 탄력적입니다. 클라이언트 프로그램이 중단을 받거나 랩톱 뚜껑이 닫혀 있는 경우와 같이 운영 체제에서 프로세스가 일시 중지(최대 5분)되면 클라이언트는 실행 중인 쿼리에 다시 연결됩니다. 이렇게 하면 쿼리가 더 긴 시간(이전에는 1시간만)동안 실행되도록 할 수 있습니다.
이제 Databricks Connect에는 비용 절감과 같이 원하는 경우 실행 중인 쿼리를 중단하는 기능도 제공됩니다.
다음 Python 프로그램은 interruptTag() API를 사용하여 장기 실행 쿼리를 중단합니다.
from databricks.connect import DatabricksSession
from time import sleep
import threading
session = DatabricksSession.builder.getOrCreate()
def thread_fn():
sleep(5)
session.interruptTag("interrupt-me")
# All subsequent DataFrame queries that use session will have this tag.
session.addTag("interrupt-me")
t = threading.Thread(target=thread_fn).start()
df = <a long running DataFrame query>
df.show()
t.join()