Användardefinierade funktioner (UDF: er) i Unity Catalog

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Användardefinierade funktioner (UDF:er) i Unity Catalog utökar SQL- och Python-funktionerna i Azure Databricks. De gör att anpassade funktioner kan definieras, användas och delas på ett säkert sätt och styras i olika datormiljöer.

Python-UDF:er som är registrerade som funktioner i Unity Catalog skiljer sig åt i omfattning och stöd från PySpark-UDF:er som är begränsade till en notebook-fil eller SparkSession. Se Användardefinierade skalärfunktioner – Python.

Se CREATE FUNCTION (SQL och Python) för fullständig SQL-språkreferens.

Krav

Om du vill använda UDF:er i Unity Catalog måste du uppfylla följande krav:

Om du vill använda Python-kod i UDF:er som är registrerade i Unity Catalog måste du använda ett serverlöst eller pro SQL-lager eller ett kluster som kör Databricks Runtime 13.3 LTS eller senare.
Om en vy innehåller en Unity Catalog Python UDF misslyckas den på klassiska SQL-lager.
ARM-instansstöd för Scala UDF:er i Unity Catalog-aktiverade kluster är tillgängligt i Databricks Runtime 15.2 och senare.

Skapa UDF:er i Unity-katalogen

För att skapa en UDF i Unity Catalog behöver användarna USAGE- och CREATE-behörighet för schemat samt USAGE-behörighet för katalogen. Mer information finns i Unity Catalog.

För att kunna köra en UDF behöver användarna behörigheten EXECUTE på UDF. Användarna behöver också ANVÄNDNINGsbehörighet för schemat och katalogen.

Om du vill skapa och registrera en UDF i ett Unity Catalog-schema bör funktionsnamnet följa formatet catalog.schema.function_name. Du kan också välja rätt katalog och schema i SQL-redigeraren. I det här fallet bör funktionsnamnet inte föregås av catalog.schema.

Skapa en UDF med katalogen och schemat förvalt.

I följande exempel registreras en ny funktion i my_schema schemat i my_catalog katalogen:

CREATE OR REPLACE FUNCTION my_catalog.my_schema.calculate_bmi(weight DOUBLE, height DOUBLE)
RETURNS DOUBLE
LANGUAGE SQL
RETURN
SELECT weight / (height * height);

Python UDF:er för Unity Catalog använder utsagor som förskjuts med dubbla dollartecken ($$). Du måste ange en datatypsmappning. I följande exempel registreras en UDF som beräknar kroppsmasseindex.

CREATE OR REPLACE FUNCTION my_catalog.my_schema.calculate_bmi(weight_kg DOUBLE, height_m DOUBLE)
RETURNS DOUBLE
LANGUAGE PYTHON
AS $$
return weight_kg / (height_m ** 2)
$$;

Du kan nu använda den här Unity Catalog-funktionen i dina SQL-frågor eller PySpark-kod:

SELECT person_id, my_catalog.my_schema.calculate_bmi(weight_kg, height_m) AS bmi
FROM person_data;

Mer UDF-exempel finns i Exempel på radfilter och Kolumnmask .

Utöka UDF:er med anpassade beroenden

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Utöka funktionerna i Unity Catalog Python-UDF:er utöver Databricks Runtime-miljön genom att definiera anpassade beroenden för externa bibliotek.

Installera beroenden från följande källor:

PyPI-paket
Filer som lagras i Unity Catalog-volymer Användaren som anropar UDF måste ha READ VOLUME behörighet på källvolymen.
Filer som är tillgängliga på offentliga URL:er Säkerhetsreglerna för arbetsytans nätverk måste tillåta åtkomst till offentliga URL:er.

Anteckning

Information om hur du konfigurerar nätverkssäkerhetsregler för att tillåta åtkomst till offentliga URL:er från ett serverlöst SQL-lager finns i Verifiera med Databricks SQL.

Serverlösa SQL-datalager kräver att funktionen offentlig förhandsversion Aktivera nätverk för isolerade arbetsbelastningar i serverlösa SQL-datalager måste aktiveras på förhandsgranskningssidan i din arbetsyta för att få åtkomst till internet för anpassade beroenden.

Anpassade beroenden för Unity Catalog UDFs stöds på följande beräkningstyper:

Serverlösa notebook-filer och jobb
Allmän datoranvändning med Databricks Runtime version 16.2 och senare
Pro- eller serverlöst SQL-lager

Använd avsnittet i ENVIRONMENT UDF-definitionen för att ange beroenden:

CREATE OR REPLACE FUNCTION my_catalog.my_schema.mixed_process(data STRING)
RETURNS STRING
LANGUAGE PYTHON
ENVIRONMENT (
  dependencies = '["simplejson==3.19.3", "/Volumes/my_catalog/my_schema/my_volume/packages/custom_package-1.0.0.whl", "https://my-bucket.s3.amazonaws.com/packages/special_package-2.0.0.whl?Expires=2043167927&Signature=abcd"]',
  environment_version = 'None'
)
AS $$
import simplejson as json
import custom_package
return json.dumps(custom_package.process(data))
$$;

Avsnittet ENVIRONMENT innehåller följande fält:

Fält	Beskrivning	Typ	Exempel på användning
`dependencies`	En lista över kommaavgränsade beroenden som ska installeras. Varje post är en sträng som överensstämmer med pip-kravfilformatet.	`STRING`	`dependencies = '["simplejson==3.19.3", "/Volumes/catalog/schema/volume/packages/my_package-1.0.0.whl"]'` `dependencies = '["https://my-bucket.s3.amazonaws.com/packages/my_package-2.0.0.whl?Expires=2043167927&Signature=abcd"]'`
`environment_version`	Anger den serverlösa miljöversion där UDF ska köras. För närvarande stöds endast värdet `None` .	`STRING`	`environment_version = 'None'`

Använda Unity Catalogs UDF:er i PySpark

from pyspark.sql.functions import expr

result = df.withColumn("bmi", expr("my_catalog.my_schema.calculate_bmi(weight_kg, height_m)"))
display(result)

Uppgradera en UDF som är begränsad till sessionen

Anteckning

Syntax och semantik för Python-UDF:er i Unity Catalog skiljer sig från Python-UDF:er som är registrerade i SparkSession. Se användardefinierade skalärfunktioner – Python.

Givet följande sessionbaserade UDF i en Azure Databricks-notebook-fil:

from pyspark.sql.functions import udf
from pyspark.sql.types import StringType

@udf(StringType())
def greet(name):
    return f"Hello, {name}!"

# Using the session-based UDF
result = df.withColumn("greeting", greet("name"))
result.show()

Om du vill registrera detta som en Unity Catalog-funktion använder du en SQL-CREATE FUNCTION-instruktion, som i följande exempel:

CREATE OR REPLACE FUNCTION my_catalog.my_schema.greet(name STRING)
RETURNS STRING
LANGUAGE PYTHON
AS $$
return f"Hello, {name}!"
$$

Behörigheter för UDF:er hanteras baserat på de åtkomstkontroller som tillämpas på katalogen, schemat eller databasen där UDF är registrerad. Mer information finns i Hantera privilegier i Unity Catalog .

Använd Azure Databricks SQL eller Azure Databricks-arbetsytans användargränssnitt för att ge behörighet till en användare eller grupp (rekommenderas).

Behörigheter i arbetsytans UI

Leta upp katalogen och schemat där UDF lagras och välj UDF.
Leta efter ett behörighetsalternativ i UDF-inställningarna. Lägg till användare eller grupper och ange vilken typ av åtkomst de ska ha, till exempel EXECUTE eller MANAGE.

Behörigheter i arbetsytans användargränssnitt

Behörigheter med Azure Databricks SQL

I följande exempel får en användare behörigheten EXECUTE för en funktion:

GRANT EXECUTE ON FUNCTION my_catalog.my_schema.calculate_bmi TO `user@example.com`;

Om du vill ta bort behörigheter använder du kommandot REVOKE som i följande exempel:

REVOKE EXECUTE ON FUNCTION my_catalog.my_schema.calculate_bmi FROM `user@example.com`;

Miljöisolering

Anteckning

Delade isoleringsmiljöer kräver Databricks Runtime 18.0 och senare. I tidigare versioner körs alla Python-UDF:er i Unity Catalog i strikt isoleringsläge.

Unity Catalog Python UDF:er med samma ägare och session kan dela en isoleringsmiljö som standard. Detta förbättrar prestanda och minskar minnesanvändningen genom att minska antalet separata miljöer som behöver startas.

Strikt isolering

Lägg till STRICT ISOLATION parameter för att säkerställa att en UDF alltid körs i sin egen, helt isolerad miljö.

De flesta UDF:er behöver inte strikt isolering. UDF:er för standarddatabearbetning drar nytta av standardmiljön för delad isolering och körs snabbare med lägre minnesförbrukning.

Lägg till egenskapssatsen STRICT ISOLATION i UDF:er som:

Kör indata som kod med hjälp av eval(), exec()eller liknande funktioner.
Skriv filer till det lokala filsystemet.
Ändra globala variabler eller systemtillstånd.
Få åtkomst till eller ändra miljövariabler.

Följande kod visar ett exempel på en UDF som ska köras med .STRICT ISOLATION Den här UDF:n kör godtycklig Python-kod, så den kan ändra systemtillståndet, komma åt miljövariabler eller skriva till det lokala filsystemet. Med hjälp av STRICT ISOLATION satsen kan du förhindra störningar eller dataläckor mellan UDF:er.

CREATE OR REPLACE TEMPORARY FUNCTION run_python_snippet(python_code STRING)
RETURNS STRING
LANGUAGE PYTHON
STRICT ISOLATION
AS $$
import sys
from io import StringIO

# Capture standard output and error streams
captured_output = StringIO()
captured_errors = StringIO()
sys.stdout = captured_output
sys.stderr = captured_errors

try:
    # Execute the user-provided Python code in an empty namespace
    exec(python_code, {})
except SyntaxError:
    # Retry with escaped characters decoded (for cases like "\n")
    def decode_code(raw_code):
        return raw_code.encode('utf-8').decode('unicode_escape')
    python_code = decode_code(python_code)
    exec(python_code, {})

# Return everything printed to stdout and stderr
return captured_output.getvalue() + captured_errors.getvalue()
$$

Ange `DETERMINISTIC` om funktionen ger konsekventa resultat

Lägg till DETERMINISTIC i funktionsdefinitionen om den genererar samma utdata för samma indata. På så sätt kan frågeoptimeringar förbättra prestandan.

Som standard antas Python-UDF:er för Batch Unity Catalog vara icke-deterministiska om de inte uttryckligen deklareras. Exempel på icke-deterministiska funktioner är att generera slumpmässiga värden, komma åt aktuella tider eller datum eller göra externa API-anrop.

Se CREATE FUNCTION (SQL och Python)

UDF:er för AI-agentverktyg

Generativa AI-agenter kan använda UDF:er i Unity Catalog som verktyg för att utföra uppgifter och köra anpassad logik.

Se Skapa AI-agentverktyg med hjälp av Unity Catalog-funktioner.

UDF:er för åtkomst till externa API:er

Du kan använda UDF:er för att komma åt externa API:er från SQL. I följande exempel används Python-biblioteket requests för att göra en HTTP-begäran.

Anteckning

Python-UDF:er tillåter TCP/UDP-nätverkstrafik via portarna 80, 443 och 53 när du använder serverlös beräkning eller beräkning som konfigurerats med standardåtkomstläge.

CREATE FUNCTION my_catalog.my_schema.get_food_calories(food_name STRING)
RETURNS DOUBLE
LANGUAGE PYTHON
AS $$
import requests

api_url = f"https://example-food-api.com/nutrition?food={food_name}"
response = requests.get(api_url)

if response.status_code == 200:
   data = response.json()
   # Assume the API returns a JSON object with a 'calories' field
   calories = data.get('calories', 0)
   return calories
else:
   return None  # API request failed

$$;

Användardefinierade funktioner för säkerhet och regelefterlevnad

Använd Python-UDF:er för att implementera anpassad tokenisering, datamaskering, dataredigering eller krypteringsmekanismer.

I följande exempel maskeras identiteten för en e-postadress samtidigt som längden och domänen bibehålls:

CREATE OR REPLACE FUNCTION my_catalog.my_schema.mask_email(email STRING)
RETURNS STRING
LANGUAGE PYTHON
DETERMINISTIC
AS $$
parts = email.split('@', 1)
if len(parts) == 2:
  username, domain = parts
else:
  return None
masked_username = username[0] + '*' * (len(username) - 2) + username[-1]
return f"{masked_username}@{domain}"
$$

I följande exempel tillämpas denna UDF i en dynamisk vydefinition:

-- First, create the view
CREATE OR REPLACE VIEW my_catalog.my_schema.masked_customer_view AS
SELECT
  id,
  name,
  my_catalog.my_schema.mask_email(email) AS masked_email
FROM my_catalog.my_schema.customer_data;

-- Now you can query the view
SELECT * FROM my_catalog.my_schema.masked_customer_view;

+---+------------+------------------------+------------------------+
| id|        name|                   email|           masked_email |
+---+------------+------------------------+------------------------+
|  1|    John Doe|   john.doe@example.com |  j*******e@example.com |
|  2| Alice Smith|alice.smith@company.com |a**********h@company.com|
|  3|   Bob Jones|    bob.jones@email.org |   b********s@email.org |
+---+------------+------------------------+------------------------+

Metodtips

För att UDF:er ska vara tillgängliga för alla användare rekommenderar vi att du skapar en dedikerad katalog och ett schema med lämpliga åtkomstkontroller.

För teamspecifika UDF:er använder du ett dedikerat schema i teamkatalogen för lagring och hantering.

Databricks rekommenderar att du inkluderar följande information i UDF-dokumentsträngen:

Det aktuella versionsnumret
En ändringslogg för att spåra ändringar mellan versioner
UDF-syfte, parametrar och returvärde
Ett exempel på hur du använder UDF

Här är ett exempel på en UDF enligt bästa praxisrekommendationer:

CREATE OR REPLACE FUNCTION my_catalog.my_schema.calculate_bmi(weight_kg DOUBLE, height_m DOUBLE)
RETURNS DOUBLE
COMMENT "Calculates Body Mass Index (BMI) from weight and height."
LANGUAGE PYTHON
DETERMINISTIC
AS $$
 """
Parameters:
calculate_bmi (version 1.2):
- weight_kg (float): Weight of the individual in kilograms.
- height_m (float): Height of the individual in meters.

Returns:
- float: The calculated BMI.

Example Usage:

SELECT calculate_bmi(weight, height) AS bmi FROM person_data;

Change Log:
- 1.0: Initial version.
- 1.1: Improved error handling for zero or negative height values.
- 1.2: Optimized calculation for performance.

 Note: BMI is calculated as weight in kilograms divided by the square of height in meters.
 """
if height_m <= 0:
 return None  # Avoid division by zero and ensure height is positive
return weight_kg / (height_m ** 2)
$$;

Tidsstämpel för tidszonsbeteende för indata

När värden skickas till Python-UDF:er i Databricks Runtime 18.0 och senare TIMESTAMP finns värdena kvar i UTC, men tidszonsmetadata (tzinfo attributet) ingår inte i datetime objektet.

Den här ändringen justerar Unity Catalog Python UDF:er med piloptimerade Python-UDF:er i Apache Spark.

Till exempel följande fråga:

CREATE FUNCTION timezone_udf(date TIMESTAMP)
RETURNS STRING
LANGUAGE PYTHON
AS $$
return f"{type(date)} {date} {date.tzinfo}"
$$;

SELECT timezone_udf(TIMESTAMP '2024-10-23 10:30:00');

Tidigare producerades dessa utdata i Databricks Runtime-versioner före 18.0:

<class 'datetime.datetime'> 2024-10-23 10:30:00+00:00 Etc/UTC

I Databricks Runtime 18.0 och senare genererar den nu följande utdata:

<class 'datetime.datetime'> 2024-10-23 10:30:00+00:00 None

Om din UDF förlitar sig på tidszonsinformationen måste du återställa den explicit:

from datetime import timezone

date = date.replace(tzinfo=timezone.utc)

Begränsningar

Du kan definiera valfritt antal Python-funktioner i en Python UDF, men alla måste returnera ett skalärt värde.
Python-funktioner måste hantera NULL-värden oberoende av varandra, och alla typmappningar måste följa Azure Databricks SQL-språkmappningar.
Om ingen katalog eller schema har angetts registreras Python-UDF:er i det aktuella aktiva schemat.
Python-UDF:er körs i en säker, isolerad miljö och har inte åtkomst till filsystem eller interna tjänster.
Du kan inte anropa fler än fem UDF:er per fråga.

Feedback

Var den här sidan till hjälp?

Last updated on 2026-03-31

Användardefinierade funktioner (UDF: er) i Unity Catalog

Krav

Skapa UDF:er i Unity-katalogen

Utöka UDF:er med anpassade beroenden

Använda Unity Catalogs UDF:er i PySpark

Uppgradera en UDF som är begränsad till sessionen

Dela UDF:er i Unity-katalogen

Behörigheter i arbetsytans UI

Behörigheter med Azure Databricks SQL

Miljöisolering

Strikt isolering

Ange DETERMINISTIC om funktionen ger konsekventa resultat

UDF:er för AI-agentverktyg

UDF:er för åtkomst till externa API:er

Användardefinierade funktioner för säkerhet och regelefterlevnad

Metodtips

Tidsstämpel för tidszonsbeteende för indata

Begränsningar

Feedback

Ytterligare resurser

Ange `DETERMINISTIC` om funktionen ger konsekventa resultat