搭配使用 Fabric 中的 Azure OpenAI 與 Python SDK 和 Synapse ML (預覽版)

發行項
11/04/2024

重要

這項功能處於預覽狀態。

本文說明如何搭配使用 Fabric 中的 Azure OpenAI 與 OpenAI Python SDK 和 SynapseML 的的範例。

必要條件

OpenAI Python SDK 未安裝在預設執行階段中，您需要先加以安裝。

%pip install openai==0.28.1

OpenAI Python SDK 未安裝在預設執行階段中，您需要先加以安裝。將環境變更為運行時間 1.3 版或更高版本。

%pip install -U openai

import synapse.ml.core
from synapse.ml.services.openai import *

聊天

ChatGPT 和 GPT-4 是針對交談介面最佳化的語言模型。此處介紹的範例會展示簡單的聊天完成作業，並不適合做為教學課程。

import openai

response = openai.ChatCompletion.create(
    deployment_id='gpt-35-turbo-0125', # deployment_id could be one of {gpt-35-turbo-0125 or gpt-4-32k}
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Knock knock."},
        {"role": "assistant", "content": "Who's there?"},
        {"role": "user", "content": "Orange."},
    ],
    temperature=0,
)

print(f"{response.choices[0].message.role}: {response.choices[0].message.content}")

輸出

    assistant: Orange who?

我們也可以串流回應

response = openai.ChatCompletion.create(
    deployment_id='gpt-35-turbo-0125', # deployment_id could be one of {gpt-35-turbo-0125 or gpt-4-32k}
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Knock knock."},
        {"role": "assistant", "content": "Who's there?"},
        {"role": "user", "content": "Orange."},
    ],
    temperature=0,
    stream=True
)

for chunk in response:
    delta = chunk.choices[0].delta

    if "role" in delta.keys():
        print(delta.role + ": ", end="", flush=True)
    if "content" in delta.keys():
        print(delta.content, end="", flush=True)

輸出

    assistant: Orange who?

ChatGPT 和 GPT-4 是針對交談介面最佳化的語言模型。此處介紹的範例會展示簡單的聊天完成作業，並不適合做為教學課程。

import openai

response = openai.chat.completions.create(
    model='gpt-4-32k', # model could be one of {gpt-35-turbo-16k, gpt-4 or gpt-4-32k}
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Knock knock."},
        {"role": "assistant", "content": "Who's there?"},
        {"role": "user", "content": "Orange."},
    ],
    temperature=0,
)

print(f"{response.choices[0].message.role}: {response.choices[0].message.content}")

輸出

    assistant: Orange who?

ChatGPT 和 GPT-4 模型是針對交談介面最佳化的語言模型。

deployment_name 可以是下列其中一項：

gpt-35-turbo-0125
gpt-4-32k

from synapse.ml.services.openai import OpenAIChatCompletion
from pyspark.sql import Row
from pyspark.sql.types import *


def make_message(role, content):
    return Row(role=role, content=content, name=role)


chat_df = spark.createDataFrame(
    [
        (
            [
                make_message(
                    "system", "You are an AI chatbot with red as your favorite color"
                ),
                make_message("user", "Whats your favorite color"),
            ],
        ),
        (
            [
                make_message("system", "You are very excited"),
                make_message("user", "How are you today"),
            ],
        ),
    ]
).toDF("messages")


chat_completion = (
    OpenAIChatCompletion()
    .setDeploymentName("gpt-35-turbo-0125") # deploymentName could be one of {gpt-35-turbo-0125 or gpt-4-32k}
    .setMessagesCol("messages")
    .setErrorCol("error")
    .setOutputCol("chat_completions")
)

display(
    chat_completion.transform(chat_df).select(
        "messages", "chat_completions.choices.message.content"
    )
)

Embeddings

內嵌是一種特殊的資料表示格式，可供機器學習模型和演算法輕鬆使用。它包含文字的資訊豐富語意意義，以浮點數向量表示。向量空間中兩個內嵌之間的距離與兩個原始輸入之間的語意相似性有關。舉例來說，兩段類似文字的向量表示法也應該會相似。

此處示範的範例示範如何取得內嵌，但並非作為教學課程。

deployment_id = "text-embedding-ada-002" # set deployment_name as text-embedding-ada-002
embeddings = openai.Embedding.create(deployment_id=deployment_id,
                                     input="The food was delicious and the waiter...")
                                
print(embeddings)

輸出

    {
      "object": "list",
      "data": [
        {
          "object": "embedding",
          "index": 0,
          "embedding": [
            0.002306425478309393,
            -0.009327292442321777,
            0.015797346830368042,
            ...
            0.014552861452102661,
            0.010463837534189224,
            -0.015327490866184235,
            -0.01937841810286045,
            -0.0028842221945524216
          ]
        }
      ],
      "model": "ada",
      "usage": {
        "prompt_tokens": 8,
        "total_tokens": 8
      }
    }

內嵌是一種特殊格式的資料表示法，可供機器學習模型和演算法輕易使用。內嵌是文字片段語意的資訊密集表示法。每個內嵌都是浮點數的向量，因此向量空間中兩個內嵌之間的距離會與原始格式兩個輸入之間的語意相似性相互關聯。舉例來說，兩段類似文字的向量表示法也應該會相似。

deployment_name 可以是 text-embedding-ada-002。

df = spark.createDataFrame(
    [
        ("Once upon a time",),
        ("Best programming language award goes to",),
        ("SynapseML is ",)
    ]
).toDF("text")

embedding = (
    OpenAIEmbedding()
    .setDeploymentName("text-embedding-ada-002") # set deployment_name as text-embedding-ada-002
    .setTextCol("text")
    .setOutputCol("out")
)
display(embedding.transform(df))

共用方式為

搭配使用 Fabric 中的 Azure OpenAI 與 Python SDK 和 Synapse ML (預覽版)

必要條件

聊天

輸出

輸出

輸出

Embeddings

輸出

意見反應

其他資源

共用方式為

搭配使用 Fabric 中的 Azure OpenAI 與 Python SDK 和 Synapse ML (預覽版)

必要條件

聊天

輸出

輸出

Embeddings

輸出

相關內容

意見反應

其他資源