適用於巨量資料的 Azure OpenAI

發行項
2024/10/15

Azure OpenAI 服務可用於透過提示完成 API，來處理大量的自然語言工作。為了方便您將提示工作流程從數個範例調整為大型範例資料集，我們整合了 Azure OpenAI 服務與分散式機器學習程式庫 SynapseML。透過這項整合，您將可輕鬆使用 Apache Spark 分散式運算架構來處理 OpenAI 服務的數百萬個提示。本教學課程說明如何使用 Azure OpenAI 和 Azure Synapse Analytics，以分散式規模套用大型語言模型。

必要條件

本快速入門的主要必要條件包括運作中的 Azure OpenAI 資源，以及已安裝 SynapseML 的 Apache Spark 叢集。

取得 Microsoft Fabric 訂用帳戶。或註冊免費的 Microsoft Fabric 試用版。
登入 Microsoft Fabric。
使用首頁左側的體驗切換器，切換至 Synapse 資料科學體驗。

移至 Microsoft Fabric 中的資料科學體驗。
建立新的筆記本。
Azure OpenAI 資源：在建立資源之前要求存取 Azure OpenAI 服務

匯入此指南作為筆記本

下一個步驟是將此程式碼新增至您的 Spark 叢集。您可以在 Spark 平台中建立筆記本，然後將程式碼複製到此筆記本中，以執行示範。或下載筆記本，並將其匯入 Synapse Analytics 中

下載此示範作為筆記本 (選取 [原始]，然後儲存檔案)
將筆記本匯入 Synapse 工作區中，或者，如果使用 Fabric，請匯入 Fabric 工作區中
在您的叢集上安裝 SynapseML。請參閱 SynapseML 網站底部的 Synapse 安裝指示。如果您使用 Fabric，請參閱安裝指南。這就需要在您匯入的筆記本頂端貼上額外的資料格。
將您的筆記本連線至叢集，然後繼續編輯和執行資料格。

填入服務資訊

接著，編輯筆記本中的儲存格以指向您的服務。特別是設定 service_name、deployment_name、location 和 key 變數，使其符合您的 OpenAI 服務：

import os
from pyspark.sql import SparkSession
from synapse.ml.core.platform import running_on_synapse, find_secret

# Bootstrap Spark Session
spark = SparkSession.builder.getOrCreate()

if running_on_synapse():
    from notebookutils.visualization import display

# Fill in the following lines with your service information
# Learn more about selecting which embedding model to choose: https://openai.com/blog/new-and-improved-embedding-model
service_name = "synapseml-openai"
deployment_name = "gpt-35-turbo"
deployment_name_embeddings = "text-embedding-ada-002"

key = find_secret(
    "openai-api-key"
)  # please replace this line with your key as a string

assert key is not None and service_name is not None

建立提示的資料集

接下來，建立一個資料框架，內含一系列的資料列，每個資料列各有一個提示。

您也可以直接從 ADLS 或其他資料庫載入資料。如需有關載入和準備 Spark DataFrame 的詳細資訊，請參閱 Apache Spark 資料載入指南。

df = spark.createDataFrame(
    [
        ("Hello my name is",),
        ("The best code is code thats",),
        ("SynapseML is ",),
    ]
).toDF("prompt")

建立 OpenAICompletion Apache Spark 用戶端

若要將 OpenAI Completion 服務套用至您剛建立的 DataFrame，請建立作為分散式用戶端的 OpenAICompletion 物件。服務的參數可用單一值來設定，或透過在 OpenAICompletion 物件上具有適當 setter 的資料框架資料行來設定。在此，我們將 maxTokens 設定為 200。權杖大約是四個字元，而此限制適用於提示和結果的總和。我們也會使用資料框架中的提示資料行名稱來設定 promptCol 參數。

from synapse.ml.cognitive import OpenAICompletion

completion = (
    OpenAICompletion()
    .setSubscriptionKey(key)
    .setDeploymentName(deployment_name)
    .setCustomServiceName(service_name)
    .setMaxTokens(200)
    .setPromptCol("prompt")
    .setErrorCol("error")
    .setOutputCol("completions")
)

使用 OpenAICompletion 用戶端轉換 DataFrame

完成 DataFrame 和完成用戶端後，您可以轉換輸入資料集，並新增名為 completions 的資料行 (內含服務新增的所有資訊)。為求簡單，僅選取文字。

from pyspark.sql.functions import col

completed_df = completion.transform(df).cache()
display(
    completed_df.select(
        col("prompt"),
        col("error"),
        col("completions.choices.text").getItem(0).alias("text"),
    )
)

您的輸出看起來應該像這樣。完成文字與範例不同。

prompt	error	text
您好，我的名字是	null	Makaveli。我十八歲了，長大後想成為饒舌歌手。我喜歡寫作和製作音樂。我來自加州洛杉磯
最理想的程式碼是	null	可理解的程式碼。這是一個主觀陳述，沒有明確的答案。
SynapseML 是	null	一種機器學習演算法，能夠學習如何預測事件未來的結果。

更多使用方式範例

產生文字內嵌

除了完成文字之外，我們也可以內嵌文字以用於下游演算法或向量擷取結構。建立內嵌可讓您從大型集合搜尋並擷取文件，而且可以在提示工程不足以處理工作時使用。如需有關使用 OpenAIEmbedding 的詳細資訊，請參閱我們的內嵌指南。

from synapse.ml.cognitive import OpenAIEmbedding

embedding = (
    OpenAIEmbedding()
    .setSubscriptionKey(key)
    .setDeploymentName(deployment_name_embeddings)
    .setCustomServiceName(service_name)
    .setTextCol("prompt")
    .setErrorCol("error")
    .setOutputCol("embeddings")
)

display(embedding.transform(df))

聊天完成

ChatGPT 和 GPT-4 等模型能夠了解聊天，而不是單一提示。 OpenAIChatCompletion 轉換器會大規模公開此功能。

from synapse.ml.cognitive import OpenAIChatCompletion
from pyspark.sql import Row
from pyspark.sql.types import *


def make_message(role, content):
    return Row(role=role, content=content, name=role)


chat_df = spark.createDataFrame(
    [
        (
            [
                make_message(
                    "system", "You are an AI chatbot with red as your favorite color"
                ),
                make_message("user", "Whats your favorite color"),
            ],
        ),
        (
            [
                make_message("system", "You are very excited"),
                make_message("user", "How are you today"),
            ],
        ),
    ]
).toDF("messages")


chat_completion = (
    OpenAIChatCompletion()
    .setSubscriptionKey(key)
    .setDeploymentName(deployment_name)
    .setCustomServiceName(service_name)
    .setMessagesCol("messages")
    .setErrorCol("error")
    .setOutputCol("chat_completions")
)

display(
    chat_completion.transform(chat_df).select(
        "messages", "chat_completions.choices.message.content"
    )
)

透過要求批次來改善輸送量

該範例會對服務提出數個要求，每個提示各一個。若要在單一要求中完成多個提示，請使用批次模式。首先，在 OpenAICompletion 物件中，不要將 [提示] 資料行設定為 "Prompt"，而應為 BatchPrompt 資料行指定 "batchPrompt"。為此，請建立一個資料框架，內含每個資料列的提示清單。

截至目前為止，單一要求有 20 個提示的限制，且限制 2048 個「權杖」(或約 1500 個字)。

batch_df = spark.createDataFrame(
    [
        (["The time has come", "Pleased to", "Today stocks", "Here's to"],),
        (["The only thing", "Ask not what", "Every litter", "I am"],),
    ]
).toDF("batchPrompt")

接著，我們會建立 OpenAICompletion 物件。如果您的資料行屬於 Array[String] 類型，請不要設定提示資料行，而應設定 batchPrompt 資料行。

batch_completion = (
    OpenAICompletion()
    .setSubscriptionKey(key)
    .setDeploymentName(deployment_name)
    .setCustomServiceName(service_name)
    .setMaxTokens(200)
    .setBatchPromptCol("batchPrompt")
    .setErrorCol("error")
    .setOutputCol("completions")
)

在呼叫轉換時，會對每個資料列提出要求。由於單一資料列中有多個提示，因此每個要求在傳送時都會包含該資料列中的所有提示。在結果中，要求中的每個資料列都有一個資料列。

completed_batch_df = batch_completion.transform(batch_df).cache()
display(completed_batch_df)

使用自動的小型批次處理器

如果您的資料採用資料行格式，您可以使用 SynapseML 的 FixedMiniBatcherTransformer 將其轉置為資料列格式。

from pyspark.sql.types import StringType
from synapse.ml.stages import FixedMiniBatchTransformer
from synapse.ml.core.spark import FluentAPI

completed_autobatch_df = (
    df.coalesce(
        1
    )  # Force a single partition so that our little 4-row dataframe makes a batch of size 4, you can remove this step for large datasets
    .mlTransform(FixedMiniBatchTransformer(batchSize=4))
    .withColumnRenamed("prompt", "batchPrompt")
    .mlTransform(batch_completion)
)

display(completed_autobatch_df)

翻譯的提示工程

Azure OpenAI 服務可透過提示工程來處理許多不同的自然語言工作。以下顯示語言翻譯提示的範例：

translate_df = spark.createDataFrame(
    [
        ("Japanese: Ookina hako \nEnglish: Big box \nJapanese: Midori tako\nEnglish:",),
        (
            "French: Quel heure et il au Montreal? \nEnglish: What time is it in Montreal? \nFrench: Ou est le poulet? \nEnglish:",
        ),
    ]
).toDF("prompt")

display(completion.transform(translate_df))

問題解答的提示

在此，我們會提示 GPT-3 回答一般知識的問題：

qa_df = spark.createDataFrame(
    [
        (
            "Q: Where is the Grand Canyon?\nA: The Grand Canyon is in Arizona.\n\nQ: What is the weight of the Burj Khalifa in kilograms?\nA:",
        )
    ]
).toDF("prompt")

display(completion.transform(qa_df))

共用方式為

適用於巨量資料的 Azure OpenAI

必要條件

匯入此指南作為筆記本

填入服務資訊

建立提示的資料集

建立 OpenAICompletion Apache Spark 用戶端

使用 OpenAICompletion 用戶端轉換 DataFrame

更多使用方式範例

產生文字內嵌

聊天完成

透過要求批次來改善輸送量

使用自動的小型批次處理器

翻譯的提示工程

問題解答的提示

意見反應

其他資源

共用方式為

適用於巨量資料的 Azure OpenAI

必要條件

匯入此指南作為筆記本

填入服務資訊

建立提示的資料集

建立 OpenAICompletion Apache Spark 用戶端

使用 OpenAICompletion 用戶端轉換 DataFrame

更多使用方式範例

產生文字內嵌

聊天完成

透過要求批次來改善輸送量

使用自動的小型批次處理器

翻譯的提示工程

問題解答的提示

相關內容

意見反應

其他資源