Jak pracować z modelami DALL-E
Modele DALL-E platformy OpenAI generują obrazy na podstawie monitów tekstowych dostarczonych przez użytkownika. W tym przewodniku pokazano, jak używać modeli DALL-E i konfigurować ich opcje za pomocą wywołań interfejsu API REST.
Wymagania wstępne
- Subskrypcja Azure. Możesz utworzyć go bezpłatnie.
- Zasób usługi Azure OpenAI utworzony w regionie Centralnym Szwecji . Aby uzyskać więcej informacji, zobacz Tworzenie i wdrażanie zasobu usługi Azure OpenAI Service.
- Wdróż model dall-e-3 przy użyciu zasobu usługi Azure OpenAI.
Wywoływanie interfejsów API generowania obrazów
Poniższe polecenie przedstawia najbardziej podstawowy sposób używania języka DALL-E z kodem. Jeśli używasz tych modeli po raz pierwszy programowo, zalecamy rozpoczęcie pracy z przewodnikiem Szybki start daLL-E.
Wyślij żądanie POST do:
https://<your_resource_name>.openai.azure.com/openai/deployments/<your_deployment_name>/images/generations?api-version=<api_version>
Zastąp następujące symbole zastępcze:
<your_resource_name>
to nazwa zasobu usługi Azure OpenAI.<your_deployment_name>
to nazwa wdrożenia modelu DALL-E 3.<api_version>
to wersja interfejsu API, którego chcesz użyć. Na przykład2024-02-01
.
Wymagane nagłówki:
Content-Type
:application/json
api-key
:<your_API_key>
Treść:
Poniżej znajduje się przykładowa treść żądania. Określ szereg opcji zdefiniowanych w kolejnych sekcjach.
{
"prompt": "A multi-colored umbrella on the beach, disposable camera",
"size": "1024x1024",
"n": 1,
"quality": "hd",
"style": "vivid"
}
Wyjście
Dane wyjściowe z pomyślnego wywołania interfejsu API generowania obrazów wyglądają jak w poniższym przykładzie. Pole url
zawiera adres URL, pod którym można pobrać wygenerowany obraz. Adres URL pozostaje aktywny przez 24 godziny.
{
"created": 1698116662,
"data": [
{
"url": "<URL_to_generated_image>",
"revised_prompt": "<prompt_that_was_used>"
}
]
}
Odrzucenie wywołań interfejsu API
Monity i obrazy są filtrowane na podstawie naszych zasad zawartości, zwracając błąd po oflagowaniu monitu lub obrazu.
Jeśli monit jest oflagowany, error.code
wartość w komunikacie jest ustawiona na contentFilter
wartość . Oto przykład:
{
"created": 1698435368,
"error":
{
"code": "contentFilter",
"message": "Your task failed as a result of our safety system."
}
}
Możliwe jest również, że wygenerowany obraz jest filtrowany. W takim przypadku komunikat o błędzie jest ustawiony na wygenerowany obraz został przefiltrowany w wyniku naszego systemu bezpieczeństwa. Oto przykład:
{
"created": 1698435368,
"error":
{
"code": "contentFilter",
"message": "Generated image was filtered as a result of our safety system."
}
}
Pisanie monitów o obraz
Monity o obraz powinny opisywać zawartość, którą chcesz zobaczyć na obrazie, oraz styl wizualny obrazu.
Podczas pisania monitów należy wziąć pod uwagę, że interfejsy API generowania obrazów są wyposażone w filtr con tryb namiotu ration. Jeśli usługa rozpoznaje monit jako szkodliwą zawartość, nie generuje obrazu. Aby uzyskać więcej informacji, zobacz Filtrowanie zawartości.
Napiwek
Aby zapoznać się ze szczegółowym omówieniem sposobu dostosowywania monitów tekstowych w celu wygenerowania różnych rodzajów obrazów, zobacz Przewodnik inżynieryjny monitu o obraz.
Określanie opcji interfejsu API
Następujące parametry treści interfejsu API są dostępne dla generowania obrazów DALL-E.
Rozmiar
Określ rozmiar wygenerowanych obrazów. Musi być jednym z 1024x1024
modeli , 1792x1024
lub 1024x1792
w przypadku modeli DALL-E 3. Obrazy kwadratowe są szybsze do wygenerowania.
Styl
Język DALL-E 3 wprowadza dwie opcje stylu: natural
i vivid
. Styl naturalny jest bardziej podobny do domyślnego stylu DALL-E 2, podczas gdy żywy styl generuje więcej hiper-realnych i kinowych obrazów.
Naturalny styl jest przydatny w przypadkach, gdy DALL-E 3 przesadza lub myli temat, który ma być bardziej prosty, skąpy lub realistyczny.
Domyślna wartość to vivid
.
Kontrola
Istnieją dwie opcje jakości obrazu: hd
i standard
. Opcja hd tworzy obrazy z bardziej szczegółowymi szczegółami i większą spójnością na obrazie. Obrazy standardowe można generować szybciej.
Domyślna wartość to standard
.
Liczba
W przypadku języka DALL-E 3 nie można wygenerować więcej niż jednego obrazu w jednym wywołaniu interfejsu API: n
parametr musi być ustawiony na 1. Jeśli musisz wygenerować wiele obrazów jednocześnie, wysyłaj żądania równoległe.
Format odpowiedzi
Format, w którym są zwracane wygenerowane obrazy. Musi być jednym z url
(adres URL wskazujący obraz) lub b64_json
(podstawowy kod 64-bajtowy w formacie JSON). Wartość domyślna to url
.