Udostępnij przez


Przykłady wnioskowania API w architekturze bezserwerowej dla modeli Foundry

Uwaga / Notatka

Ten dokument odnosi się do portalu Microsoft Foundry (klasycznego).

🔍 Zapoznaj się z dokumentacją rozwiązania Microsoft Foundry (nową), aby dowiedzieć się więcej o nowym portalu.

Katalog modeli Foundry oferuje duży wybór modeli Microsoft Foundry od wielu dostawców. Dostępne są różne opcje wdrażania modeli z katalogu modeli. W tym artykule wymieniono przykłady wnioskowania dla wdrożeń bezserwerowego interfejsu API.

Important

Modele, które są w wersji zapoznawczej, są oznaczone jako wersja zapoznawcza na kartach modeli w wykazie modeli.

Aby przeprowadzić wnioskowanie z modelami, niektóre modele, takie jak TimeGEN-1 firmy Nixtla i Cohere rerank wymagają używania niestandardowych interfejsów API od dostawców modelu. Inne obsługują wnioskowanie za pomocą interfejsu API Model Inference. Więcej szczegółów na temat poszczególnych modeli można znaleźć, przeglądając karty modeli w katalogu modeli dla portalu Foundry.

Cohere

Rodzina modeli Cohere obejmuje różne modele zoptymalizowane pod kątem różnych przypadków użycia, w tym ponowne sortowanie, uzupełnianie czatów i modele osadzania.

Przykłady wnioskowania: komenda Cohere i embedding

Poniższa tabela zawiera linki do przykładów używania modeli Cohere.

Description Język Sample
Żądania internetowe Bash Command-RCommand-R+
cohere-embed.ipynb
Pakiet wnioskowania sztucznej inteligencji platformy Azure dla języka C# C# Link
Pakiet wnioskowania usługi Azure AI dla języka JavaScript JavaScript Link
Pakiet wnioskowania usługi Azure AI dla języka Python Python Link
OpenAI SDK (eksperymentalny) Python Link
LangChain Python Link
Cohere SDK Python Command
Embed
LiteLLM SDK Python Link

Generowanie wspomagane odzyskiwaniem (RAG) i wykorzystanie narzędzi: przykłady komend Cohere i integrowania

Description Packages Sample
Stwórz lokalny indeks wektorów do wyszukiwania podobieństw, używając Facebook AI (FAISS) z osadzeniami Cohere - Langchain langchain, langchain_cohere cohere_faiss_langchain_embed.ipynb
Użyj polecenia Cohere R/R+, aby odpowiedzieć na pytania z danych w lokalnym indeksie wektorów FAISS — Langchain langchain, langchain_cohere command_faiss_langchain.ipynb
Użyj polecenia Cohere R/R+, aby odpowiedzieć na pytania z danych w indeksie wektora wyszukiwania sztucznej inteligencji — Langchain langchain, langchain_cohere cohere-aisearch-langchain-rag.ipynb
Użyj Cohere Command R/R+, aby odpowiedzieć na pytania dotyczące danych w indeksie wyszukiwania wektorowego AI — Cohere SDK cohere, azure_search_documents cohere-aisearch-rag.ipynb
Wywoływanie narzędzia/funkcji Command R+ przy użyciu LangChain cohere langchain, langchain_cohere command_tools-langchain.ipynb

Cohere ponowne uporządkowanie

Aby przeprowadzać wnioskowanie za pomocą modeli Cohere Rerank, musisz używać niestandardowych interfejsów API ponownego uporządkowania Cohere. Aby uzyskać więcej informacji na temat modelu Cohere rerank i jego możliwości, zobacz Cohere reranke.

Cennik modeli do ponownego rangowania Cohere

Zapytania, które nie należy mylić z zapytaniem użytkownika, to miernik cen, który odnosi się do kosztów skojarzonych z tokenami używanymi jako dane wejściowe dla wnioskowania modelu Cohere Rerank. Cohere zlicza pojedynczą jednostkę wyszukiwania jako zapytanie z maksymalnie 100 dokumentami do sklasyfikowania. Dokumenty dłuższe niż 500 tokenów (dla Cohere-rerank-v3.5) lub dłuższe niż 4096 tokenów (dla Cohere-rerank-v3-English i Cohere-rerank-v3-wielojęzyczne) w przypadku uwzględnienia długości zapytania wyszukiwania są podzielone na wiele fragmentów, gdzie każdy fragment jest liczone jako pojedynczy dokument.

Zobacz kolekcję modeli Cohere w portalu Foundry.

Core42

Poniższa tabela zawiera linki do przykładów używania modeli Jais.

Description Język Sample
Pakiet wnioskowania sztucznej inteligencji platformy Azure dla języka C# C# Link
Pakiet wnioskowania usługi Azure AI dla języka JavaScript JavaScript Link
Pakiet wnioskowania usługi Azure AI dla języka Python Python Link

DeepSeek

Rodzina modeli DeepSeek obejmuje DeepSeek-R1, który wyróżnia się w zadaniach wymagających rozumowania, korzystając ze stopniowego procesu treningowego, takich jak język, rozumowanie naukowe i zadania związane z kodowaniem, DeepSeek-V3-0324, model językowy z mieszanką ekspertów (MoE) i inne.

Poniższa tabela zawiera linki do przykładów używania modeli DeepSeek.

Description Język Sample
Pakiet wnioskowania usługi Azure AI dla języka Python Python Link
Pakiet wnioskowania usługi Azure AI dla języka JavaScript JavaScript Link
Pakiet wnioskowania sztucznej inteligencji platformy Azure dla języka C# C# Link
Pakiet wnioskowania sztucznej inteligencji platformy Azure dla języka Java Java Link

Meta

Modele i narzędzia Meta Llama to kolekcja wstępnie wytrenowanych i dostrojonych modeli generowania tekstu i rozumowania obrazów sztucznej inteligencji. Zakres modeli metadanych jest skalowany w celu uwzględnienia:

  • Modele językowe o małej skali (SLM), takie jak modele 1B i 3B Base oraz Instruct do wnioskowania na urządzeniach i urządzeniach brzegowych.
  • Modele językowe o średniej wielkości (LLM), takie jak modele 7B, 8B i 70B w wersjach podstawowej i instruktorskiej
  • Wysoce wydajne modele, takie jak Meta Llama 3.1-405B Instruct, do generowania syntetycznych danych i przypadków użycia destylacji.
  • Wysokowydajne natywne modele multimodalne, Llama 4 Scout i Llama 4 Maverick, wykorzystują architekturę złożoną z mieszanki ekspertów, aby zapewnić najlepszą na rynku wydajność w zrozumieniu tekstu i obrazów.

Poniższa tabela zawiera linki do przykładów używania modeli Meta Llama.

Description Język Sample
Żądanie CURL Bash Link
Pakiet wnioskowania sztucznej inteligencji platformy Azure dla języka C# C# Link
Pakiet wnioskowania usługi Azure AI dla języka JavaScript JavaScript Link
Pakiet wnioskowania usługi Azure AI dla języka Python Python Link
Żądania internetowe języka Python Python Link
OpenAI SDK (eksperymentalny) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Modele firmy Microsoft obejmują różne grupy modeli, takie jak modele MAI, modele Phi, modele sztucznej inteligencji dla opieki zdrowotnej i inne. Aby wyświetlić wszystkie dostępne modele firmy Microsoft, wyświetl kolekcję modeli firmy Microsoft w portalu Foundry.

Poniższa tabela zawiera linki do przykładów używania modeli firmy Microsoft.

Description Język Sample
Pakiet wnioskowania sztucznej inteligencji platformy Azure dla języka C# C# Link
Pakiet wnioskowania usługi Azure AI dla języka JavaScript JavaScript Link
Pakiet wnioskowania usługi Azure AI dla języka Python Python Link
LangChain Python Link
Llama-Index Python Link

Zobacz kolekcję modeli firmy Microsoft w portalu Foundry.

Mistral Sztuczna Inteligencja

Mistral AI oferuje dwie kategorie modeli, a mianowicie:

  • Modele Premium: są to modele Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3 (25.05) i Ministral 3B, dostępne jako interfejsy API bez serwera z rozliczeniami opartymi na użyciu tokenów.
  • Otwarte modele: należą do nich Mistral-small-2503, Codestral i Mistral Nemo (które są dostępne jako bezserwerowe interfejsy API z rozliczaniem opartym na tokenach przy płatnościach zgodnie ze zużyciem) oraz Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 i Mistral-7B-v01 (które można pobrać i uruchomić na własnych zarządzanych punktach końcowych).

Poniższa tabela zawiera linki do przykładów używania modeli Mistral.

Description Język Sample
Żądanie CURL Bash Link
Pakiet wnioskowania sztucznej inteligencji platformy Azure dla języka C# C# Link
Pakiet wnioskowania usługi Azure AI dla języka JavaScript JavaScript Link
Pakiet wnioskowania usługi Azure AI dla języka Python Python Link
Żądania internetowe języka Python Python Link
OpenAI SDK (eksperymentalny) Python Mistral — przykład zestawu OpenAI SDK
LangChain Python Mistral: Przykład LangChain
Mistral Sztuczna Inteligencja Python Mistral — przykład „Mistral AI”
LiteLLM Python Mistral — przykład LiteLLM

Nixtla

TimeGEN-1 firmy Nixtla to wstępnie wytrenowany model prognozowania i wykrywania anomalii dla danych szeregów czasowych. TimeGEN-1 może generować dokładne prognozy dla nowych szeregów czasowych bez trenowania, używając tylko wartości historycznych i kowariantów egzogennych jako danych wejściowych.

Aby przeprowadzić wnioskowanie, funkcja TimeGEN-1 wymaga użycia niestandardowego interfejsu API wnioskowania Nixtla. Aby uzyskać więcej informacji na temat modelu TimeGEN-1 i jego możliwości, zobacz Nixtla.

Szacowanie wymaganej liczby tokenów

Przed utworzeniem wdrożenia TimeGEN-1 warto oszacować liczbę tokenów, które planujesz zużyć i za które zostaniesz obciążony kosztami. Jeden token odpowiada jednemu punktowi danych w wejściowym zestawie danych lub wyjściowym zestawie danych.

Załóżmy, że masz następujący wejściowy zestaw danych szeregów czasowych:

Unique_id Timestamp Zmienna docelowa Zmienna egzogeniczna 1 Zmienna egzogeniczna 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

Aby określić liczbę tokenów, należy pomnożyć liczbę wierszy (w tym przykładzie dwa) i liczbę kolumn używanych do prognozowania — nie licząc kolumn unique_id i sygnatur czasowych (w tym przykładzie trzy), aby uzyskać łącznie sześć tokenów.

Biorąc pod uwagę następujący wyjściowy zestaw danych:

Unique_id Timestamp Prognozowana zmienna docelowa
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

Można również określić liczbę tokenów, zliczając liczbę punktów danych zwracanych po prognozowaniu danych. W tym przykładzie liczba tokenów to dwa.

Szacowanie cen na podstawie tokenów

Istnieją cztery mierniki cen, które określają cenę, którą płacisz. Te mierniki są następujące:

Miernik cen Description
paygo-inference-input-tokens Koszty skojarzone z tokenami używanymi jako dane wejściowe do wnioskowania, gdy finetune_steps = 0
paygo-inference-output-tokens Koszty skojarzone z tokenami używanymi jako dane wyjściowe do wnioskowania, gdy finetune_steps = 0
paygo-finetuned-model-inference-input-tokens Koszty skojarzone z tokenami używanymi jako dane wejściowe do wnioskowania, gdy finetune_steps> 0
paygo-finetuned-model-inference-output-tokens Koszty skojarzone z tokenami używanymi jako dane wyjściowe do wnioskowania, gdy finetune_steps> 0

Zobacz kolekcję modeli Nixtla w portalu Foundry.

Stabilność sztucznej inteligencji

Modele stabilnej sztucznej inteligencji wdrożone za pośrednictwem bezserwerowego wdrożenia interfejsu API implementują interfejs API wnioskowania modelu na trasie /image/generations. Aby zobaczyć, jak używać modeli Stability AI, zobacz poniższe przykłady.

Nawigator Gretel

Gretel Navigator wykorzystuje złożoną architekturę sztucznej inteligencji specjalnie zaprojektowaną dla danych syntetycznych, łącząc najlepsze modele małych języków typu open source (SLM) dostosowane w ponad 10 domenach branżowych. Ten specjalnie utworzony system tworzy zróżnicowane zestawy danych specyficzne dla domeny w skali setek do milionów przykładów. System zachowuje również złożone relacje statystyczne i oferuje większą szybkość i dokładność w porównaniu z ręcznym tworzeniem danych.

Description Język Sample
Pakiet wnioskowania usługi Azure AI dla języka JavaScript JavaScript Link
Pakiet wnioskowania usługi Azure AI dla języka Python Python Link