다음에만 적용됩니다:Foundry(클래식) 포털. 이 문서는 새 Foundry 포털에서 사용할 수 없습니다.
새 포털에 대해 자세히 알아봅니다.
참고
이 문서의 링크는 현재 보고 있는 Foundry(클래식) 설명서 대신 새 Microsoft Foundry 설명서의 콘텐츠를 열 수 있습니다.
Foundry 모델 카탈로그는 광범위한 공급자에서 다양한 Microsoft Foundry 모델을 제공합니다. 모델 카탈로그에서 모델을 배포하기 위한 다양한 옵션이 있습니다. 이 문서에서는 서버리스 API 배포에 대한 유추 예제를 나열합니다.
중요
미리 보기에 있는 모델은 모델 카탈로그의 모델 카드에서 미리 보기 로 표시됩니다.
모델에서 추론 작업을 수행하려면 Nixtla의 TimeGEN-1 및 Cohere 재정렬과 같은 일부 모델은 모델 공급자의 커스텀 API를 사용해야 합니다. 다른 사용자는 모델 유추 API를 사용하여 추론을 지원합니다. Foundry 포털의 모델 카탈로그에서 모델 카드를 검토하여 개별 모델에 대한 자세한 내용을 확인할 수 있습니다.
Cohere
Cohere 모델 제품군은 다양한 사용 사례에 최적화된 재정렬, 채팅 완료 기능 및 임베딩 모델을 포함하고 있는 다양한 모델로 구성되어 있습니다.
유추 예제: Cohere 명령 및 임베드
다음 표에서는 Cohere 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
| 설명 | 언어 | 샘플 |
|---|---|---|
| 웹 요청 | Bash |
Command-RCommand-R+ cohere-embed.ipynb |
| Azure AI 추론 패키지 for C# | C# | Link |
| JavaScript용 AI 유추 패키지 Azure | 자바 스크립트 | Link |
| Python 대한 AZURE AI 유추 패키지 | Python | 링크 |
| OpenAI SDK(실험적) | Python | 링크 |
| LangChain | Python | 링크 |
| Cohere SDK | Python |
명령 포함 |
| LiteLLM SDK | Python | Link |
RAG(검색 증강 생성) 및 도구 사용 샘플: Cohere 명령 및 임베드
| 설명 | 패키지 | 샘플 |
|---|---|---|
| Cohere embeddings를 사용하여 로컬 Facebook FAISS(AI 유사성 검색) 벡터 인덱스 만들기 - Langchain |
langchain, langchain_cohere |
cohere_faiss_langchain_embed.ipynb |
| Cohere Command R/R+을 사용하여 Langchain 로컬 FAISS 벡터 인덱스의 데이터 질문에 답변하기 |
langchain, langchain_cohere |
command_faiss_langchain.ipynb |
| Cohere 명령 R/R+을 사용하여 Langchain의 AI 검색 벡터 인덱스 데이터에서 질문에 답변하기 |
langchain, langchain_cohere |
cohere-aisearch-langchain-rag.ipynb |
| Cohere 명령 R/R+을 사용하여 AI 검색 벡터 인덱스의 데이터 질문에 답변 - Cohere SDK |
cohere, azure_search_documents |
cohere-aisearch-rag.ipynb |
| LangChain을 사용하여 R+ 도구/함수 호출 명령 |
cohere, langchain, langchain_cohere |
command_tools-langchain.ipynb |
코헤어 재정렬
Cohere 재정렬 모델로 추론을 수행하려면 Cohere의 맞춤형 재정렬 API를 사용해야 합니다. Cohere 재정렬 모델 및 기능에 대한 자세한 내용은 Cohere 재정렬을 참조하세요.
Cohere 재정렬 모델에 대한 가격 책정
사용자의 쿼리와 혼동하지 않는 쿼리는 Cohere Rerank 모델의 유추를 위해 입력으로 사용되는 토큰과 관련된 비용을 참조하는 가격 측정기입니다. Cohere는 단일 검색 단위를 최대 100개의 문서가 순위가 매겨진 쿼리로 계산합니다. 검색 쿼리의 길이를 포함하는 경우 500개 이상의 토큰(Cohere-rerank-v3.5의 경우) 또는 4096개 이상의 토큰(Cohere-rerank-v3-English 및 Cohere-rerank-v3-multilingual의 경우)은 각 청크가 단일 문서로 계산되는 여러 청크로 분할됩니다.
Foundry 포털에서 Cohere 모델 컬렉션을 참조하세요.
Core42
다음 표에서는 Jais 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
| 설명 | 언어 | 샘플 |
|---|---|---|
| Azure AI 추론 패키지 for C# | C# | Link |
| JavaScript용 AI 유추 패키지 Azure | 자바 스크립트 | Link |
| Python 대한 AZURE AI 유추 패키지 | Python | 링크 |
DeepSeek
모델의 DeepSeek 제품군에는 언어, 과학적 추론 및 코딩 작업, DeepSeek-V3-0324, MoE(Mixture-of-Experts) 언어 모델 등과 같은 단계별 학습 프로세스를 사용하여 추론 작업을 수행하는 DeepSeek-R1이 포함됩니다.
다음 표에서는 DeepSeek 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
| 설명 | 언어 | 샘플 |
|---|---|---|
| Python 대한 AZURE AI 유추 패키지 | Python | 링크 |
| JavaScript용 AI 유추 패키지 Azure | 자바 스크립트 | 링크 |
| Azure AI 추론 패키지 C#용 | C# | 링크 |
| Java용 Azure AI 추론 패키지 | Java | Link |
메타
Meta Llama 모델 및 도구는 미리 학습되고 미세 조정된 생성 AI 텍스트 및 이미지 추론 모델의 컬렉션입니다. 메타 모델 범위는 다음을 포함하도록 크기 조정됩니다.
- 작은 언어 모델(SLM)인 1B 및 3B 기본 모델과 지시 모델은 디바이스 및 에지 추론에 사용됩니다.
- 7B, 8B 및 70B 기본 및 지시 모델과 같은 중형 LLM(대규모 언어 모델)
- 메타 라마 3.1-405B와 같은 고성능 모델은 합성 데이터 생성 및 증류 사용 사례에 대한 지침을 제공합니다.
- 고유하게 다중 모달인 고성능 모델, 라마 4 스카우트와 라마 4 매버릭은 전문가 조합 아키텍처를 활용하여 텍스트와 이미지 이해에서 업계 최고의 성능을 제공합니다.
다음 표에서는 Meta Llama 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
| 설명 | 언어 | 샘플 |
|---|---|---|
| CURL 요청 | Bash | 링크 |
| C용 AI 유추 패키지 Azure# | C# | Link |
| JavaScript용 AI 유추 패키지 Azure | 자바 스크립트 | Link |
| Python 대한 AZURE AI 유추 패키지 | Python | 링크 |
| Python 웹 요청 | Python | 링크 |
| OpenAI SDK(실험적) | Python | 링크 |
| LangChain | Python | 링크 |
| LiteLLM | Python | 링크 |
Microsoft
Microsoft 모델에는 MAI 모델, Phi 모델, 의료 AI 모델 등과 같은 다양한 모델 그룹이 포함됩니다. 사용 가능한 모든 Microsoft 모델을 보려면 Foundry 포털에서 Microsoft 모델 컬렉션을 확인합니다.
다음 표에서는 Microsoft 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
| 설명 | 언어 | 샘플 |
|---|---|---|
| C용 AI 유추 패키지 Azure# | C# | Link |
| JavaScript용 AI 유추 패키지 Azure | 자바 스크립트 | Link |
| Python 대한 AZURE AI 유추 패키지 | Python | 링크 |
| LangChain | Python | 링크 |
| Llama-Index | Python | 링크 |
Foundry 포털의 Microsoft 모델 컬렉션 참조하세요.
Mistral AI
Mistral AI는 다음과 같은 두 가지 범주의 모델을 제공합니다.
- 프리미엄 모델: Mistral Large, Mistral Small, Mistral-OCR-2503, Mistral Medium 3(25.05) 및 Ministral 3B 모델이 포함되며 종량제 토큰 기반 청구가 있는 서버리스 API로 사용할 수 있습니다.
- 오픈 모델: 여기에는 Mistral-small-2503이 포함됩니다. Codestral 및 Mistral Nemo(종량제 토큰 기반 청구를 사용하여 서버리스 API로 사용 가능) 및 Mixtral-8x7B-Instruct-v01, Mixtral-8x7B-v01, Mistral-7B-Instruct-v01 및 Mistral-7B-v01(자체 호스팅 관리형 엔드포인트에서 다운로드 및 실행할 수 있음).
다음 표에서는 Mistral 모델을 사용하는 방법의 예제에 대한 링크를 제공합니다.
| 설명 | 언어 | 샘플 |
|---|---|---|
| CURL 요청 | Bash | 링크 |
| C용 AI 유추 패키지 Azure# | C# | Link |
| JavaScript용 AI 유추 패키지 Azure | 자바 스크립트 | Link |
| Python 대한 AZURE AI 유추 패키지 | Python | 링크 |
| Python 웹 요청 | Python | 링크 |
| OpenAI SDK(실험적) | Python | Mistral - OpenAI SDK 샘플 |
| LangChain | Python | Mistral - LangChain 샘플 |
| Mistral AI | Python | Mistral - Mistral AI 샘플 |
| LiteLLM | Python | Mistral - LiteLLM 샘플 |
Nixtla
Nixtla의 TimeGEN-1은 시계열 데이터에 대한 미리 학습된 생성 예측 및 변칙 검색 모델입니다. TimeGEN-1은 기록 값과 외인성 공변만 입력으로 사용하여 학습 없이 새 시계열에 대한 정확한 예측을 생성할 수 있습니다.
추론을 수행하려면 TimeGEN-1에서 Nixtla의 사용자 지정 유추 API를 사용해야 합니다. TimeGEN-1 모델 및 해당 기능에 대한 자세한 내용은 Nixtla를 참조하세요.
필요한 토큰 수 예측
TimeGEN-1 배포를 만들기 전에 사용하고 청구할 토큰 수를 예측하는 것이 유용합니다. 하나의 토큰은 입력 데이터 세트 또는 출력 데이터 세트의 한 데이터 요소에 해당합니다.
다음과 같은 입력 시계열 데이터 세트가 있다고 가정합니다.
| 유니크_아이디 | 타임 스탬프 | 대상 변수 | 외인성 변수 1 | 외인성 변수 2 |
|---|---|---|---|---|
| BE | 2016-10-22 00:00:00 | 70.00 | 49593.0 | 57253.0 |
| BE | 2016-10-22 01:00:00 | 37.10 | 46073.0 | 51887.0 |
토큰 수를 확인하려면 행 수(이 예제에서는 2개)와 예측에 사용되는 열 수를 곱합니다. unique_id 및 타임스탬프 열(이 예제에서는 3개)을 계산하지 않고 총 6개의 토큰을 가져옵니다.
다음과 같은 출력 데이터 세트가 제공됩니다.
| Unique_id | 타임 스탬프 | 예측 대상 변수 |
|---|---|---|
| BE | 2016-10-22 02:00:00 | 46.57 |
| BE | 2016-10-22 03:00:00 | 48.57 |
데이터 예측 후 반환되는 데이터 요소 수를 계산하여 토큰 수를 확인할 수도 있습니다. 이 예제에서는 토큰 수가 2개입니다.
토큰을 기반으로 가격 책정 예측
지불하는 가격을 결정하는 4개의 가격 책정 미터가 있습니다. 이러한 미터는 다음과 같습니다.
| 가격 책정 측정기 | 설명 |
|---|---|
| 페이지오 (paygo) 추론 입력 토큰 (inference-input-tokens) | finetune_steps = 0인 경우 유추를 위한 입력으로 사용되는 토큰과 관련된 비용 |
| 사용량 기반 추론 출력 토큰 | finetune_steps = 0인 경우 유추를 위해 출력으로 사용되는 토큰과 관련된 비용 |
| 페이고 미세 조정된 모델 추론 입력 토큰 | 유추를 위한 입력으로 사용되는 토큰과 관련된 비용은 finetune_steps>가 0일 때 발생합니다. |
| 페이고-파인튜닝된-모델-추론-출력-토큰 | finetune_steps 0 일 때> 추론 출력을 위해 사용되는 토큰과 관련된 비용 |
Foundry 포털에서 Nixtla 모델 컬렉션을 참조하세요.
안정성 AI
서버리스 API 배포를 통해 배포된 안정성 AI 모델은 경로 /image/generations에서 모델 유추 API를 구현합니다.
안정성 AI 모델을 사용하는 방법에 대한 예제는 다음 예제를 참조하세요.
- 텍스트에서 이미지 요청까지의 안정성 AI 모델과 OpenAI SDK 사용
- Stability AI 모델을 사용하여 텍스트를 이미지로 변환할 때 Requests 라이브러리 사용
- 이미지 대 이미지 요청의 경우 안정적인 확산 3.5가 포함된 요청 라이브러리 사용
- 전체로 인코딩된 이미지 생성 응답의 샘플
그레텔 네비게이터
Gretel Navigator는 10개 이상의 산업 도메인에서 미세 조정된 최고 오픈 소스 SLLM(작은 언어 모델)을 결합하여 합성 데이터를 위해 특별히 설계된 복합 AI 아키텍처를 사용합니다. 이 용도로 빌드된 시스템은 수억에서 수백만 개의 예제로 다양한 도메인별 데이터 세트를 만듭니다. 또한 시스템은 복잡한 통계 관계를 유지하고 수동 데이터 생성에 비해 속도와 정확도가 향상됩니다.
| 설명 | 언어 | 샘플 |
|---|---|---|
| JavaScript용 AI 유추 패키지 Azure | 자바 스크립트 | 링크 |
| Python 대한 AZURE AI 유추 패키지 | Python | 링크 |
관련 콘텐츠
- 서버를 사용하지 않는 API 배포로 모델 배포
- Foundry 모델 살펴보기
- Foundry 모델 및 해당 기능
- 서버리스 API 배포의 모델에 대한 지역 가용성
- Azure에서 직접 판매되는 모델의 콘텐츠 안전성