Verwenden von Sprachmodellen
Organisationen und Entwickler können ihre eigenen Sprachmodelle von Grund auf neu trainieren, aber in den meisten Fällen ist es praktischer, ein vorhandenes Foundationmodell zu verwenden und optional mit Ihren eigenen Trainingsdaten zu optimieren. Es gibt viele Quellen für Modelle, die Sie verwenden können.
In Microsoft Azure finden Sie Foundationmodelle in Azure OpenAI Service und im Modellkatalog. Der Modellkatalog wurde für Data Scientists und Entwickler zusammengestellt, die Azure KI Studio und Azure Machine Learning verwenden. Er bietet den Vorteil modernster Sprachmodelle wie die GPT-Modellsammlung (generativer vortrainierter Transformator), auf der ChatGPT und die generativen KI-Dienste von Microsoft basieren, sowie das DALL-E-Modell für Bildgenerierung. Durch die Verwendung dieser Modelle aus Azure OpenAI Service profitieren Sie auch von einer sicheren, skalierbaren Azure-Cloudplattform, in der die Modelle gehostet werden.
Zusätzlich zu den Azure OpenAI-Modellen beinhaltet der Modellkatalog die neuesten Open-Source-Modelle von Microsoft und mehreren Partnern, darunter:
- OpenAI
- HuggingFace
- Mistral
- Meta und andere
Einige gängige Azure OpenAI-Modelle sind:
- GPT-3.5-Turbo, GPT-4 und GPT-4o: Sprachmodelle für eingehende Unterhaltungen und ausgehende Nachrichten.
- GPT-4 Turbo mit Vision: Ein von OpenAI entwickeltes Sprachmodell, das Bilder analysieren und Textantworten auf Fragen zu ihnen liefern kann. Es umfasst sowohl die Verarbeitung natürlicher Sprache als auch das visuelle Verständnis.
- DALL-E: Ein Sprachmodell, das Originalbilder sowie Variationen von Bildern generiert und Bilder bearbeiten kann.
Große und kleine Sprachmodelle
Es stehen viele Sprachmodelle zur Verfügung, die Sie für generative KI-Anwendungen verwenden können. Im Allgemeinen können Sprachmodelle in zwei Kategorien eingeteilt werden: Große Sprachmodelle (Large Language Models, LLMs) und kleine Sprachmodelle (Small Language Models, SLMs).
Große Sprachmodelle (LLMs) | Kleine Sprachmodelle (SLMs) |
---|---|
LLMs werden mit großen Textmengen trainiert, die eine breite Palette von allgemeinen Themen umfassen – in der Regel durch Beschaffung von Daten aus dem Internet und anderen allgemein verfügbaren Publikationen. | SLMs werden mit kleineren, themenorientierten Datasets trainiert. |
Beim Training verfügen LLMs über viele Milliarden (sogar Billionen) von Parametern (Gewichtungen, die auf Vektoreinbettungen angewendet werden können, um vorhergesagte Tokensequenzen zu berechnen). | In der Regel haben sie weniger Parameter als LLMs. |
Sie können Sprache zu einem breiten Spektrum von Unterhaltungskontexten generieren. | Dieses fokussierte Vokabular macht sie bei spezifischen Unterhaltungsthemen sehr effektiv, aber weniger effektiv bei allgemeinerer Sprachgenerierung. |
Ihre enorme Größe kann sich auf ihre Leistung auswirken und die lokale Bereitstellung auf Geräten und Computern erschweren. | Die geringere Größe von SLMs kann mehr Optionen für die Bereitstellung bieten, einschließlich der lokalen Bereitstellung auf Geräten und lokalen Computern, und macht sie schneller und einfacher zu optimieren. |
Die Optimierung des Modells mit zusätzlichen Daten zum Anpassen der Fachkompetenz kann zeitaufwändig und teuer in Bezug auf die Rechenleistung sein, die für das zusätzliche Training erforderlich ist. | Die Optimierung kann weniger zeitaufwendig und teuer sein. |