Model dat wordt geleverd met serverloze realtime deductie

Artikel
04/11/2024

Belangrijk

Deze documentatie is buiten gebruik gesteld en wordt mogelijk niet bijgewerkt. De producten, services of technologieën die in deze inhoud worden genoemd, worden niet meer ondersteund.
De richtlijnen in dit artikel zijn bedoeld voor de preview-versie van de functionaliteit Model Serving, voorheen Serverloze realtime deductie. Databricks raadt u aan uw model te migreren met werkstromen naar de algemeen beschikbare functionaliteit. Zie Model dat wordt geleverd met Azure Databricks.

Belangrijk

Deze functie is beschikbaar als openbare preview.

In dit artikel wordt het model beschreven dat wordt geleverd met serverloze realtime deductie van Azure Databricks, inclusief de voordelen en limieten in vergelijking met verouderde MLflow-modelverdiening.

Serverloze realtime deductie toont uw MLflow Machine Learning-modellen als schaalbare REST API-eindpunten. Deze functionaliteit maakt gebruik van serverloze compute, wat betekent dat de eindpunten en gekoppelde rekenresources worden beheerd en uitgevoerd in uw Databricks-account. Zie de pagina met prijzen voor serverloze realtime deductie voor meer informatie.

Verouderde MLflow Model Serving maakt gebruik van een cluster met één knooppunt dat wordt uitgevoerd onder uw eigen account in wat nu het klassieke rekenvlak wordt genoemd. Dit rekenvlak bevat het virtuele netwerk en de bijbehorende rekenresources, zoals clusters voor notebooks en taken, pro- en klassieke SQL-magazijnen en klassiek model voor eindpunten.

Waarom serverloze realtime deductie gebruiken?

Serverloze realtime deductieaanbiedingen:

Mogelijkheid om met één klik een eindpunt te starten: Databricks bereidt automatisch een omgeving die gereed is voor productie voor uw model en biedt serverloze configuratieopties voor berekening.
Hoge beschikbaarheid en schaalbaarheid: Serverloze realtime deductie is bedoeld voor productiegebruik en kan maximaal 3000 query's per seconde (QPS) ondersteunen. Serverloze realtime deductie-eindpunten worden automatisch omhoog en omlaag geschaald, wat betekent dat eindpunten automatisch worden aangepast op basis van het volume van scoreaanvragen.
Dashboards: gebruik het ingebouwde serverloze realtime deductiedashboard om de status van uw modeleindpunten te bewaken met behulp van metrische gegevens, zoals QPS, latentie en foutpercentage.
Integratie van het functiearchief: wanneer uw model wordt getraind met functies uit Databricks Feature Store, wordt het model verpakt met metagegevens van functies. Als u uw online winkel configureert, worden deze functies in realtime opgenomen als scoreaanvragen worden ontvangen.

Beperkingen

Hoewel deze service in preview is, zijn de volgende limieten van toepassing:

Maximale nettoladinggrootte van 16 MB per aanvraag.
Standaardlimiet van 200 QPS van scoreaanvragen per ingeschreven werkruimte. U kunt deze limiet verhogen tot maximaal 3000 QPS per werkruimte door contact op te nemen met uw databricks-ondersteuningsmedewerker.
Best effort-ondersteuning voor overhead en beschikbaarheid van minder dan 100 milliseconden.
Model serving biedt geen ondersteuning voor init-scripts.

Serverloze realtime deductie-eindpunten zijn geopend voor binnenkomend verkeer, tenzij een IP-acceptatielijst is ingeschakeld in de werkruimte, in welk geval deze lijst ook van toepassing is op de eindpunten.

Regionale beschikbaarheid

Serverloze realtime deductie is beschikbaar in de volgende Azure-regio's:

eastus2
westus
eastus
westeurope
centralus
northcentralus
northeurope

Verwachtingen voor faserings- en productietijd

Het overzetten van een model van fasering naar productie kost tijd. Het implementeren van een nieuw geregistreerde modelversie omvat het bouwen van een modelcontainerinstallatiekopieën en het inrichten van het modeleindpunt. Dit proces kan ongeveer 5 minuten duren.

Databricks voert een update van 'nul downtime' van /staging en /production eindpunten uit door de bestaande modelimplementatie bij te houden totdat de nieuwe klaar is. Dit zorgt ervoor dat er geen onderbreking is voor modeleindpunten die in gebruik zijn.

Als modelberekening langer duurt dan 60 seconden, treedt er een time-out op voor aanvragen. Als u denkt dat uw modelberekening langer dan 60 seconden duurt, neemt u contact op met uw databricks-ondersteuningsmedewerker.

Vereisten

Belangrijk

Tijdens de openbare preview moet u contact opnemen met uw databricks-ondersteuningsmedewerker om serverloze realtime deductie in te schakelen voor uw werkruimte.

Voordat u serverloze realtime deductie-eindpunten kunt maken, moet u deze inschakelen in uw werkruimte. Zie Serverloze realtime deductie-eindpunten inschakelen voor het leveren van modellen.

Nadat serverloze realtime deductie-eindpunten zijn ingeschakeld in uw werkruimte, hebt u de volgende machtigingen nodig om eindpunten te maken voor modelverdiening:

Machtigingen voor het maken van clusters voor de werkruimte.
KAN MACHTIGINGEN VOOR PRODUCTIEVERSIEs voor het geregistreerde model beheren om het te bedienen.

Share via

Model dat wordt geleverd met serverloze realtime deductie

Waarom serverloze realtime deductie gebruiken?

Beperkingen

Regionale beschikbaarheid

Verwachtingen voor faserings- en productietijd

Vereisten

Aanvullende bronnen

Feedback

Feedback

Aanvullende resources