Intermittent TCP "Connection refused" errors calling our Azure OpenAI endpoint from production. Not an HTTP error — the TCP connection itself is refused.

Question

Intermittent TCP "Connection refused" errors calling our Azure OpenAI endpoint from production. Not an HTTP error — the TCP connection itself is refused.

Maximilian Voß 0

Endpoint: PII

Deployment: gpt-5-mini

API version: 2025-04-01-preview

Region: Sweden Central

Incidents (UTC):

Apr 10: 06:45–08:25, 11:24–11:26, 12:37–12:39

Apr 13: 08:46–08:47, 09:55–09:58

Key facts:

curl from the same server succeeds during the outage
PHP/Guzzle HTTP client gets "Connection refused"
Retry logic (3 attempts, exponential backoff) fails during sustained periods
No changes to our infrastructure or code before errors started
Real end users affected in production
Request: Please investigate load balancer / endpoint health in Sweden Central during these time windows. Should we migrate to a different region?

0 Kommentare

1 Antwort

Ihre Antwort

Answer 1

Hallo @Maximilian Voß

Bedankt voor het delen van de gedetailleerde tijdlijnen en waarnemingen.

Op basis van uw beschrijving suggereert het gedrag dat u waarneemt (intermitterende fouten op TCP-niveau van het type "connection refused" in plaats van HTTP-responsen) dat het verzoek wordt geweigerd voordat het de servicelaag van Azure OpenAI bereikt. Aangezien:

een curl-opdracht vanaf dezelfde host wel slaagt tijdens dezelfde tijdsvensters,
er aan uw kant geen wijzigingen in de infrastructuur of code zijn doorgevoerd, en
het probleem zich voordeed gedurende meerdere korte vensters die gevolgen hadden voor productiegebruikers,

wijst dit niet op een configuratieprobleem aan de clientzijde, maar eerder op tijdelijke problemen met netwerken of de beschikbaarheid van eindpunten op platformniveau in de regio Sweden Central gedurende die perioden.

Op dit moment is er geen door de klant configureerbare instelling op Azure OpenAI-eindpunten beschikbaar om het gedrag van de regionale front-end of load balancer te beheren of te omzeilen. De juiste volgende stap is om Microsoft te vragen de backend-telemetrie voor de opgegeven UTC-vensters te onderzoeken.

Aanbevelingen / Volgende stappen:

Als maatregel voor veerkracht op de korte termijn kunt u overwegen hetzelfde model in een secundaire regio te implementeren en failover aan de clientzijde in te richten; dit dient echter te worden beschouwd als een tijdelijke mitigatie en niet als een definitieve oplossing, totdat het backend-onderzoek is afgerond.
Een regiomigratie is over het algemeen niet vereist, tenzij terugkerende platformproblemen worden bevestigd door de ondersteuningsafdeling van Microsoft.

Laat het me weten of bovenstaande u heeft geholpen, of dat u verdere assistentie nodig heeft met betrekking tot dit probleem.

Freigeben über

Intermittent TCP "Connection refused" errors calling our Azure OpenAI endpoint from production. Not an HTTP error — the TCP connection itself is refused.

1 Antwort

Ihre Antwort