AI Gateway européen — bientôt disponible

L'API que vous connaissez, les modèles européens.

Produit en cours de livraison. Endpoint unique compatible SDK OpenAI, modèles Mistral et Llama hébergés en France. La page ci-dessous décrit l'objectif. L'addon ai-gateway n'est pas encore disponible dans le catalogue.

Être prévenu au lancement Voir la doc API actuelle

001 / CompatibilitéSDK OpenAI à 100 %

002 / LatenceSous 50 ms si app sur OVH

003 / Bascule autoProviders alternatifs en 1 s

004 / FacturationUnifiée, en euros, mensuelle

Migration

Deux lignes à changer.

Si votre code parle déjà à OpenAI, il parle déjà à l'AI Gateway. Vous changez l'URL de base et la clé. Le reste du code ne bouge pas.

Avant OpenAI direct

# Vos données partent aux États-Unis
from openai import OpenAI

client = OpenAI(
  api_key=os.environ["OPENAI_API_KEY"]
)

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[{"role": "user",
    "content": "Bonjour"}]
)

Après AI Gateway · France

# Vos données restent en France
from openai import OpenAI

client = OpenAI(
  api_key=os.environ["PAAS_AI_TOKEN"],
  base_url=os.environ["PAAS_AI_BASE_URL"]
)

response = client.chat.completions.create(
  model="mistral-large",
  messages=[{"role": "user",
    "content": "Bonjour"}]
)

Catalogue

Modèles disponibles.

Tarif au million de jetons, en euros, sans surprise. Tous les modèles sont hébergés sur l'infrastructure OVHcloud en France.

Modèle	Identifiant API	Vendeur	Contexte	Entrée / sortie
Mistral Large	mistral-large	Mistral AI · France	128 k	3,00 € / 9,00 €par million de jetons
Mistral Medium	mistral-medium	Mistral AI · France	128 k	1,40 € / 4,00 €par million de jetons
Mistral Small	mistral-small	Mistral AI · France	128 k	0,40 € / 2,00 €par million de jetons
Codestral	codestral	Mistral AI · France	256 k	0,90 € / 2,70 €par million de jetons
Llama 3.3 70B	llama-3.3-70b	Meta · open source · self-hosted	128 k	0,80 € / 0,80 €par million de jetons
Llama 3.1 8B	llama-3.1-8b	Meta · open source · self-hosted	128 k	0,15 € / 0,15 €par million de jetons
Qwen 3 32B	qwen-3-32b	Alibaba · open source · self-hosted	256 k	0,40 € / 0,40 €par million de jetons
Whisper Large v3	whisper-large-v3	OpenAI · open source · self-hosted	audio	0,18 € / heurede transcription
BGE-M3	bge-m3	BAAI · open source · self-hosted	embeddings	0,02 €par million de jetons

Routage intelligent

Latence sous 50 ms si vous êtes chez nous.

Quand votre application tourne sur la plateforme, l'appel à l'AI Gateway se fait sur le réseau interne. Pas de traversée de l'Internet, pas de TLS handshake côté public.

Si votre application est ailleurs, le Gateway choisit le datacenter le plus proche pour servir l'inférence. La même API, partout.

Documentation routage

requête en direct · ai-gateway/v1/chat trace_8a91…

14:32:17.041→ POST /v1/chat/completions model=mistral-large
14:32:17.043→ tentative provider mistral.ai
14:32:17.342✗ mistral.ai 503 — service unavailable
14:32:17.343↻ bascule vers mistral-on-ovh (modèle équivalent)
14:32:17.871✓ 200 OK · 187 jetons retournés
14:32:17.871# temps total : 830 ms (bascule transparente)

14:32:18.012→ POST /v1/chat/completions model=mistral-large
14:32:18.014→ tentative provider mistral-on-ovh (en priorité après échec)
14:32:18.487✓ 200 OK · 142 jetons retournés

14:35:42.001✓ mistral.ai retour à la normale
14:35:42.002# bascule transparente en cours · prochaine requête sur mistral.ai

Bascule transparente

Si un provider tombe, vos requêtes continuent.

Le Gateway connaît plusieurs providers pour chaque modèle. Quand le primaire devient indisponible, la bascule prend moins d'une seconde. Votre code n'a rien à gérer.

Quand le primaire revient, le Gateway revient avec lui. Pas de configuration à modifier de votre côté, pas de redémarrage nécessaire.

Vos propres modèles

Servez les modèles que vous voulez.

Le Gateway ne se limite pas aux modèles du catalogue. Vous pouvez servir vos propres modèles fine-tunés à côté, avec la même API.

001

Hugging Face

Tout modèle compatible vLLM ou TGI. Sélection en deux clics depuis le catalogue. Provisionne un endpoint dédié sur GPU partagé ou dédié.

002

Modèles fine-tunés

Téléversez vos checkpoints LoRA, QLoRA ou full fine-tune. Hébergés en France, accessibles via la même API. Pas de double facturation.

003

Modèles privés

Modèle réservé à votre tenant, pas de mutualisation GPU si vous le souhaitez. Plan Entreprise. Latence garantie par SLA contractuel.

Une API.
Modèles européens.
Vos données restent.

Compatible avec votre code OpenAI existant. Activable en deux variables d'environnement.

Activer l'AI Gateway Hébergement France