AI Gateway européen — bientôt disponible

L'API que vous connaissez, les modèles européens.

Produit en cours de livraison. Endpoint unique compatible SDK OpenAI, modèles Mistral et Llama hébergés en France. La page ci-dessous décrit l'objectif. L'addon ai-gateway n'est pas encore disponible dans le catalogue.

001 / CompatibilitéSDK OpenAI à 100 %
002 / LatenceSous 50 ms si app sur OVH
003 / Bascule autoProviders alternatifs en 1 s
004 / FacturationUnifiée, en euros, mensuelle
Migration

Deux lignes à changer.

Si votre code parle déjà à OpenAI, il parle déjà à l'AI Gateway. Vous changez l'URL de base et la clé. Le reste du code ne bouge pas.

Avant OpenAI direct
# Vos données partent aux États-Unis
from openai import OpenAI

client = OpenAI(
  api_key=os.environ["OPENAI_API_KEY"]
)

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[{"role": "user",
    "content": "Bonjour"}]
)
Après AI Gateway · France
# Vos données restent en France
from openai import OpenAI

client = OpenAI(
  api_key=os.environ["PAAS_AI_TOKEN"],
  base_url=os.environ["PAAS_AI_BASE_URL"]
)

response = client.chat.completions.create(
  model="mistral-large",
  messages=[{"role": "user",
    "content": "Bonjour"}]
)
Catalogue

Modèles disponibles.

Tarif au million de jetons, en euros, sans surprise. Tous les modèles sont hébergés sur l'infrastructure OVHcloud en France.

Modèle Identifiant API Vendeur Contexte Entrée / sortie
Mistral Large mistral-large Mistral AI · France 128 k 3,00 € / 9,00 €par million de jetons
Mistral Medium mistral-medium Mistral AI · France 128 k 1,40 € / 4,00 €par million de jetons
Mistral Small mistral-small Mistral AI · France 128 k 0,40 € / 2,00 €par million de jetons
Codestral codestral Mistral AI · France 256 k 0,90 € / 2,70 €par million de jetons
Llama 3.3 70B llama-3.3-70b Meta · open source · self-hosted 128 k 0,80 € / 0,80 €par million de jetons
Llama 3.1 8B llama-3.1-8b Meta · open source · self-hosted 128 k 0,15 € / 0,15 €par million de jetons
Qwen 3 32B qwen-3-32b Alibaba · open source · self-hosted 256 k 0,40 € / 0,40 €par million de jetons
Whisper Large v3 whisper-large-v3 OpenAI · open source · self-hosted audio 0,18 € / heurede transcription
BGE-M3 bge-m3 BAAI · open source · self-hosted embeddings 0,02 €par million de jetons
Routage intelligent

Latence sous 50 ms si vous êtes chez nous.

Quand votre application tourne sur la plateforme, l'appel à l'AI Gateway se fait sur le réseau interne. Pas de traversée de l'Internet, pas de TLS handshake côté public.

Si votre application est ailleurs, le Gateway choisit le datacenter le plus proche pour servir l'inférence. La même API, partout.

Documentation routage
Votre app sur paas.di2amp FR · Roubaix AI Gateway routage interne Autre app depuis Internet EU · routage public Mistral api.mistral.ai Llama 70B vLLM · OVH Whisper vLLM · OVH < 50 ms ~150 ms
requête en direct · ai-gateway/v1/chat trace_8a91…
14:32:17.041 POST /v1/chat/completions model=mistral-large
14:32:17.043 tentative provider mistral.ai
14:32:17.342 mistral.ai 503 — service unavailable
14:32:17.343 bascule vers mistral-on-ovh (modèle équivalent)
14:32:17.871 200 OK · 187 jetons retournés
14:32:17.871# temps total : 830 ms (bascule transparente)

14:32:18.012 POST /v1/chat/completions model=mistral-large
14:32:18.014 tentative provider mistral-on-ovh (en priorité après échec)
14:32:18.487 200 OK · 142 jetons retournés

14:35:42.001 mistral.ai retour à la normale
14:35:42.002# bascule transparente en cours · prochaine requête sur mistral.ai
Bascule transparente

Si un provider tombe, vos requêtes continuent.

Le Gateway connaît plusieurs providers pour chaque modèle. Quand le primaire devient indisponible, la bascule prend moins d'une seconde. Votre code n'a rien à gérer.

Quand le primaire revient, le Gateway revient avec lui. Pas de configuration à modifier de votre côté, pas de redémarrage nécessaire.

Vos propres modèles

Servez les modèles que vous voulez.

Le Gateway ne se limite pas aux modèles du catalogue. Vous pouvez servir vos propres modèles fine-tunés à côté, avec la même API.

001

Hugging Face

Tout modèle compatible vLLM ou TGI. Sélection en deux clics depuis le catalogue. Provisionne un endpoint dédié sur GPU partagé ou dédié.

002

Modèles fine-tunés

Téléversez vos checkpoints LoRA, QLoRA ou full fine-tune. Hébergés en France, accessibles via la même API. Pas de double facturation.

003

Modèles privés

Modèle réservé à votre tenant, pas de mutualisation GPU si vous le souhaitez. Plan Entreprise. Latence garantie par SLA contractuel.

Une API.
Modèles européens.
Vos données restent.

Compatible avec votre code OpenAI existant. Activable en deux variables d'environnement.