L'API que vous connaissez, les modèles européens.
Produit en cours de livraison. Endpoint unique compatible SDK OpenAI, modèles Mistral et Llama hébergés en France. La page ci-dessous décrit l'objectif. L'addon ai-gateway n'est pas encore disponible dans le catalogue.
Deux lignes à changer.
Si votre code parle déjà à OpenAI, il parle déjà à l'AI Gateway. Vous changez l'URL de base et la clé. Le reste du code ne bouge pas.
from openai import OpenAI
client = OpenAI(
api_key=os.environ["OPENAI_API_KEY"]
)
response = client.chat.completions.create(
model="gpt-4o",
messages=[{"role": "user",
"content": "Bonjour"}]
)
from openai import OpenAI
client = OpenAI(
api_key=os.environ["PAAS_AI_TOKEN"],
base_url=os.environ["PAAS_AI_BASE_URL"]
)
response = client.chat.completions.create(
model="mistral-large",
messages=[{"role": "user",
"content": "Bonjour"}]
)
Modèles disponibles.
Tarif au million de jetons, en euros, sans surprise. Tous les modèles sont hébergés sur l'infrastructure OVHcloud en France.
| Modèle | Identifiant API | Vendeur | Contexte | Entrée / sortie |
|---|---|---|---|---|
| Mistral Large | mistral-large | Mistral AI · France | 128 k | 3,00 € / 9,00 €par million de jetons |
| Mistral Medium | mistral-medium | Mistral AI · France | 128 k | 1,40 € / 4,00 €par million de jetons |
| Mistral Small | mistral-small | Mistral AI · France | 128 k | 0,40 € / 2,00 €par million de jetons |
| Codestral | codestral | Mistral AI · France | 256 k | 0,90 € / 2,70 €par million de jetons |
| Llama 3.3 70B | llama-3.3-70b | Meta · open source · self-hosted | 128 k | 0,80 € / 0,80 €par million de jetons |
| Llama 3.1 8B | llama-3.1-8b | Meta · open source · self-hosted | 128 k | 0,15 € / 0,15 €par million de jetons |
| Qwen 3 32B | qwen-3-32b | Alibaba · open source · self-hosted | 256 k | 0,40 € / 0,40 €par million de jetons |
| Whisper Large v3 | whisper-large-v3 | OpenAI · open source · self-hosted | audio | 0,18 € / heurede transcription |
| BGE-M3 | bge-m3 | BAAI · open source · self-hosted | embeddings | 0,02 €par million de jetons |
Latence sous 50 ms si vous êtes chez nous.
Quand votre application tourne sur la plateforme, l'appel à l'AI Gateway se fait sur le réseau interne. Pas de traversée de l'Internet, pas de TLS handshake côté public.
Si votre application est ailleurs, le Gateway choisit le datacenter le plus proche pour servir l'inférence. La même API, partout.
Documentation routage14:32:17.043→ tentative provider mistral.ai
14:32:17.342✗ mistral.ai 503 — service unavailable
14:32:17.343↻ bascule vers mistral-on-ovh (modèle équivalent)
14:32:17.871✓ 200 OK · 187 jetons retournés
14:32:17.871# temps total : 830 ms (bascule transparente)
14:32:18.012→ POST /v1/chat/completions model=mistral-large
14:32:18.014→ tentative provider mistral-on-ovh (en priorité après échec)
14:32:18.487✓ 200 OK · 142 jetons retournés
14:35:42.001✓ mistral.ai retour à la normale
14:35:42.002# bascule transparente en cours · prochaine requête sur mistral.ai
Si un provider tombe, vos requêtes continuent.
Le Gateway connaît plusieurs providers pour chaque modèle. Quand le primaire devient indisponible, la bascule prend moins d'une seconde. Votre code n'a rien à gérer.
Quand le primaire revient, le Gateway revient avec lui. Pas de configuration à modifier de votre côté, pas de redémarrage nécessaire.
Servez les modèles que vous voulez.
Le Gateway ne se limite pas aux modèles du catalogue. Vous pouvez servir vos propres modèles fine-tunés à côté, avec la même API.
Hugging Face
Tout modèle compatible vLLM ou TGI. Sélection en deux clics depuis le catalogue. Provisionne un endpoint dédié sur GPU partagé ou dédié.
Modèles fine-tunés
Téléversez vos checkpoints LoRA, QLoRA ou full fine-tune. Hébergés en France, accessibles via la même API. Pas de double facturation.
Modèles privés
Modèle réservé à votre tenant, pas de mutualisation GPU si vous le souhaitez. Plan Entreprise. Latence garantie par SLA contractuel.
Une API.
Modèles européens.
Vos données restent.
Compatible avec votre code OpenAI existant. Activable en deux variables d'environnement.