À quoi ça sert
App de démonstration. Cette fiche illustre le pattern d'une API d'inférence LLM compatible OpenAI. La version livrée est un mock FastAPI Python qui retourne des réponses canned au format OpenAI ; le vrai serveur vLLM avec accélération GPU n'est pas encore disponible (pas de GPU dans le pool actuel).
Ce que vous obtenez
- Endpoint
/v1/chat/completionscompatible client OpenAI (mock canned response) - Endpoint
/v1/modelsqui liste un modèle factice - Pattern de déploiement : FastAPI Python (pour quand vLLM + GPU arriveront)
- Format de réponse strictement compatible OpenAI SDK
Pré-requis
Compte di2amp actif. Plan minimal : Pro. Aucun addon requis (mock).
Si vous n'avez pas encore créé de compte, suivez le guide de démarrage avant cette page (5 minutes).
001 Déploiement manuel via CLI
Si vous voulez forker, modifier, ou comprendre étape par étape, utilisez la CLI :
Cloner
$ git clone https://https://<votre-fork>/vllm-llm-serve.gitlt;votre-forkhttps://<votre-fork>/vllm-llm-serve.gitgt;/vllm-llm-serve.git
Créer app
$ paas apps:create mon-vllm
Choisir le modèle
$ paas config:set MODEL_NAME=mock-model-1 --app mon-vllm
Pousser
$ git push paas main
Tester
$ curl https://mon-vllm.runtime.di2amp.com/v1/chat/completions -d '...'
Aller plus loin
Agents IA recommandés
- FinOps (les tokens IA s'additionnent en production)
- DBA si vous loggez les requêtes
Addons utiles à ajouter ensuite
- Postgres — Pour logger les requêtes ou faire du RAG
Apps similaires à explorer
Une fois que vous êtes à l'aise avec celle-ci, voyez ce que ces apps proposent :
Prêt à déployer
vLLM LLM Server ?
Free tier permanent, pas de carte bancaire. Les addons facturés sont visibles avant que vous validiez.