vLLM LLM Server

Python IA ⏱ 15 min Avancé Plan : Pro

À quoi ça sert

App de démonstration. Cette fiche illustre le pattern d'une API d'inférence LLM compatible OpenAI. La version livrée est un mock FastAPI Python qui retourne des réponses canned au format OpenAI ; le vrai serveur vLLM avec accélération GPU n'est pas encore disponible (pas de GPU dans le pool actuel).

Ce que vous obtenez

  • Endpoint /v1/chat/completions compatible client OpenAI (mock canned response)
  • Endpoint /v1/models qui liste un modèle factice
  • Pattern de déploiement : FastAPI Python (pour quand vLLM + GPU arriveront)
  • Format de réponse strictement compatible OpenAI SDK

Pré-requis

Compte di2amp actif. Plan minimal : Pro. Aucun addon requis (mock).

Si vous n'avez pas encore créé de compte, suivez le guide de démarrage avant cette page (5 minutes).

001 Déploiement manuel via CLI

Si vous voulez forker, modifier, ou comprendre étape par étape, utilisez la CLI :

Cloner

$ git clone https://https://<votre-fork>/vllm-llm-serve.gitlt;votre-forkhttps://<votre-fork>/vllm-llm-serve.gitgt;/vllm-llm-serve.git

Créer app

$ paas apps:create mon-vllm

Choisir le modèle

$ paas config:set MODEL_NAME=mock-model-1 --app mon-vllm

Pousser

$ git push paas main

Tester

$ curl https://mon-vllm.runtime.di2amp.com/v1/chat/completions -d '...'

Aller plus loin

Agents IA recommandés

  • FinOps (les tokens IA s'additionnent en production)
  • DBA si vous loggez les requêtes

Addons utiles à ajouter ensuite

  • Postgres — Pour logger les requêtes ou faire du RAG

Prêt à déployer
vLLM LLM Server ?

Free tier permanent, pas de carte bancaire. Les addons facturés sont visibles avant que vous validiez.