vllm-project/vllm

A high-throughput and memory-efficient inference and serving engine for LLMs

59.4

Score

84,776

Stars

18,644

Forks

0.0

Trend

Details

amdblackwellcudadeepseekdeepseek-v3gptgpt-ossinferencekimillamallmllm-servingmodel-servingmoeopenaipytorchqwenqwen3tputransformer