使用 TensorRT-LLM,你可以:

TensorRT-LLM 是 NVIDIA 推出的高性能推理工具,提供易用的 Python API 用于定义大语言模型,集成前沿优化技术,可在 NVIDIA GPU 上实现高效推理;同时支持 Python 与 C++ 运行时组件,保障推理高性能调度与执行效率。

放大图片

用户评论 (0)

LLM 框架排行

产品推荐