英伟达再创AI推理新高!Llama 4单用户破千token/秒,算力革命加速AI落地
2025-05-23
英伟达通过Blackwell GPU和TensorRT-LLM优化框架,成功将Llama 4 Maverick模型的单用户推理速度提升至每秒1000个token,整体吞吐量达72,000 TPS。采用FP8数据格式、CUDA内核优化、推测解码等技术,显著降低延迟并提升计算效率,为实时AI应用和大规模部署提供更强算力支持。


本页面内容由AI提炼生成,无法确保完全真实准确,不代表
官方立场,不构成投资建议。如需阅读详细说明,请点击此处
