当前位置：首页>科技资讯>Cerebras震撼发布：全球最快AI推理系统，性能飙至NVIDIA的20倍

Cerebras震撼发布：全球最快AI推理系统，性能飙至NVIDIA的20倍

2025-03-25 18:00:24 人气：0 编辑：96006资源网

8月28日消息，Cerebras Systems在AI技术领域取得了重大突破，他们最新发布的Cerebras Inference被誉为全球速度最快的AI推理解决方案。

这项技术的高效性能体现在对Llama 3.1模型的支持上，能够实现每秒1800个token的处理速度（针对8B版本），以及每秒450个token（针对70B版本），其处理效率相比微软Azure等云平台上基于英伟达GPU的解决方案高出20倍之多。这一成就不仅彰显了Cerebras在加速AI推理应用方面的领先地位，也为行业树立了新的标杆。

除了令人难以置信的性能之外，这款新型推理解决方案的定价也比流行的 GPU 云低得多，起价仅为每百万个 token 10 美分，从而为 AI 工作负载提供 100 倍更高的性价比。

该方案将允许 AI 应用程序开发人员构建下一代 AI 应用程序，而不会影响速度或成本。该方案使用了 Cerebras CS-3 系统及其 Wafer Scale Engine 3（WSE-3）AI 处理器，其中 CS-3 的内存带宽是 Nvidia H100 的 7000 倍，解决了生成式 AI 的内存带宽技术挑战。

据了解，Cerebras Inference 提供以下三个层级：

免费层为登录的任何人提供免费的 API 访问和慷慨的使用限制。

开发者层专为灵活的无服务器部署而设计，为用户提供一个 API 端点，其成本只是市场上替代方案的一小部分，Llama 3.1 8B 和 70B 模型的定价分别为每百万 token 10 美分和 60 美分。

企业层提供微调模型、定制服务级别协议和专门支持。企业可以通过 Cerebras 管理的私有云或客户场所访问 Cerebras Inference，非常适合持续的工作负载。

Cerebras 团队称：“凭借创纪录的性能、业界领先的定价和开放的 API 访问，Cerebras Inference 为开放的 LLM 开发和部署设定了新标准。作为唯一能够同时提供高速训练和推理的解决方案，Cerebras 为 AI 开辟了全新的可能性。”

AI 领域正在迅速发展，虽然英伟达目前在 AI 市场占据主导地位，但 Cerebras 和 Groq 等公司的出现预示着行业动态可能发生变化。随着对更快、更具成本效益的 AI 推理解决方案需求的不断增加，这些挑战者在颠覆英伟达的霸主地位，尤其是在推理领域方面。

网易有道子曰-o1推理模型震撼开源发布：专属消费级显卡的AI利器

SpaceX星际飞船进展：第五艘原型SN20就位发射台，静候首次轨道试飞

狼蛛S98三模机械键盘正式发售：售价139元，极限续航约266小时
08-16
编辑：96006资源网
ROG酷冷风扇X新品发布：散热效能提升20%，体积精简达29%，售价599元
02-14
编辑：96006资源网
三星HBM3内存获NVIDIA中国专属认证！仅应用于特制H20芯片组
11-23
编辑：96006资源网
"龙龙高铁"梅州至龙川段今日首发：正式以350公里时速驰骋
10-20
编辑：96006资源网
升级iOS 18后iPhone 15系列状况连连：显著续航缩水引用户热议
08-27
编辑：96006资源网
三星计划Q3大幅提升HBM3e供应给NVIDIA，产能调整20%-30%
12-18
编辑：96006资源网