日期:2025-07-27 09:25:25
7月26日鑫耀证券,2025世界人工智能大会(WAIC)在上海拉开帷幕。摩尔线程以全功能GPU为核心构建的“云边端”全栈AI产品和解决方案精彩亮相WAIC展览区,全面展示以国产全功能GPU为底座的通用加速计算平台、夸娥智算集群方案及各行业应用方案。
摩尔线程全功能GPU芯片采用自主研发的MUSA架构,率先实现了单芯片架构同时支持 AI 计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码的技术突破。自2020年成立至今,摩尔线程已推出四代GPU架构和智能SoC产品,拓展出覆盖AI智算、专业图形加速、桌面级图形加速等领域丰富完整的计算加速产品矩阵,全面支持云计算、边缘计算及终端设备市场,满足从政务、企业智能计算到个人消费场景的多层次需求。
此前,摩尔线程递交科创板招股书,拟募资约80亿人民币,成为今年上半年科创板拟募资规模最大的冲刺者,也打响了“国产英伟达”上市的第一枪。
据招股书显示,摩尔线程主营全功能GPU芯片的研发与销售,以自主研发的“MUSA统一系统架构”为核心,为AI、大模型训练、数字孪生、科学计算等高性能计算领域提供算力加速平台。
在WAIC 2025开幕前夕,摩尔线程以“算力进化,精度革命”为主题举办技术分享会,并创新性提出“AI工厂”理念。摩尔线程创始人兼CEO张建中在主题演讲中提到,展望下一个五年,有很多趋势已经开始显现了,其中一个是Agentic AI的爆发。让Agent用某一个模型去执行某一个任务,只要执行得好,更多的Agent就可以为某一项事情服务,每个人可以雇无穷多的AI Agent为自己干活。以后小公司可能不是一个公司,也许就是只有一个人的公司,也可以雇很多“数字员工”。
而Agentic AI的爆发鑫耀证券,就意味着后期对算力基础设施的需求会是一个爆发性的增长,因为一切Agent都是建立在AI的基础设施上。
张建中谈到,当下这个时代处在生成式AI的爆发和Agentic AI的交替之间,但其实,大模型的发展也非常卷,有的公司刚开始投身于AI大模型的开发,训练模型但风险很大。因为大模型的提升实在是太快了。与此同时,DeepSeek出来后,国外公司就很难“躺平”了,OpenAI就要开始推出O3,Gemini也是一样,最夸张的是特斯拉创始人马斯克,将Grok 4直接飙到世界第一了。马斯克有一个秘诀:就是买了20万张GPU卡,可以卷到世界第一,用很少的人力、但用很大的财力和很强大的算力。
“今天的模型竞争已经不再是大语言模型,比的是多模态和世界模型,甚至于具身智能使用的各种不同的三维空间里的模拟仿真。它需要的是运行和支持一切模型的基础设施,我称之为大型人工智能计算基础设施,越大越好。”张建忠说,但是建设一个大型基础设施是很难的,最难做的就是芯片工厂。当下,光刻机可以做5纳米甚至是3纳米,而有更好的EUV光刻机精度就会更高一些。
然而,再想突破3纳米甚至1纳米,这就突破了当前的物理极限,需要在软件、硬件、流程、工艺、质量、方法、监控、管理等一系列手段来提升能力。张建忠说,当下的“AI Foundry”(AI 工厂)也是一样的,不是买一万张卡堆在一起就可以训练出一个万亿参数的大模型,这个难度系数远远超过芯片工厂。要想训练一个千亿参数的大模型,至少要算力足够高、效率足够高,才可以成为有效算力。整个流程必须是高效率、高能量、高产出的一套方式方法。“AI工厂”核心就是算力芯片,没有好的算力芯片,算力不够高,性能不够强,效率不够好,一切就无从谈起。除此之外,网络拓扑、片间互联、卡与卡之间的互联、节点与节点之间的互联,整个大的集群管理、效率、方式方法、算法、Driver以及各种各样不同的工具,各种不同的库、框架等等一系列工具,这些决定了“AI工厂”的能力。
尽管“AI工厂”可以扩展,但张建中指出,一开始可能1000张卡针对千亿参数的大模型,当到一万张卡的时候,能力就不一样了,需要重新搭建物理拓扑结构、管理方式、集群系统,所有的任务调度以及各种不同的算子和效率需要重新开发和提升。产能、良率、时间,都是衡量“AI工厂”的核心竞争力。
摩尔线程如何打造先进的“AI工厂”?张建中说,将从五大因素入手,首先是通用性,即打造全功能GPU,不仅要能算,精度还要全,摩尔线程是国内极少数具备FP8大模型训练的平台。把训练和推理集成在一起,除了有各种不同精度之外,FP8的能力非常重要。训练、推理、科学计算、工业智能、具身智能、自动驾驶、物理世界仿真、游戏、AI智能体、AIGC等等都可以在全功能GPU上实现。
其次是自研MUSA架构。芯片的能力和算力决定了“AI工厂” 的核心竞争力。一个全功能GPU的芯片,核心是如何把芯片设计出来,而一个好的体系结构就好比一栋建筑的设计师一样,MUSA比不仅考虑今天的计算,还考虑明天的计算,计算、通信、存储、指令集之间的相互交接、相互协调、相互调度的功能,在顶层设计中完整考虑进去。
第三是通信,芯片除了计算、存储,还有非常重要是通信。当一个人要做三件事情的时候,就会越来越忙,工作越来越乱,要高效集成所有的存储、通信和计算,那就需要在芯片架构设计里两不耽误,摩尔线程独创了ACE(异步通信引擎),加速通信效率。
第四是自研KUAE大规模集群,优化集群效率。张建中提到,开发者最重要的,不光是性能做得好,关键得有工具开发得好。为了服务广大开发者,摩尔线程做了一套完整的软件开发套件,相当于“大宝箱”“百宝箱”。摩尔线程还自研了一套夸娥(KUAE)计算集群,其中一系列的计算集群、软件平台、管理系统、优化系统以及维护和服务的一系列的流程,满足的“AI工厂”使用。
第五是零中断容错技术,提升集群的稳定性和可靠性。特别在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力。摩尔线程创新推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。
南方+记者 郜小平鑫耀证券
广瑞网提示:文章来自网络,不代表本站观点。