腾讯、红杉投资的无问芯穹，公布首个大模型算力平台-比特币之家

文章来源：钛媒体

图片来源：由无界AI生成

钛媒体App获悉，3月31日上午，腾讯、百度投资的国内大模型领域AI Infra公司无问芯穹在上海发布无穹Infini-AI大模型开发与服务平台。

无问芯穹表示，Infini-AI大模型开发与服务平台包括一站式AI平台，以及兼容infini-megrez、Llama、ChatGLM等多个模型的大模型开发平台，利用GPU推理和加速技术，提供大模型开发、训练、运行、应用的完整工具链。

清华大学电子工程系教授兼系主任，国家自然科学基金杰青、无问芯穹发起人汪玉教授早前表示，“现在大家都在做各种各样的非常厉害的芯片，但是，但怎样去把模型更好的部署在这些芯片上，让做应用开发等领域人员不会花费额外的代价，其实会极大推动大模型研发。无问芯穹就是想要推动大模型技术设施发展进入各行各业。”

图片来源：钛媒体App编辑拍摄

无问芯穹创始人、CEO夏立雪透露，大模型服务平台于3月31日起开启免费公测，给所有实名注册的个人和企业用户提供百亿tokens免费配额。一站式AI平台于4月1日-4月30日限时免费试用。

腾讯、红杉投资的无问芯穹，公布首个大模型算力平台

据悉，无问芯穹（Infinigence AI）成立于2023年5月，是一家专注于为 AI 2.0时代提供完整解决方案的科技公司。

投融资层面，截至目前，无问芯穹并未公开融资，但工商信息显示，腾讯、百度、红杉中国、启明创投、同歌创投、智谱AI、真格基金、光源资本、绿洲资本、经纬创投、华控电科、北极光创投、金沙江创投、徐汇资本、南山资本等机构均有投资入股无问芯穹。

无问芯穹创始团队来自清华大学电子工程系，致力于成为大模型落地过程中的"M×N"中间层，以打造大模型软硬件一体化方案，链接上下游，建立AGI（通用人工智能）时代大模型基础设施。

腾讯、红杉投资的无问芯穹，公布首个大模型算力平台

无问芯穹发起人是汪玉教授。1982年出生的汪玉，本科、硕士、博士均在清华大学，2007年汪玉选择留校任教，是目前清华大学最年轻的系主任。同时，清华大学电子工程系也是国内半导体产业的“黄埔军校”，包括燧原科技创始人兼CEO赵立东，现任清华大学校长、党委副书记王希勤等人都毕业于该专业。

2016年1月，以汪玉教授为负责人的深度学习处理器项目，通过清华大学电子信息学院论证并获得支持。随后，项目团队以知识产权转化入股、创立AI芯片公司深鉴科技，进行产业化运营。其学生姚颂、单羿是深鉴科技创始成员，投资方包括高榕资本、金沙江创投、三星风投等机构。2018年，深鉴科技被全球最大的FPGA厂商赛灵思收购，随后赛灵思也被美国芯片巨头AMD公司所收购。如今的无问芯穹，或属于汪玉的“二次创业”。

无问芯穹联合创始人、CEO夏立雪博士则是汪玉的学生，于2018年在清华大学电子工程系获得工学博士学位，于2013年在清华大学电子工程系获得工学学士学位。此外，他还于2017年1月至6月赴杜克大学进行为期半年的访问学者。夏立雪的研究内容为深度学习算法的硬件设计优化，关注层次主要包括算法层的模型压缩、软件层的算法编译优化、以及面向新兴存储计算元件RRAM的深度学习计算平台体系结构和容错方法研究等。

无问芯穹联合创始人、CTO颜深根是中科院博士，北卡州立大学访问学者，曾任商汤科技数据与计算平台部执行研究总监、北京大学-商汤科技联合实验室副主任，曾带领上百人优秀团队帮助商汤开发包括SenseParrots在内的多个原创AI系统，建立了接近2万片GPU的超大规模高性能AI计算平台。

无问芯穹联合创始人兼首席科学家戴国浩，目前是上海交通大学长聘教轨副教授，CCC（清源研究院定制计算中心）Co-PI，DAI Group（人工智能设计自动化创新实验室）负责人。戴国浩同为清华校友，分别于2014年和2019年取得清华电子工程系工学学士和博士学位。汪玉为其博士毕业论文指导老师。其主要研究方向是大规模稀疏图计算、异构硬件计算、新兴硬件架构等，毕业后，他曾为汪玉研究团队的助理研究员，后于2022年加入上海交大任副教授，方向为稀疏计算、AI 电路与系统等。

2023年，以ChatGPT为代表的 AI 大模型风靡全球，AI 2.0时代正在到来，而算力训练成本高、难以统一高效部署算力设施等，依然是大模型发展制约因素。

汪玉曾表示，大模型的涌现给 AI 、自动驾驶、科学计算以及机器人等领域都带来了显著的促进作用，但当下，大模型落地面临诸多挑战，算力供需平衡、大模型应用降本需要软硬一体协同优化的AI生态。

“从个人的角度来看，当前大模型主要面临三个方面的挑战：第一，大模型面临的算力限制；第二，当前推理和包括训练在内的成本相当高，这是创业者和大公司普遍面临的挑战；第三，面对独特的算法和多元硬件的生态，如何更有效地推动这个生态的发展，也是当前面临的一个重要挑战。”汪玉表示。

汪玉曾透露，训练GPT-4时需要使用到2.4万张A100 GPU。而以不同类型的模型和用户数来计算（推理阶段），在自建算力集群的情况下，每天的费用可能达到690万。如果使用现有的API运营，费用可能更高。而假设GPT-4 Turbo每天要为10亿活跃用户提供服务，每年的算力成本可能超过2000亿元。

夏立雪博士曾表示，算力不足仍然是制约通用人工智能发展的重要因素。GPU Utils的一份数据显示，全球目前 H100 等效算力的供给缺口达到 43 万张。在解决算力不足的问题上，除了抢购和囤积英伟达，更多的方案正在浮出水面。

去年7月的一场演讲中，汪玉表示，无问芯穹是面向大模型的MxN软硬件联合优化中间层的平台，利用其平台设施，推理成本、微调成本、人力成本均有望降低10倍以上，同时文本长度也会增加10倍以上。

腾讯、红杉投资的无问芯穹，公布首个大模型算力平台

简单来说，无问芯穹做的任务属于AI infra技术，M层是大模型，N层是A100/H800等国内外服务器硬件，通过算子优化、自动编译、不同芯片耦合等技术一键部署模型。

“在芯片制造方面，我们面临着算力密度的限制。目前大家正在讨论的是1Tops/Watt的设计，即每瓦特能够提供1T次运算（人脑的功耗大约为20瓦）。未来在某些任务上，我们需要硬件去达到每瓦特1000Tops/Watt的指标。那么如何通过芯片实现1Tops/Watt，甚至几百T或几千Tops/Watt呢？过去几年中，计算芯片通过尺寸微缩的红利实现了各种各样的专用处理器。现在，我们开始关注近存储计算和存内计算，因为数据搬运相比数据计算更耗电，搬运数据（带宽）变得更加复杂。进一步地，我们也在研究是否可以不使用硅基芯片、微电子，而是采用光电子来制造芯片，这是业内关注的一系列研究方向。另一方面，大模型的发展需要极高的互联带宽，根据实验室理论计算，GPT-3所需的互联带宽为1380TB/s，而一张英伟达的卡自带的600GB/s互联带宽与这一需求之间存在显著差距。这也是为什么需要将许多这样的卡连接在一起，才能完成对这一模型的训练。目前，计算性能的提升速度超过了带宽的增速，尤其在多元互联的应用场景中，如何有效地将机器连接起来是一项相当复杂的任务。我们也在思考，创建一种相对统一的中间层，以支持长文本、实现更高的性价比，同时实现一键部署。并且在这个中间层中，纳入一些工具，以协助算法和应用的开发，比如整合算法压缩、算子优化以及自动编译等功能。通过这样的中间层，有望更好地匹配M个大型模型和N个硬件，从而实现更加灵活的部署。”汪玉曾表示。

所谓AI Infra，是指构建 AI 所需的基础设施，涵盖连接算力和应用的 AI 中间层基础设施，包括数据准备、模型训练、模型部署和应用整合等环节。它不仅与算力相关，还包括大数据层面的优化。AI Infra 包括 AI 基础框架技术，涉及大模型训练、部署领域的各种底层设施，以及基础软件栈等核心组成部分，主要目标是优化算力算法、促进应用落地。而AI Infra 在 AI 行业中扮演着连接硬件、软件和应用的关键角色，促进了 AI 技术的发展和应用。

腾讯、红杉投资的无问芯穹，公布首个大模型算力平台

2023年11月，无问芯穹联合清华大学、上海交通大学团队在Arxiv上发表了一篇论文，提出了一种新方法 FlashDecoding++，通过异步方法实现注意力计算的真正并行，可以将GPU推理速度提高2倍-4倍（200%-400%），在英伟达A100显卡上的推理平均加速37%，以及同时支持英伟达和 AMD 的GPU产品。

另外，无问芯穹还自主研发70亿参数大语言模型“无问天权”——infini-megrez-7b，支持英伟达和AMD的GPU，以及无问芯穹自研高效推理引擎等。

据称，目前无穹Infini-AI平台已支持了Baichuan2、ChatGLM3、Llama2、Qwen系列等共20多个模型，以及AMD、壁仞、寒武纪、燧原、天数智芯、沐曦、摩尔线程、NVIDIA等10余种计算卡，支持多模型与多芯片之间的软硬件联合优化和统一部署。

针对此次公布的一站式AI平台和大模型服务平台，钛媒体App也进行了测试和体验。

我们观察到，从推理侧来说，大模型服务平台的chat速度还是比较快的，同时也支持多个大模型、多款服务器同时进行推理应用。但截至目前，钛媒体App测试的基于无穹Infini-AI平台的infini-megrez-7b和ChatGLM3模型，均不能提供汪玉教授准确的个人信息反馈，说明其知识体系无法实时更新，数据和模型能力仍需要加强。

腾讯、红杉投资的无问芯穹，公布首个大模型算力平台

钛媒体App还获悉，今天会议上，无问芯穹宣布将与智谱 AI 合作构建大模型训推万卡集群，并且与摩尔线程就MTT S4000千卡集群达成协议。

戴国浩透露，其团队于今年1月初研发出全球首个基于FPGA（现场可编程逻辑门阵列）的大模型处理器，通过大模型高效压缩的软硬件协同优化技术，使得LLaMA2-7B模型的FPGA部署成本从4块卡减少至1块卡，并且性价比与能效比均高于同等工艺GPU，即展示“一张卡跑大模型”。戴国浩称其为无穹LPU，预计将于2025年发布。（注：此前第四范式也公布了类似的FPGA的模型算力加速技术）

圆桌会议上，鸿博股份副总裁、英博数科科技有限公司CEO周韡韡博士表示，“若算力不自由，则数据无意义。关于AGI，关于未来，我们有太多美好的憧憬，但眼下最实在的是先让可满足通用型LLM的同构大型智算集群跑起来，再让国内团队在复现和追赶世界水平的同时，兼顾繁荣国产自主可控AGI生态发展。”

（本文首发钛媒体App，作者｜林志佳）

热门资讯