当前位置: 首页> 能源互联网> 产经信息

首个国产单池万卡液冷算力集群投入运营 满足万亿级大模型训练需求

IT时报 发布时间:2024-03-25 10:15:28

  3月22日,中国电信宣布,天翼云上海临港国产万卡算力池正式启用,人工智能研究院、上海稀宇科技(MiniMax)、百川智能、思必驰科技等八家人工智能研究机构和企业作为首批用户入驻。

  就在三天前,3月19日,上海市发展和改革委员会等部门联合印发《上海市新型基础设施建设项目贴息管理指导意见(2024年版)》(以下简称《指导意见》),鼓励合作银行建立上海市新基建优惠利率信贷资金,总规模达到1000亿元以上,重点支持新网络、新算力、新数据、新设施、新终端五大领域,由此可见上海对于加快新型基础设施建设,推动新质生产力发展的迫切。

算力集群

  作为上海“新算力”建设的重要一极,中国电信在接应上海市政府要求,加速建成多元供给、云边协同、随需调度、高效绿色的城市高性能算力网络体系上跑出了加速度。

  此次正式投产运营的算力池,是国内首个投入正式运营的国产单池万卡液冷算力集群,也是业内领先的全国产化云智一体公共智算中心。

  “理论上,集群规模越大,大模型训练的速度就越快。”首批入驻企业思必驰科技联合创始人、首席科学家俞凯告诉《IT时报》记者,中国电信国产万卡算力集群的推出,有助于解决国产大模型企业的可持续发展问题。

  发布会现场,上海市副市长陈杰与中国电信副总经理唐珂共同点亮算力池。上海市政府副秘书长庄木弟、中国电信市场部总经理陈文俊、上海电信总经理龚勃、上海市发改委副主任裘文进、上海市通管局副局长贺丰、天翼云公司副总经理黄洪波、上海电信副总经理陈志宏、上海电信资深经理张慷出席会议,上海电信总经理助理龚豪与合作伙伴签署入驻协议。

单池万卡支持万亿大模型训练

  全球人工智能发展正在进入“深水区”。

  随着生成式AI的迭代和发展,大模型规模正以惊人的速度扩展,万亿参数级别几乎成为通用大模型的标配,然而算力需求量大、利用率低、成本压力大、模型构建难度提升、模型行业落地复杂,成为大模型开发应用面临的一系列挑战。

  不久前举行的全国两会上,《政府工作报告》提出要“适度超前建设数字基础设施,加快形成全国一体化算力体系”。

  作为央企和国云平台的构建者,中国电信早在三年前便超前布局,在临港新片区成立临港算力(上海)科技有限公司,加速临港算力中心建设,为长三角提供更加优质、更加普惠的智算公共服务。

  如今,成果已初现。

  国内最大的国产单池液冷万卡算力集群正式在上海临港智算园区交付,并投入商业运营。

  据《IT时报》了解,此次启用的天翼云上海临港国产单池万卡液冷算力集群创新性地采用网络中置、算力分层的“魔方”型,实现了单一集群内万卡高速互联,可以满足万亿级参数大模型训练所需的多机多卡并行、高吞吐无损通信等需求。

  同时,为了实现绿色低碳的目标,全面采用融合液冷服务和IDC基础设施的新一代智算液冷DC舱,实现了数据中心的能效和智算集群的算效双提升,为“人工智能+”提供智能、弹性的绿色算力。

 “新国货” 新算力

  提升算力自主创新能力,实现国产算力技术和能力突破,建立云网协同的高性能算力基础设施,是“新算力”的核心基石。

  这次中国电信拿出的“新算力”,是妥妥的“新国货”。在天翼云临港国产算力池里,除硬件全部采用国产芯片和设备外,智算云的操作系统、智算服务平台和算力网络等方面,也都实现了全栈自研。

  黄洪波介绍,此次投入运营的公共智算中心以中国电信天翼云自研TeleCloudOS 4.0为底座,承载天翼云算力分发网络平台“息壤”、智算基础设施平台“云骁”、一站式智算服务平台“慧聚”,构建算力聚合分发的新模式,实现全栈能力自主可控、安全可信,可为大模型企业提供从算力供给、算力输送、算力调度到模型训练及推理应用的一站式服务。

  其中,“云骁”支持多种国产芯片及上层框架,可以对万卡规模智算集群进行纳管,实现超大规模集群稳定运行;“息壤”算力网络则可以将零散的通算、智算和超算算力统一分配调度,目前已纳管上海多家智算厂商,为上海本地企业提供普惠的智算调度服务。

  “在算力方面,国产大模型企业面临两个挑战,第一是有没有,第二是用不用得起,我们希望中国电信打造的国产万卡算力池和公共智算云服务,能帮我们解决第一个问题。”俞凯告诉记者,期待与算力租赁相关的补贴配套政策能陆续出台,从而降低算力成本。

  赋能大模型全产业链

  此次发布会上,有八家合作伙伴作为首批用户入驻临港国产算力池,其中既有通用语言大模型公司百川智能、上海稀宇科技、思必驰科技、天壤智能,也有深耕金融领域的行业大模型金声玉亮、国内领先的企业级AI-Agent平台公司澜码科技、AI创新生物制药公司赛陇生物,以及承担上海市人工智能研发与转化培育建设重任的上海人工智能研究院,基本覆盖基础层、技术层、应用层等人工智能完整产业链。

  作为国内开展对话式人工智能技术研发的领军企业,思必驰2022年获批建设“语言计算国家新一代人工智能开放创新平台”,该公司自研的行业语言大模型DFM-2,通过了《生成式人工智能服务管理暂行办法》和《中国境内深度合成服务算法》两个备案。

  据了解,DFM-2已在临港国产算力池完成初步适配,实测结果显示,迁移后集群训练效率与原集群基本可对标,通过配套高效的RDMA网络,以及亚毫秒时延的并行文件存储,算力得到了有效释放。

  随着“人工智能+”首次被写入政府工作报告,AI产业机遇正在加速涌现。根据《上海市人工智能产业发展“十四五”规划》,到2025年,上海将基本建成具有国际影响力的人工智能产业创新发展高地,人工智能规上产业规模年均增长12%以上,达到4000亿元。

  2月19日,国务院国资委召开“AI赋能产业焕新”中央企业人工智能专题推进会,会议强调,中央企业要把发展人工智能放在全局工作中统筹谋划,加快建设一批智能算力中心,开展AI+专项行动。

  在中国电信的智算中心布局中,上海是重要的核心枢纽节点之一,或将持续迎来算力建设高潮。


评论

用户名: 匿名发表
密码:
验证码:
最新评论 0
Baidu
map