解耦——盘古大模型 3.0 来得晚,但瞄得准。
今天,华为在大模型领域狠狠秀了一把「肌肉」。
7 月 7 日,2023 华为开发者大会(HDC 2023)开幕。下午两个多小时的主题演讲里,华为云首次详细披露了盘古大模型的进展,不仅发布面向行业的盘古大模型 3.0,还详细介绍了华为发展大模型的基础技术能力。
盘古大模型 3.0 包括「5+N+X」三层架构,三层分别指 L0 层的 5 个基础大模型、L1 层的 N 个行业通用大模型、以及 L2 层可以让用户自主训练的更多细化场景模型。其采用完全的分层解耦设计,企业用户可以基于自己的业务需要选择适合的大模型开发、升级或精调,从而适配千行百业多变的需求。
华为轮值董事长胡厚崑在日前的 WAIC 大会上表示,华为发展大模型的核心是关注算力和应用。一方面是深耕算力,打造强有力的算力底座,来支撑中国的人工智能事业的发展。另一方面就是结合大模型,从通用大模型到行业大模型的研究创新,来真正让人工智能服务好千行百业,服务好科学研究。
华为是国内最早布局大模型的云服务商之一,早在 2021 年就已经发布了盘古大模型。在发展大模型的道路上,华为从最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等技术能力。
除了大模型和算力底座,会上,华为云还重点介绍了盘古大模型与具体行业结合的典型案例,涉及的行业包括政务、气象、铁路、制造、金融,以及多个升级、重塑华为云旗下软件产品和服务的应用案例。
不论是基础的技术能力,AI + 云的产品服务体系,还是落到具体行业的应用案例,华为云均展示出了高度成熟、成体系化的业务能力,这着实给行业带来惊喜。在大家还在争论谁是中国的 OpenAI 时,华为云已经开辟出了一条相当成熟的大模型发展道路。
华为在用自己的实践证明,大模型很重要,但更重要的是用大模型解决行业和产品的痛点问题,做出能让企业和用户买单的产品和服务,为千行百业真正创造价值。
01
盘古大模型 3.0:
分层解耦架构
解耦,是今天发布的盘古大模型 3.0 的关键词。这也是过去几个月来,实际调用大模型的行业客户一个普遍的诉求。
一位头部 SaaS 厂商在发布自己的大模型升级应用时表示,「我们不自研大模型,而是在不同的业务场景中,哪个大模型擅长什么事情,就接那个模型。」为了可以在不同的大模型之间切换,「我们自身产品架构上要做到与底层大模型无关,或者说松耦合。」
「盘古大模型的解耦设计,就是为行业着想」,在华为开发者大会上,华为常务董事、华为云 CEO 张平安给出了盘古大模型的差异化路线。其核心是把盘古大模型的的各种层和能力解耦,让行业用户根据自己的需求去开发。
具体来说,盘古大模型 3.0 是一个面向行业的大模型系列,包括「5+N+X」三层架构:
「5」代表 L0 层的五个基础大模型:包括自然语言、视觉、多模态、预测、科学计算大模型,提供满足行业场景中的多种技能需求。
盘古 3.0 为客户提供 100 亿参数、380 亿参数、710 参数和 1000 亿参数的系列化基础大模型,匹配客户不同场景、不同时延、不同响应速度的行业多样化需求。同时提供全新能力集,包括 NLP 大模型的知识问答、文案生成、代码生成,以及多模态大模型的图像生成、图像理解等能力,这些技能都可以供客户和伙伴企业直接调用。无论多大参数规模的大模型,盘古提供一致的能力集。
「5+N+X」三层架构中的「N」,代表 L1 层的 N 个行业大模型。行业大模型的提供方式有两种:一方面,华为云可以提供使用行业公开数据训练的行业通用大模型,包括政务,金融,制造,矿山,气象等大模型;另一方面,可以基于行业客户的自有数据,在盘古大模型的 L0 和 L1 层上,为客户训练自己的专有大模型。
张平安表示:「盘古一出生就是为行业服务,提供了多种大模型的部署、开发和推理形态,可以像华为生成盘古大模型一样,生成自己的行业大模型,只需要输入自己的私有数据。」并且,训练数据也和大模型解耦。
「5+N+X」中的 X,则代表 L2 层为客户提供了更多细化场景的模型,更加专注于政务热线、网点助手、先导药物筛选、传送带异物检测、台风路径预测等具体行业应用或特定业务场景,为客户提供「开箱即用」的模型服务。
通过「5+N+X」的这三层大模型,华为云构建了自己的大模型底座。
在昨天的世界人工智能大会上,华为轮值董事长胡厚崑形象地阐述道:「最基层对标的是通用大模型,我们叫做基础大模型。这层我们形象的叫做读万卷书,就是要做好海量的基础知识的学习。这一层之上还打造了行业模型和场景模型,叫做行万里路。从读万卷书到行万里路还有很多的挑战要克服,很关键的一点就是要把各行各业的知识与大模型进行充分的匹配和融合,华为正在和各个行业的伙伴一起进行努力。」
此外,大模型的创新不仅仅是模型自身的创新,更依赖于 AI 的各项根技术创新。会上,华为诺亚方舟实验室主任姚骏介绍了盘古大模型的技术底座。
华为在最底层构建了以鲲鹏和昇腾为基础的 AI 算力云平台,以及异构计算架构 CANN、全场景 AI 框架昇思 MindSpore,AI 开发生产线 ModelArts 等,为大模型开发和运行提供分布式并行加速,算子和编译优化、集群级通信优化等关键能力。基于华为的 AI 根技术,大模型训练效能可以调优到业界主流 GPU 的 1.1 倍。
算力是训练大模型的基础。在本次大会上,张平安宣布单集群 2000P Flops 算力的昇腾 AI 云服务在华为云的乌兰察布和贵安 AI 算力中心同时上线。昇腾 AI 云服务除了支持华为全场景 AI 框架昇思 MindSpore 外,还支持 Pytorch、Tensorflow 等主流 AI 框架。
同时,这些框架中 90% 的算子,都可以通过华为端到端的迁移工具平滑迁移到昇腾平台。例如,美图仅用 30 天就将 70 个模型迁移到了昇腾,同时华为云和美图团队一起进行了 30 多个算子的优化以及流程的并行加速,AI 性能较原有方案提升了 30%。
此外,在大模型训练过程中经常会遇到 GPU 故障,研发人员不得不经常重启训练,时间长,代价大。昇腾 AI 云服务可以提供更长稳的 AI 算力服务,千卡训练 30 天长稳率达到 90%,断点恢复时长不超过 10 分钟。
02
赋能千行百业
任正非此前曾表示,「人工智能软件平台公司对人类社会的直接贡献可能不到 2%,98% 都是对工业社会、农业社会的促进。但是应用平台不是我们的选项,我们会做 AI 的底层算力平台。」
让大模型走进千行百业,已经成为华为发展大模型的工作重心。会上,华为云介绍了盘古大模型在政务、铁路、气象、金融等七个领域的应用案例。
政务
在政务领域,华为云携手深圳市福田区政务服务数据管理局,上线了基于盘古政务大模型的福田政务智慧助手小福,能够精准理解民众咨询意图,改变传统的一网通办模式。通过对超过 20 万条政务数据进行精调,包括 12345 热线、政策文件、政务百科等,政务助手掌握了丰富的法律法规、办事流程等行业知识。
华为云介绍,盘古政务大模型的核心,是认知能力。让城市公共系统从看得见到看得懂,完成从感知,到认知、处置的闭环。并根据不同场景,提供问答、文案生成、视频感知、多模态理解等不同的能力。
华为云介绍了两个典型场景:首先是一个咨询场景,企业用户向政务助手咨询相关的投资扶持政策,政务助手可以介绍相关的法规政策,并为咨询者提供适当的建议;第二个场景,如上图所示,是一个基于对话和多模态能力的政务处理场景,工作人员可以根据摄像头拍摄的图片,智能分析图片中的违规情况。
铁路
在铁路领域,华为展示了货车检测助手的应用案例。
传统列检员每天要检测数百万张列车图片,检测铁路网络运行的货车是否存在故障问题。引入盘古大模型后,可以精准识别现网运行的 67 种货车、430 多种故障,无故障图片筛除率高达 95%。换言之,列检员只需要检测过去 1/20 的列车图片,相当于提高了 20 倍的工作效率。
煤矿
在煤矿领域,盘古矿山大模型已经在全国 8 个矿井规模使用,一个大模型可以覆盖煤矿的采、掘、机、运、通、洗选等业务流程下的 1000 多个细分场景,让更多的煤矿工人能够在地面上作业,不仅能让煤矿工人的工作环境更加舒适,而且可以极大地减少安全事故。
气象
气象领域是华为云发布会上介绍的重点,就在几天前,盘古气象大模型的研究成果发表在国外顶级期刊《Nature》,被审稿人评价为:让我们重新审视气象预测的未来。
原来预测一个台风未来 10 天的路径,需要在 3000 台服务器的高性能计算机集群上花费 5 小时进行仿真。现在基于预训练的盘古气象大模型,通过 AI 推理的方式,研究者只需单台服务器上单卡配置,10 秒内就可以获得更精确的预测结果。
目前,盘古气象大模型可以用于预测海浪、高温、台风、寒潮等气象,相比传统的气象预测速度更快、准确率也更高。此前盘古和气象局合作,提前 10 天预测了「玛娃」的路径。此外,盘古也提前两天预测到了芬兰寒潮到来,相比欧洲气象局的预测。盘古的预测也更接近真实气温,
金融
在金融领域,盘古大模型与工商银行合作,打造了一系列探索性的应用。
其中一个典型的场景是提高银行柜员的工作效率。工行在全国有数万个网点,20 万网点柜员。他们需要在各种业务间切换,这会浪费大量的时间。
盘古金融大模型对银行的各种操作、政策、案例文档进行预训练,能根据客户的问题,为柜台工作人员自动生成流程和操作指导,将原来需要平均 5 次的操作降低为 1 次,办结时间缩短 5 分钟以上。
而这只是最初级的应用,华为正在与金融行业探索,未来将大模型运用到信贷分析等更多的金融场景。
制造业
华为本身也是一家制造企业,其生产制造的硬件产品,涉及通信基站、手机、汽车、芯片等多个领域。基于过去积累的经验,华为将盘古大模型引入到生产制造领域。
过去单产线制定器件分配计划,往往要花费 3 个小时以上才能做齐 1 天的生产计划。盘古制造大模型学习了华为产线上各种器件数据、业务流程及规则以后,能够对业务需求进行准确的意图理解,并调用天筹 AI 求解器插件,1 分钟即可做出未来 3 天的生产计划。
药物研发
在药物研发领域,原来一款新药研发平均需要 10 年时间、花费 10 亿美金。盘古药物分子大模型助力西安交通大学第一附属医院刘冰教授团队发现全球 40 年来首个新靶点、新类别的抗生素,并将先导药物研发周期缩短至 1 个月、研发成本降低 70%。
03
大模型融入华为云产品体系
除了在千行百业的落地实践,华为云盘古大模型也深度融入了华为云的产品服务,重构产品创新。
盘古大模型+华为云服务
盘古大模型加持下,华为云一系列 B 端产品服务被升级重构。会上,华为云介绍了资料服务、云客服、BI、云搜索四项服务升级的细节。
- 在资料服务中,通过盘古大模型的文案生成和代码生成技术,能够提升资料撰写和前端代码编写效率,将新产品上市周期大为缩短。
- 在云客服,通过嵌入行业知识库和意图挖掘能力的对话问答,实现全流程 AI 优先作答,提升客服工作效率 30%。
- 在 BI,通过 NL2SQL 和 AutoGraph 智能路由,实现 SQL 到可视化图表的自动推荐,通过多轮自然语言交互,让人人都能便捷地从数据中洞察业务细节。
- 在云搜索,通过多模态 Embedding 和 NL2API 技术,实现视频、文本、图谱等广泛场景搜索,借助强大的语义理解和泛化能力,让搜索准确率提高 15%。
盘古大模型+CodeArts 代码工具
华为云将 CodeArts 研发工具与盘古大模型相结合,正式发布了面向开发者的智能编程助手 CodeArts Snap。
该工具训练了 760 亿行精选代码、1300 万篇技术文档,具备智能生成、智能问答、智能协同三大核心功能,可以实现一句对话让代码生成、一次点击即可自动注释和生成测试用例,一条指令即可智能部署,让每个软件开发者都有自己的编程助手。
盘古大模型+数字人
华为云通过盘古基础大模型赋能 MetaStudio 数字内容生产线,打造了盘古数字人大模型,提供模型生成和模型驱动两大服务,并已经使用了 20 万小时音视频数据进行了预训练。
基于这两大服务,开发者可以快速生成和驱动数字人模型,赋能在线教育、文娱直播、企业会议等行业应用,让每个企业员工实现「数字人自由」。例如,用户只需在华为云 MetaStudio 的服务页面上传 20 秒的个人视频,就可以快速生成个性化的数字人讲解视频,过去 3 个研发人员 3 天完成的工作,现在只需要 3 分钟就可以完成。
盘古大模型+具身智能
会上,华为云还提到了盘古大模型在机器人领域的应用,并演示了一段视频。
过去向机器人下命令需要开发者进行编程,而基于盘古大模型的自然语言理解能力,机器人可以识别自然语言,执行命令,并具备全域感知引导的自主智能。会上,华为演示了一段视频,用户不需要输入程序命令,只需要用自然语言向机器人下令,机器人就可以完成拿取物品等命令,过程中会根据所处的环境情况作出自主判断(比如移开挡住目标物体的杂物),从而完成任务。
华为介绍,上述演示并非概念视频,而是来自真实的产品,并在 HDC 大会期间在会场展出。
04
总结和思考:
华为能成 AI 另一极吗?
张平安表示,「为了帮助全球客户、伙伴、开发者训练和使用大模型,我们致力于为全球客户打造世界 AI 另一极,为所有 AI 开发者提供新的选择」。
甚至更早之前,早在今年 3 月,任正非就曾在公司内部表达过相似的意思。他表示 AI 大模型上会风起云涌,不只是微软一家。任正非的理由,其实也是今天华为云努力的方向,即人工智能软件平台公司对人类社会的直接贡献可能不到 2%,98% 都是对工业社会、农业社会的促进。
比如在中国、德国的工厂,都在推进人工智能对工业的促进,从而实现无人化的生产;比如天津港口的码头,货物装卸也试了无人化,代码一输入,从船上自动把集装箱搬运过来,然后用汽车运走;比如山西的煤矿,在地下采用 5G+人工智能后,人员减少了 60-70%,大多数人在地面的控制室穿西装工作。
这些都是过去数年 AI 已经大规模运用到产业侧的实例,这些产业的共同点是有庞大的规模和产值,一点点效率的提升都能带来巨大的收益。
而大模型的出现,实质上是提供了更加高效的生产力工具。一方面,对于这些原本已经在拥抱 AI 的产业,意味着更高的效率和更快的改造进程;而效率更高,也意味着对更多行业来说,更容易算好「经济账」,AI 有潜力从变革所谓几大行业,变成改造千行百业。
这是华为为什么要坚决走进产业的原因,实际上阿里云、腾讯云、火山云和百度云等国内主要的云服务大厂,也是相近的思路。而方向一致、起点接近的情况下,在这场竞赛中谁能跑的最快,比拼的就是从算力、大模型底座、平台、产品到具体解决方案的全链条能力。
因为众所周知的原因,华为拿不到当下公认的全球最先进的计算芯片,看起来在这场竞赛中先天不足。但从今天的发布会来看,华为完全看不到受上游掣肘而落后于人,在大模型的关键链条上,都拿出了成熟的产品、案例,解耦化的盘古大模型架构更是让人眼前一亮。事实上,考虑到今天国产化的需求,在算力上不落后于人的华为,被卡脖子的劣势,很可能变成自主可控的优势。
大模型成为华为的新机遇,看起来正在成为现实。