首页 >资讯 > > 正文

【世界时快讯】中科院张家俊:多模态大模型初现“多专多能”,用“紫东太初”探索差异化AGI道路丨GTIC 2023

来源:智东西 2023-04-11 13:02:40

智东西


(资料图片仅供参考)

编辑 | GTIC

智东西4月10日报道,在刚刚落幕的GTIC 2023中国AIGC创新峰会上,中国科学院自动化研究所研究员&博士生导师、武汉人工智能研究院副院长张家俊进行了主题为《紫东太初大模型——认识世界,理解世界》,基于“紫东太初”大模型,他解读了其是如何整合资源、并进一步探索通用人工智能产业化路径的技术奥秘。

张家俊谈道,深度学习预训练大模型效果不断提升。当下,通过自监督学习条件下“大数据+大模型”方式,多模态大模型初现“多专多能”,在小样本学习、自然语言问答、跨模态生成等方面快速进步。大模型带动了创新潮,但其能耗和成本极高,认知能力与人相比仍有很大差距。

“紫东太初”是中科院自动化所团队推出的全球首个千亿参数多模态大模型。张家俊称,这一模型支持Token级别、模态级别与样本级别的多任务自监督学习,多模态弱关联数据在512卡训练128天,同时实现模态理解与模态生成统一建模。“紫东太初”支持以文搜图、以图生音、以音生图等跨模态检索与生成实例,比如输入一个真实图像,紫东太初就能生成个性化的3D形象。

目前,团队已推出了紫东太初开放服务平台1.0、紫东太初·洛神1.0 AIGC智能生成平台,并整合产学研用各方资源搭建人工智能开源开放生态,探索通用人工智能产业化路径。

以下为张家俊的演讲实录:

大家上午好!我是自动化所张家俊。

首先解释一下,我个人从事的是自然语言处理和机器翻译相关的研究。大模型来了之后,实际上从2020年GPT-3出来之后,我就参与了自动化所发起的多模态大模型项目,我主要负责语言这一块。今天我作为一个参与者,跟大家分享一下自动化所大模型相关的情况。

一、大模型正在从单模态有监督,迈向多模态自监督学习

大模型出现之前,基本上模型的能力都是单一的,而且需要依赖于大量的标注数据,而且泛化能力非常差。

大模型来了之后,基于其大的数据、大的模型,很多种比如自然语言处理、语音识别、计算机视觉等任务得到了非常大的改善。我们现在也会发现,模型参数量也在不断提升。我们不知道GPT-4是多少参数量,但肯定是千亿以上,不会比ChatGPT还少。

不管是图像还是文本,单一模态大模型采用的是非常好、非常自然的训练目标,也就是自监督训练,图像我们可以通过重构方式,文本可以通过下一个单词预测的方式。而现实世界是一个多模态环境,在多模态环境当中又该如何去进行训练或者设计它的目标?另一方面,多模态环境下如何从之前的“一专一能”方式过渡到“多专多能”的模型或者框架,现在实际上很多认知能力与我们期待的还很遥远。

正如刚才提到的,一方面从文本到多模态实际有很多挑战,但是我们生活在这样一个多模态的环境当中,所以我们有必要去进行探索。

因此,当2020年GPT-3发布之后,我们就认为多模态必将是一个未来的方向,我们现在也看到GPT-4已经可以处理图文输入和理解输入。

二、 具备部分类脑特性,初现“多专多能”

我们当时在做的时候,就一直在考虑应该如何设计,将不同模态放在一个模型下面进行学习。我们提出了三个层级的多模态训练方式,比如从词源token级别、模态级别与样本级别,我们也提出了语义弱关联多模态学习方式,这样就可以进行多模态理解和跨模态相互生成,进而完成各种各样跨模态的任务,多模态的理解、分类,跨模态的检索,多模态之间的相互转换生成。

这些是可以完成的功能,那么具体来说,我们如何去实现的?

右下角可以看到,它不是像GPT这种的单一解码器(Decorder),我们发现如果你的数据特别多、模型特别大的时候,像GPT-3.5或者GPT-4可以对文本数据和图像数据进行统一融合。

但是当模型没有那么大,我们可能考虑模态之间融合时就需要设计不同的策略。

所以当时我们提出了对不同的模态进行分别编码,同时在上一层设计一个跨模态编码。其余各自的模态比如文本模态、图像模态、语言模态分别有一个解码器。

这样的模式看起来像是一个集成模型,但是它有一个非常好的地方是你可以通过不同的模态进行分别优化,且不影响其他模态的功能。我们针对此做了一些优化,语言方面,我们可以直接优化语言底部的解码器,不影响文本和图像的分辨结果。

多模态的通用模型针对任何任务的处理方式都相同,但实际上不同的任务应该有针对性地去处理。因此我们提出了任务感知的训练方式。如果大家用过ChatGPT就会发现,不同的提示会产生不同的结果。那么,我们能不能针对不同的样本生成合适这个样本的提示?所以我们生成一个样本级的提示学习方式,可以面向特定样本生成适应这个样本的提示。

在语音层面,我们可以只优化语音,例如将语种识别、端点检测各种语音相关的功能融合在一个任务下,同时语音的优化又不影响文本、图像,优化之后可以得到语音方面非常好的结果。

在视觉方面也是一样。例如针对视觉如何进行无监督学习,我们提出了视觉掩码自监督模型,一方面是通过注意力动态掩码保留关键区域,第二步通过解码恢复掩码,和语言里面的BERT非常相似。

经过这样简单的操作之后,我们就可以在很多任务上得到最好的性能,比如在目标检测和实例分割上,就可以超越任务特定的预训练模型精度。

在不同的模态仿真训练中,当模型特别大时,有模态信息,还有大量参数,如何保证它快速、稳定地学习是非常关键的因素。因此,我们在这种学习过程中提出了一些方案,例如基于空间通道稀疏化的多模态大模型,这种方案可以将空间信息和通道信息分割开来,就可以得到优化20%到35%的浮点运算。

此外,在稳定性方面,我们在训练时发现当批处理变得特别大之后,学习率的线性尺度原则就会失效。针对这个问题,我们提出了周期性矩衰减优化的方案。学习率通过逐层动态调整,周期性清零梯度信息,摆脱历史梯度影响,从而加速网络快速收敛。收敛的速度相比之前能提升30倍。

这样的方法一方面可以保证训练的快速,另一方面保证训练的稳定性。

很多时候,当我们在国产化的平台上训练,比如基于昇腾多维混合并行的训练,很多时候我们会和昇思MindSpore共同研发,因为2021年,MindSpore的很多功能没有十分完善,在其对大模型的较好支持下,我们在训练时可以在这个基础上去不断优化算子。

同时,大模型在预训练阶段学习到了很多先验的知识,这些先验的知识对于长尾现象有很多辅助作用,比如可以将其迁移到长尾数据集,可以更容易学习尾部的图像类别特征表述。

经过文本、语音、视觉上的针对性优化之后,我们很多千亿三模态大模型在跨模态检索、视觉问答、图像语义描述等上实现非常好的性能,这些任务在2021年基本达到了State-of-the-art(最高水准的)。

例如在2021年,基于预训练模型的视觉描述竞赛中,紫东太初大模型得到第一名,并且在大规模视频场景理解比赛中也获得第一名。

下图是一些案例,我们训练多模态大模型之后会产生一个什么样的结果。

刚才我们提到不仅有文本、图像,我们知道目前大多数呈现出来的是文生图或图片、文本之间的模型,那么我们把语音加进去,可以直接让没有声音的图片和视频生成语音播报。例如,一个没有声音的图像或者视频可以直接生成一键语音播报。这看起来似乎是直接从图像到文本再到语音,实际上我们跳过了文本环节,直接由图像或者视频生成语音,也可以由语音生成图像,或者由语音生成视频。

以文生图为例,很多模型都有这样的能力,这里简单展示一下我们也有这样的能力,可以生成风格多变的文生图能力。

我们从2020年10月开始做这件事情,2021年7月发布了第一版多模态大模型。2022年,“紫东太初”获得大规模预训练模型优秀应用案例奖,中国算力大会先锋案例奖,以及世界人工智能大会SAIL奖,也是世界人工智能大会的最高奖。

三、打造开放服务平台1.0,一键完成采集、训练、部署

刚才介绍了多模态大模型的研制过程和各个模态针对性的优化,以及优化之后能达到的水平。当达到这个水平之后,我们希望基于此开发一套服务平台,让这样的模型能够服务于千家万户,让多模态模型的利用和部署变得非常简便。

因此,我们依托紫东太初大模型,开发了紫东太初服务平台,现在是1.0阶段。我们希望这个服务平台能够一键完成数据采集、模型训练到模型的部署。这样的话,可以大幅节省人力,从几个月的训练时间缩短到几天、一周的训练时间。

有了智能化的标注平台,用户不仅可以在上面进行标注,而且可以根据模型来不断迭代。有了模型之后,我们可以根据训练模型来发现还需要标注哪些样本,通过这样的主动学习,可以加快数据的标注过程。

为了实现一键微调,开发者可以选择各种各样的开发工具,可以选择主流的开发平台,也可以选择异构资源的统筹,我们可以统筹如昇腾、GPU等各种异构算力,同时可以支持分布式训练,并且训练过程还可以可视化。我们支持可视化建模、交互式建模、自动学习、自定义任务等的可视化。

对于一键部署,这个平台可以覆盖数据的搜集、模型的训练再到模型的部署。实际上就是说,我们可以先导入训练任务,然后再把本地的数据或者相关的信息进行导入,最后选择相关的模型再进行微调,就能得到最终适应用户目标或者任务的应用部署。

并且这一服务平台里有很多语音、文本、图像、视频的算法库,不需要用户进行训练,可以直接拿来集成使用。

在这个平台上,我们最近开发了洛神1.0图文生成平台。洛神1.0可以替代传统的数字生成技术,实现数字人的快速批量生成。它可以完成自动驱动和用户之间互动,能够帮助用户完成数字人的自动化生成。

下面是一个例子,比如它可以进行个性化虚拟人生成。开发者选择一个形象之后,就可以通过语音方式驱动生成视频。而且可以按照自己的需求自定义,选择一个形象之后,你可以将其变成三维形象,再选择其它的形象进行融合,将文本或者需要生成的内容输入进去之后就会按照你的需求进行相应的生成。现在数字人进行简单的播报越来越真实化。

在算法研究、模型开发和平台研制基础上,我们在推动多模态产业联盟的成立,目前在紫东太初框架下面有41家成员,我们希望整合产学研用各方资源,来打造多模态人工智能行业应用,希望探索通用人工智能产业化的道路。

四、已应用于医疗、文旅、公益等,打造差异化AGI道路

我们为模型打造了开发开放平台,同时我们已经用这样的模型在各种各样的下游任务当中得到了非常好的应用,比如在智慧医疗、社会公益、智慧文旅等方面已经有了各种各样的应用。

这里面因为时间关系就不一一介绍,我介绍其中的一个应用,就是手语教考一体机。

这是一个非常有意思的应用,例如《新闻联播》、《新闻30分》节目的右下角都会有手语形象,但很多时候聋哑群体或者听障群体会有歧义,没办法知道手势代表什么意思,那如果我们给出手势的同时给出多模态的图像视频展示,这样立马就能够让听障人士感知到并快速发现他应该在说什么,在表达什么样的含义。这样多模态的应用是非常有意思,也是非常好的方面。

还有在智慧交通、智能制造方面的应用,我们打造了一个文旅多模态场景“南宋御街”,用户可以通过VR方式和各种各样的历史环境、历史人物进行交互。

我们也会把它应用到媒体,特别是多媒体内容的安全审查上面。

这两年来我们的模型也得到央视新闻、人民网等媒体的一系列报道,我们也还在不断努力。可以看到GPT正在不断地突破人们的想象,从GPT-4到周老师刚刚介绍的GPT和各种各样插件的融合。

我们在不断追赶,不断打造差异化的通向通用人工智能的道路,目前而言,可能我们的模型不是特别大,不像GPT-4那么通用,但我认为我们应该追求一个开放的环境,我们希望在各种各样的产业当中得到更好的应用,希望和大家一起推动通用人工智能的发展。

谢谢大家!

以上是张家俊演讲内容的完整整理。

上一篇:环球时讯:碳化硅板块股票一览(2023/4/11) 下一篇:最后一页
x
推荐阅读

【世界时快讯】中科院张家俊:多模态大模型初现“多专多能”,用“紫东太初”探索差异化AGI道路丨GTIC 2023

2023-04-11

环球时讯:碳化硅板块股票一览(2023/4/11)

2023-04-11

韩国LG CNS宣布与微软达成合作,使用ChatGPT开发新服务

2023-04-11

测评|海信VR新头显发布,凭自研算法人体工学,能否在XR行业站稳脚跟?

2023-04-11

文旅部:严厉打击“不合理低价游”等市场乱象-新消息

2023-04-11

北京PM10浓度破千,空气质量严重污染,预计周四周五沙尘还来 全球焦点

2023-04-11

巴萨18次轰门0进球 没缓过神OR故意分皇马军心?-微速讯

2023-04-11

详解戈贝尔被禁赛一场:仅无缘跟湖人对决 詹眉晋级季后赛稳了吗

2023-04-11

天天最资讯丨利尼亚-终-第十三话:火焰,终熄。

2023-04-11

IPO周报:军陶科技撤回上市申请,业务独立性受质疑

2023-04-10

睦王河遗址 天天聚看点

2023-04-10

信用贷款可以用来还房贷吗?

2023-04-10

7岁男孩生日礼物最好送什么 环球今热点

2023-04-10

外交部:支持尽快对北溪管道爆炸事件开展国际调查

2023-04-10

2023贵州民宿住宿减半(活动方式+活动范围) 环球观热点

2023-04-10

新房有问题需整改,整改期间物业费谁负责

2023-04-10

环球热门:姜兆华:OPEC+减产或加剧全球通胀危机

2023-04-10

全球消息!股价遭遇周一“惊魂” 白酒股为何上午闪跌

2023-04-10

春日市集、房车露营、竹筒奶茶 春暖花开之际各地消费亮点多

2023-04-10

中级会计证有什么用吗-天天热推荐

2023-04-10

【世界聚看点】专利申请量提升彰显中国创新活力

2023-04-10

每日播报!西亭镇西亭社区开设民生茶馆 谈心了解民情 化解矛盾纠纷

2023-04-10

雅酷频道_雅酷视屏|全球要闻

2023-04-10

做好科技企业进入资本市场的“引路人”,松江区科技创新服务中心获市级科技金融优秀服务站

2023-04-10

下载小说的网站哪个好_下载小说的网站 天天报道

2023-04-10

印度的发达城市孟买,总跟我国上海攀比,放在我国到底什么水平?-世界今热点

2023-04-10

世界头条:4月10日00时湖北宜昌目前疫情是怎样及宜昌疫情一共多少人确诊了

2023-04-10

【天天速看料】硫酸镍现货行情周评:硫酸镍继续下跌 硫酸镍利润亏损情况严重

2023-04-09

物质激励_关于物质激励介绍 天天即时看

2023-04-09

焦点速递!即墨信息港_铜城信息港

2023-04-09

外资连续多日抢筹 这些高分红股被盯上!四大行业受青睐-环球快消息

2023-04-09

当前滚动:算出来了,这老头,身价14500亿

2023-04-09

最新:美国特拉华州一购物中心发生枪击事件 致3人受伤

2023-04-09

今日热闻!贵州深入推进新型工业化

2023-04-09

中国宠物家庭规模将破1亿户 赛事引领宠物消费新业态|天天最新

2023-04-09

钓源桃花

2023-04-09

水稻钻心虫的危害有哪些?用什么药?

2023-04-08

我,足球运动员,为接乌克兰媳妇家人到中国,花光30万积蓄不后悔 全球聚看点

2023-04-08

中国700亿建造世界第一港,吞吐量超全美总和,这个港口有多重要 焦点速讯

2023-04-08

拜登访问北爱尔兰前,当地收到“恐怖袭击”警报

2023-04-08

【速看料】金种子酒选举谢金明为董事长,法定代表人变更为何秀侠

2023-04-08

思维生活 |飞猪机票盲盒翻车 被吐槽“吃相难看” 思维生活+……_全球速递

2023-04-08

焦点速读:房龄超过20年可以贷款吗?

2023-04-08

紧抓关键期 加力促匹配——多地多渠道拓岗位稳就业 当前速读

2023-04-08

支票是什么银行都可以取现吗_支票是什么

2023-04-08

英雄联盟正在进行安全扫描_英雄联盟安全扫描进不去

2023-04-08

人生之路再现高考顶替案,究竟是怎么一回事?

2023-04-08

与天同兽全文_与天同兽 世界快报

2023-04-07

万兴科技:2022年年归母净利润同比增47.73%,AI换脸 AI抠像等在产品上应用落地

2023-04-07

广东高考语文满分作文700字 高考满分作文:东南风起-环球快播

2023-04-07

“群英”护航,以“基层之治”筑牢“中国之治” 新消息

2023-04-07

全球今日报丨信用卡逾期停息挂账怎么办理?信用卡逾期多久影响征信?

2023-04-07

大宗交易:搜于特成交43.68万元,折价9.90%(04-07) 环球热文

2023-04-07

环球最新:走过一甲子,援非医疗队架起中非友谊桥梁

2023-04-07

热门看点:天风证券:给予鸿路钢构买入评级,目标价位45.0元

2023-04-07

湖人6大新援该与谁续约?薪金专家详解合同:留下他们要花多少钱|环球要闻

2023-04-07

津兴铁路正线铺轨工程全线贯通

2023-04-07

看到“拘捕令”就慌了?当心这是骗子的把戏

2023-04-07

【光明网评】“五个一百”:点滴正能量汇聚成江海

2023-04-07

i人e人的区别是什么

2023-04-07

世界观察:2023好听的名字女孩网名精选网名114个(2023好听名字有那些)

2023-04-07

国家税务总局:今年一季度经济运行情况呈现“六个逐步向好”态势

2023-04-07

怎么包礼品盒子

2023-04-07

当前快播:一曲《国色》,唱出国漫传承动人故事

2023-04-07

天天最新:漫漫改装之路 科鲁兹改装轮毂、包围

2023-04-07

泻药有什么药_泻药的副作用

2023-04-06

卖家电说免费领取礼品

2023-04-06

瑞丰新材2022年度拟10转9派23元

2023-04-06

当前快播:国家税务总局:2022年税费优惠政策累计惠及超过8000万经营主体

2023-04-06

上汽集团全员降薪!

2023-04-06

全球视讯!今天最新消息 王毅同法国总统外事顾问博纳通电话

2023-04-06

千亩茶园美如画 茶农“画中”采茶忙_实时焦点

2023-04-06

新赛季中超预计4月15日开赛_天天日报

2023-04-06

大篷布成“拦路虎” 执勤交警忙处置|抓党建 整作风 强素质 树形象|每日聚焦

2023-04-06

全球新动态:天奈科技董秘回复:目前公司三代产品广泛应用在头部锂电客户,目前我们的客户的供应商体系中鲜见同档竞品

2023-04-06

天创时尚:公司一直保持对新事物、新技术的了解与学习,目前对AI技术、人工智能等先进领域还在学习与认知的过程中,暂未接入百度文心一言|全球热文

2023-04-06

每日热文:嘉兴高新区1宗商住地5.08亿元完成出让 楼面价3178元/平

2023-04-06

当前看点!恒玄科技涨超14%,人工智能ETF(159819)年初至今累计涨幅超48%

2023-04-06

快看点丨Faker出道十周年!T1更博:很荣幸能和你在一起

2023-04-06

横琴粤澳深度合作区鼓励类产业目录公布,聚焦185项产业-当前速读

2023-04-06

每日观察!雄安新区承接疏解步履稳健

2023-04-06

每日视讯:北约秘书长发表涉华言论,中方:坚决反对北约诬蔑攻击中国

2023-04-06

【独家焦点】今年300款理财提前终止 业内:影响不大 市场已回暖

2023-04-06

快资讯:中国四大高原有哪些_世界十大高原

2023-04-06

土耳其禁止往返伊拉克苏莱曼尼亚国际机场航班进入其领空

2023-04-05

好消息!加拿大宣布永久取消学生贷款利息!超120万人受益!

2023-04-05

消毒液哪种好? 天天短讯

2023-04-05

今日快讯:福岛核电站一机组压力容器底座受损严重

2023-04-05

女学生泰国遇害,嫌犯家属称不知儿子被抓 世界即时看

2023-04-05

横街社区(关于横街社区介绍) 环球新动态

2023-04-05

为什么顺治那么讨厌她母亲,他母亲到底有没有下嫁给小叔子多尔衮 速看料

2023-04-05

怎么谢谢朋友送的结婚礼物

2023-04-05

世界滚动:今年全省112所院校对口招收中职毕业生

2023-04-05

天天看点:lenovodrivers文件夹可以删除吗_lenovodrivers

2023-04-05

B站UP主停更背后,内容市场“无处安放”的商业焦虑

2023-04-05

志愿贵州登录注册官网_志愿贵州登录注册

2023-04-05

重庆电力开展线路巡视防患于未“燃”

2023-04-04

环球短讯!感谢同事帮忙送什么好

2023-04-04

公安部发出清明节道路交通安全提示_当前热门

2023-04-04

上机数控:拟50亿元投建江阴年产16GW光伏组件项目 一期预计三季度投产

2023-04-04