您的位置：首页>it >

消息！香港科技大学（广州）信息枢纽院长陈雷：AI大模型构建需产业角色加强协同

2023-05-25 21:06:32 来源：21经济网

21世纪经济报道记者骆轶琪、郭美婷广州报道

回看人工智能发展的历史浪潮，上一次备受关注的是由深度学习、CNN（卷积神经网络）技术突破，实现对文字和图像识别的良好成果。但相比之下，此次由Transformer架构推动的AI大模型成效更是为人惊艳。

(资料图片仅供参考)

近日，香港科技大学（广州）（以下简称“港科广”）信息枢纽院长、讲座教授陈雷接受21世纪经济报道记者专访，谈到当前AI大模型构建的核心要点，后续竞争赛道以及由此对学科教育体系带来的影响和变革。

陈雷教授是IEEE（电气与电子工程师协会）会士，ACM(美国计算机协会)杰出科学家，也是IEEE旗下专注计算机领域数据挖掘方向TKDE期刊主编。

他认为，当前构建AI大模型面临着数据、算法模型、算力三方面难题，可以考虑通过算力交换、数据共享、软硬件协同等方式帮助实现能力优化，但当前在执行中还面临一定挑战。而AI大模型兴起对学科教育和人才培养也提出新的思考。

Transformer+强化学习

陈雷教授分析道，此前深度学习和CNN主要是在解决时序数据、图像等方面取得了很大成绩。但是在解决长文本，尤其是语言文本理解、长序列、视频的时候，就显示出了弊端。

Transformer架构解决了这些弊端，是在于其通过encoder-decoder（编码-解码模型）方式，在另一个空间生成内容，再通过人类反馈强化学习的方式构建奖励模型，由模型学习其中的反馈打分机制，因此可以有广泛的应用空间，也打破了原本壁垒，对长序列、长文本可以有更好理解。

尤为重要的是，Open AI引入1000多名语言学家对生成的文章进行打分。其要点就在于用Transformer架构+强化学习的方式，让大模型学习人类对所生成内容的打分机制，那么机器可以自己对生成的内容进行打分，就有无限多“高分”的内容被生成出来。

这也导致AI大模型容易出现“胡言乱语”的现象：因为GPT的工作机制，就是把内部生成分数最高的内容作为答案输出，不会不给出答案，且这些预训练模型利用的训练信息是收录在某一个时间段内，因此就会出现并不正确的信息。

但由此意味着在落地到场景中会面临挑战。比如在对精度要求高的自动驾驶场景，容错机制会更为严苛。实际上业界认为，GPT此番成果更多是验证了该生成式AI的可行性，那么后续具体应用中可以进一步对其进行改善。

陈雷教授分析认为，构建大模型目前面临的难题包括数据、算法模型、算力三个方面。

第一重困难是数据质量。在抽取数据时要进行数据清洗、标注，剔除诸如广告等内容。“怎么实现以一当十的标注效果，就是我们所在学域探究的问题。比如进行数据分析时，把数据集合起来，相似的数据放在一起，标注一个数据头，其他数据都有类似标签，把冗余的数据清除掉。”他指出，以自动驾驶场景为例，比如相比雷达的信息，有些摄像头捕捉的信息就是冗余部分。在数据分析时，如果不清除冗余数据，将极大加重模型训练的时间。

他介绍道，现有的一些实验表明，假如对一个基本模型用原始数据训练要花费超过200个小时，但是完成数据精细化抽取后，只需要6秒左右即可完成训练。因此数据清洗和抽取的过程就需要人来干预，以期用相对精简的数据，让训练效率进一步提升。

第二重难题是算法模型改善。比如要实现自动驾驶更高的稳健度和鲁棒性，遇到紧急问题不仅仅是直接选择暂停，需要对算法模型进行优化，提出安全的解决方案。

第三重就是备受关注的算力问题。Open AI训练GPT耗费了数万块GPU芯片，这所需要的采购成本不是一般学校和小机构可以担负得起。借助探索软件协同、算力交易等方式就变得重要。

软硬件的难题

Open AI通过“暴力美学”方式构建出让人惊艳的AI大模型，但背后所需的算力成本也让人瞠目。寻找更多元化的方式训练和计算正成为重要命题。

“算力交换是很好的课题。”陈雷教授指出，业界在探索研究，能否借助诸如区块链等平台实现算力交换。“比如把算力放在区块链上，用token自主交换。那么要用到大模型训练、需要算力的时候，用token‘买’过来算力，用完了再释放出去算力，还可以挣一些token。”

但这是理想状态，在实际应用中还需要面临算力定价、政策监管等问题。很多人不愿意交换算力，根本原因在于担心被恶意使用而报废。因此倘若完全在乌托邦一般的区块链空间中交换使用并不现实，需要借助联盟链等方式实现。这就需要有机构牵头，把算力联合起来并落实。

除了算力，数据共享也是搭建大模型要攻克的一个难题。因为不同的数据对不同所有人的意义有差异，数据本身的质、量也不同，那么按照什么标准进行数据定价还需要界定。

同时交易双方面临的客观环境不同，带宽、传输等差异可能也会影响到算力共享效果。这些背后都涉及对交易进程进行监管。

在搭建大模型过程中，除了算力这种底层硬件，软件也发挥着重要作用。倘若能实现软硬件优化协同，最终或许能通过更少的GPU芯片来实现同样好的训练和应用效果。

陈雷教授指出，如何与硬件更好匹配，这就对云计算资源提出要求。这也是微软选择收购Open AI的原因，用软件反推对硬件的能力调优。

举例来说，在未来，人与手机的交互可能将不只是通过触控键盘，而是仅通过语音。这时候手机硬件就需要实现，如何在噪声环境下，明确手机主人的声音、准确收音并实现功能。这就同时对软硬件提出新要求。

培养模式思变

AI大模型无可避免会对既有日常工作和生活模式带来一定程度变化。首要关注的就是人才培养，过往一股脑刷题的模式可能要思变。

大模型工具与教学的边界到底在哪里也受到争议。此前在大学校园就曾有两大阵营：一方对GPT严防死守，一方对GPT充分拥抱。香港科技大学就是后者。

陈雷教授介绍，港科广正筹备在校园内大规模使用GPT4，已经在通过向微软购买云服务的方式铺设。

“这对老师提出的挑战是，一成不变的教学和考试方式该怎么改变。”他举例道，比如今年的期中考试，港科广允许借助GPT工具，采用开放式提问的评估方式，而不是有固定答案评判正误。

据介绍，在教学设计方面，港科广今年开始招收本科生，在入校后前两年不会安排选择专业，而是给学生提供更多空间，让他们持续与教授磨合研习，自己发掘感兴趣的专业领域。

对于人才能力培养，陈雷教授认为，大模型提供了大量数据，提问能力会很重要；培养交叉学习研究能力也很关键。

“我们的研究生和博士生都采用双导师制度，不可以只跟着一位导师，要交叉学习。”他举例道，比如让学生同时跟随数据分析和生物学两个专业的老师学习，做交叉的学科研究，如此也让学生更有学习动力。“港科广信息枢纽学院陆续与工业界成立了联合实验室，宗旨就是把工业界的问题拿来探讨。”

对于基础教学来说，AI大模型也可以提供帮助。比如通过学生做错的题目，AI判断到底是哪些前序基础教学内容没有被消化，就通过大模型生成相关基础教学题型，而不是死记硬背错题的方式解决问题。由此实现对学生的个性化教学和训练。

同时业界也在探讨，如何在AI大模型大规模应用后，防范学术造假等问题。诸如用生成文本的方式，比较学术文本和生成文本的相似性来判别，这背后就需要数据库支撑。

目前看，AI大模型对既有产业角色的改变和替代已经在发生。智能客服就是当前最大的落地应用，通过收集历史问题放在大模型中训练，可以减少大量人工客服的体量。

但这是否意味着所有企业都需要搭建一个自己的大模型？“AI大模型在智能问答、网络零售、金融科技、办公自动化、无人驾驶、元宇宙等很多新领域都将很有价值。”陈雷教授分析道，但对于一些传统产业如制造、制衣、机械等怎样利用大模型还是一个值得讨论的问题。

关键词：

消息！香港科技大学（广州）信息枢纽院长陈雷：AI大模型构建需产业角色加强协同

相关阅读

消息！香港科技大学（广州）信息枢纽院...

首席谈经济丨专访川财证券首席经济学家...

挑战高难手术，医生为贵阳患者再植“心...

潮茶如潮至贵州有独特姿势

富瀚微(300613.SZ)：2022年度权益分派10...

世界报道:有一种叫云南的生活丨来弥勒太...

云南河口口岸出入境人员突破100万人次|...

全球快看点丨有一种叫云南的生活·美食...

外资稳增彰显中国经济吸引力

奇安信集团董事长齐向东：用“零一三...

微评天下（20230525）

全球通讯！江北新区探索“儿童友好社区...

高架大棚西红柿收益喜人_环球新资讯

环球热点评！秦淮发布措施深化校地企融...

栖霞建设青年发展型县域示范区天天微速讯

世界热推荐：PS发布会：《勇敢小骑士》...

蒙娜丽莎(002918.SZ)：公司四个生产基地...

当前短讯！吉华集团(603980.SH)：副董事...

世界微速讯：吉华集团(603980.SH)副董事...

贵州三力(603439.SH)2022年度拟每股派0....

要闻

消息！香港科技大学（广州）信息枢纽院长陈雷：AI大模型构建需产业角色加强协同

相关阅读

要闻

创投