主页 > 苹果版imtoken图标 > 观察丨AI大模型热:如何从数据井喷的“原油”中提炼“成品油”

观察丨AI大模型热:如何从数据井喷的“原油”中提炼“成品油”

苹果版imtoken图标 2023-01-18 18:55:17

澎湃新闻记者邵文

近年来,百度、谷歌、微软、英伟达等“科技巨头”投入大量人力财力推出自己的巨款。 OpenAI的NLP大模型GPT-3,模型参数1750亿,耗资超过1200万美元。

为什么看好AI大模型,目前实施进展如何?科技革命与产业变革如何互动,AI模式在当前工业智能化转型中又有哪些应用潜力?

“AI模型训练需要根据场景采集和标注数据。标注数据的数量和质量是制约模型效果的瓶颈。预训练的 AI 模型采用自监督学习方法。再次需要手动标记的数据。使用带有未标记数据的自监督学习进行预训练,基础模型学习到的数据越来越大,模型也越来越大。结合面向场景的迁移学习,解决了很多问题。这是一项非常重要的技术突破,意味着有一种方法可以高效地从井喷产生的数据中学习。”4月16日,百度集团副总裁吴天在百度总决赛的演讲中表示。认知人工智能创意大赛。..

观察丨AI大模型热:如何从数据井喷的“原油”中炼“成品油”

AI大模型的开发范式可以利用自然界中存在的大量数据,打破原有的仅靠精准数据学习的瓶颈。吴天在解释时对其含义进行了生动的比喻,“这就像找到一种方法从'原油'中提取'精炼油'。” AI大模型重要性的由来。

算力查询平台

真实AI落地场景的碎片化,使得传统定制化、作坊式的模型开发方式无法重用和积累。每个新场景都需要重复整个模型开发过程。 AI开发成本高昂,无法重复利用和积累。它在现实世界中挣扎。

AI预训练的大模型是如何解决这个问题的?

大模型的基本原理是什么,如何应用?

吴天在演讲开始时抛出了一个问题,“过去模型训练需要大量的数据标注才能训练出足够精确的模型。但是这样的精确数据的成本是非常高的。是不是有可能让模型数据本身不再是瓶颈吗?”

预训练技术带来了这种可能性。 “使用自监督学习的方法,让模型在海量无标签数据中提炼和学习规则和知识,使形成的大型预训练模型成为基础模型。在基础模型之上,当它应用于任务和场景,只需要少量的任务标注数据,通过微调就可以得到在应用场景中非常有用的模型。”吴天回答。

类比人的学习,人的学习可以分为通识教育和专业教育两部分。预训练大型模型相当于解决 AI 模型的通识教育。

算力查询平台

如何理解预训练大型模型中的自监督学习?也就是说,它不是通过人工标注学习,而是通过自建的监督信号学习。田武分享了一个例子来说明其中一种方法。在模型训练中算力查询平台,如果“中国首都是北京”这句话中的“北京”被覆盖,让模型猜测中国的首都在哪里,模型可能会猜测一个城市,然后打开封面反馈是否模型是对是错,模型得到反馈。这是自我监督学习的一种方式,完形填空。

当我使用它时会发生什么?吴天分享了百度文信大模型在医疗行业的应用。

病历的质量控制一直是医院的痛点。在医院病历室,工作人员每天检查大量病历,并对病历进行质量抽样。 “虽然医院里的全科医生其实很少,但是病案室的医生由于专业知识的限制,实际上并不能很准确地分析和判断各科室的病历。对于10%的抽样,对于非专业的部分,很多只能匹配字面的内容,很难理解深刻的语义含义。因此,病案室很有希望提高工作效率。”吴天介绍。

文心大模型的解决方法是在基础模型中加入医学专业知识、药典、医学百科全书等一系列知识,再训练得到相应的医学行业模型。不断学习临床数据,掌握经验知识。 “最终模型掌握的知识量已经远远超过医学博士,已经用于病历室的病历质量控制,可以100%对病历进行智能扫描和分析,这带来了效率的极大提升。”吴甜介绍。

百度从2019年开始研发预训练模型。2019年3月,百度发布中国首个正式开放的预训练模型ERNIE1.0; 2021年12月,ERNIE3.0升级为全球首个知识增强千亿模型鹏程-百度文信。同时还有ERNIE-ViLG跨模态模型和图文等多模态之间的对话模型PLATO系列。

百度在这一系列进展背后的基本思路是什么? “首先,我们在自己的业务场景中不断地使用、验证、迭代。文信大模型是一个来自行业实践,同时服务于行业实践,在实践中构建的大模型。进一步理解“工业级”的含义,首先,它的数据来源于行业,知识规则是在实际的行业实践中学习的。其次,在服务行业时,不仅可以调用模型,还可以调用配套的工具和平台帮助用户使用起来更方便。

算力查询平台

文信大模型系列采用的技术路线是知识增强,将大规模知识和海量非结构化数据整合起来进行学习,即知识引导学习,好处是学习效率更高,可解释性更好。文心大模型系列通过引入大规模知识图谱,仅百亿参数就登上全球语言模型权威评测SuperGlue榜首,超越人类水平0.8%。

这样的技术路线需要解决知识与深度学习相结合的问题。用吴天的话来说,“我们一直在探索的还有三个问题”:第一个难点在于可用知识稀少。 “虽然知识很多,但真正可用的知识却是稀疏的,尤其是结构化知识。因此算力查询平台,如何使用无监督的方法自动提取可用知识本身就是一个很大的问题。我们一直在寻找各种可能的创新方法来解决这个问题。知识是连续动态生成的。第二个难点在于大模型如何学习新知识而不忘记旧知识。”

“第三个难点在于如何统一数据中结构化表示的知识和非结构化的隐性知识。百度知识图谱已经有多达5500个知识。有了这么大规模的知识,大模型需要充分学习,还有很多问题需要解决。”吴天继续说道。

据吴天介绍,“今年是文欣大型模型产业落地的关键一年。”目前,文信大模型已广泛应用于百度内部的各类产品,包括搜索、信息流、小度智慧屏、百度地图等,显着提升了产品的智能化体验。以文信的开放能力,日调整量也超过了5000万次。

目前,文信已通过飞报、百度智能云等开源开放平台,将心模型应用于工业、能源、金融、通信、媒体、教育等各个行业,并个人和企业开发人员超过60,000人。在保险领域,文章信达模型的智能解析能力可将文本处理效率提升30倍;在人力资源应用上,文心模型可实现对候选人信息的智能分类,模型识别准确率达到99%;在医疗领域的应用中,文心大模型将每个病历的检查时间从30分钟降低到秒级。

这套技术机制大大降低了大模型应用的门槛——只要把场景中的问题定义出来,进行一些小数据标注,交给大模型再学习,然后你可以得到一个适合你自己场景的好AI应用。

算力查询平台

既是挑战也是障碍:大型模型的技术难度

p>

对于如此高投入的文心模式如何盈利,吴天告诉澎湃新闻,“文心模式是百度同时进行技术创新和应用落地的基础性工作。”它的好处来自两个方面:一方面需要利用百度自身的业务;另一方面是进一步结合行业客户的场景,形成对客户的价值。”

这个技术创新过程充满挑战。在吴天看来,大模型训练的主要挑战是“大”——数据量很大,模型也很大。

大型模型的训练需要解决在计算能力有限的情况下如何在给定资源上训练的问题,从而实现高效存储、高效训练计算等,同时保证模型最终收敛并可用。

为解决如何在有限的资源上进行训练,百度采用4D混合训练技术,在保证准确性和收敛性的基础上提高训练效率,实现超大规模模型的训练。 4D混合训练技术在单机中使用张量模型并行和分组参数切片相结合的策略,保证了较低的通信成本。在此基础上叠加管道模型并行策略,让多台机器共享千亿模型的训练。最后叠加数据并行策略,增加并发数,提升整体训练。速度。使用飞桨的混合并行功能,可以根据显存大小、通信带宽和节点数量灵活组合灵活的并行策略,进行高效的大模型训练。

算力查询平台

在百度上与鹏程实验室合作的鹏程-百度·文心大模型项目中,在训练过程中使用了60台服务器作为一组混合并行的单元机。在训练过程中,可以使用多组机器来扩展并行能力,加快训练进度。

那么如何判断训练好的大模型好不好呢?

一个很普遍的认知是看参数个数,“参数尺度的增加确实有更好的效果。我们对比了文心不同大小的ERNIE模型,随着参数尺度的增加,效果会提升。” ”吴天说,“但也不是越大越好这么简单,更重要的是模型的能力。”

吴天认为,评价一个大型模型的好坏更重要的标准是它的效果和泛化能力,在面对新问题时是否能更有效地学习更强的能力。

吴天认为,文心大模型接下来的发展有两个方面,“一方面,技术本身还有创新的空间,我们还在研究如何让这些模型更强大。能力表现。另一方面,实用性将是我们的下一个关注点。以文心为例,文心从一开始就非常注重实用性。从开发过程中可以看出,ERNIE并不打算发布更大的模型很快,但是在制作模型之后,它会在应用程序中实现。验证效果并调整模型设计。“

在这个实践过程中,百度发现,在结合大模型和场景的时候,不只是一个通用的大模型可以完全解决。吴天说,“我们一直以通用的基础模型为基础,开展行业内结合领域数据和知识的大模型,也就是行业大模型的研究。目前,文心全景有两种行业模型。” ,一个是金融,一个是医疗。”

当前,我们正迎来新一轮的科技革命和产业变革。每一次工业革命的核心驱动力都是技术创新。吴天表示,他希望将大型模型与国内的深度学习框架结合起来。发展,打造自主创新的人工智能基地,真正发挥大规模模型驱动人工智能大规模应用的产业价值。