①在大语言模型的研发上,京东更注重的是对话方向,也在积极推进多模态模型的研发. ②面向行业应用的大模型比通用大模型更难做
《科创板日报》7月9日讯(记者 黄心怡)京东即将于7月13日推出言犀大模型。在2023世界人工智能大会(WAIC 2023)上,京东探索研究院院长、京东科技智能服务和产品部总裁何晓冬博士接受了《科创板日报》记者的采访。他透露,京东大模型聚焦产业应用,届时还会展示具身智能方面的进展。
京东探索研究院院长、京东科技智能服务和产品部总裁何晓冬
▍下一步AGI将走向多模态和具身智能
何晓冬表示,在大语言模型的研发上,京东更注重的是对话方向,也在积极推进多模态模型的研发。“与通用语言模型不同,对话有一定博弈和对抗性的互动。当对方说了一句话,光理解意图并不够,还需要知道怎么回答他,要进行牵引。因为他的意图可能只是一个表达,要牵引到最后能达到共识的结论、解决方案上。大模型帮助我们更好地获取背景知识和上下文知识,更好地做对话决策。”
除了通用性的数据,京东还将零售、金融、健康、物流等广泛专业领域的产业数据也融合到基座模型进行训练。“某种意义上,我们相当于既做了通识教育,又读了四年专业性的本科教育。”
除了大语言模型,何晓冬称,京东也在语音、视觉等多模态模型上进行了研发。
“我们在语音识别方面的模型做得非常大,用了十万小时级别的数据去训练语音模型。在视觉模型上也做了很多,包括视觉的图象生成、数字人形象的生成和合成等。”相关技术已运用到政务热线、数字人直播、智能客服、AI外呼等场景。
此外,何晓冬还透露,7月13日将会展示具身智能方面的探索与进展。“像机械臂、无人车这些京东早就在做了。我们有一个项目,让智能的机械臂,在实际的物流分拣、搬运当中进行操作。”
GPT 所表现出的超越以往的通用性,让人类看到实现通用人工智能(AGI)伟大目标的可能性。何晓冬认为,目前这种通用性仍停留在语言领域,下一步AGI将走向多模态和具身智能。
“一个方向是多模态,必须具有视觉能力,可能嗅觉、触觉是再进一步的,但至少要具有视觉能力。第二是走向具身智能,包括机器人、机械臂、无人车,各种各样的载具,都可以更智能化起来,让AGI走到物理世界。”
▍面向行业应用的大模型比通用大模型更难做
不少业内分析指出,通用大模型不是模型应用的唯一方向,面向垂直产业的模型会成为大模型价值的引爆点。对此,何晓冬强调,面向产业应用的大模型其实比普通大模型更难做。
“专有模型、垂直行业模型的训练成本和难度其实并不低。因为行业模型并不意味着小模型,也不意味着单独某一个领域的数据,而是通用公域数据加上行业数据一起,构成了产业大模型的训练数据来源。”
这是由于,如果只用行业数据训练,会导致人机交互能力的不足。产业模型也需要有足够的基础常识作为背景,才能真正提供较高的沟通交流体验。
“人在跟机器打交道,哪怕是客服这种服务时,也会说一些操作领域之外的话。比如你想退换货时,可能会突然想起来,今天不在家,明天才能来取货。这种常识性的东西,是以前小模型难以应对的。小模型在专有领域做得很好,但用户突然说一句跟专有领域无关的话,小模型就迷茫了。”
而把产业数据和通用数据融合在一起,就能让基础模型本身有更多的产业理解。
“我们并非先把通用数据训一个基础模型,然后再用专用数据微调。而是一开始训基础模型的时候,就让通用数据和专用数据、产业数据,全部均匀地放在一起,只是采样的权重不一样。因为我们希望模型不要产生所谓的遗忘,如果是完全割裂的两个阶段,会导致在吸收行业数据知识的时候,可能会把一些常识冲淡。”
▍把大模型落到产业上才能真正发挥价值
如何降低大模型使用门槛,让大模型真正在行业里用起来,是当下企业用户和大模型提供商关注的焦点。
“当进入产业的时候,更多的拦路虎是在更加微妙的细节上,这些细节往往决定了最后产品的价值,或者是用户的体验。现在大家有点冷静下来,更多从价值的角度,而不是从畅想未来的角度来看这个技术。”
何晓冬分析,AI技术不应该只是纯粹的学术推动,而需要从行业中凝练出需求。
“今年下半年,大家可能更关心行业价值如何呈现。虽然做高考题也很有意思,但最终的行业价值肯定不会产生在做高考题上。当大家乐观的时候,可能会忽视当初看起来还不起眼的,但实际上是拦路虎的问题。当把大模型真正落到产业上的时候,就一个个浮现出来了,需要解决这些问题才能真正用起来。”
谈及国内外大模型的差距,何晓冬判断,并没有想象中那么大。“算法其实是整个技术社区一起发明的,每一个算法都建立在其他人的基础之上,其中也有很多中国人的贡献。我觉得算法一旦发表之后,是属于全人类的科学。值得关注的反而是一些细节,从Transformer到GPT,中间还是走过了一段路,怎样组成这样的团队,里面各种各样技能的人都得有。这样才能把这个事情做起来,而且还得有足够的冒险精神。”