咱们用GLM-4-Plus搞了个“阅读智能体”,使命效力升迁了300%

发布日期:2024-10-21 14:22    点击次数:95


咱们用GLM-4-Plus搞了个“阅读智能体”,使命效力升迁了300%

文|Alter

每隔一段时刻,大模子行业都会传出新的音问。

先是在9月中旬,OpenAI在莫得预报的情况下发布了o1模子的预览版;不到半个月后,国内的智谱发布了若干更新模子,其中就包括新的基座大模子GLM-4-Plus,亦然智谱面前最遍及的模子。

国际围绕o1模子的策动和场景探索还在陆续,也让咱们对GLM-4-Plus萌发了兴味:智谱的最强模子到底有多强,巧合治理哪些“悬而未决”的问题,又将带来什么样的影响?

01 各人前三的GLM-4-Plus,到底强在那处

早在9月底的时候,国内东说念主工智能巨擘机构清华大学基础模子推敲中心就对国表里最具代表性的大模子进行了新一轮的抽象性测评,评测数据集包含语义、对王人、代码、智能体、安全、数理逻辑、领导罢黜等等。

按照清华大学基础模子推敲中心发布的SuperBench九月抽象榜单,GLM-4-Plus的抽象才气排行前三,破裂了当年被国际大模子足下前三甲的所在,并在多个关节才气上保捏了国际独特水平。

鉴于GLM-4-Plus在上线前照旧内测了一段时刻,期间有不少本事博主曾进行评测,咱们温顺到了三个层面的才气升迁。

一是话语领路才气,通过大范畴语料库教训和优化算法,GLM-4-Plus在处理复杂语义上的阐明较其他模子愈加出色。

借用测评博主toyama nao的论断:在难度较高的生果热量狡计上(需要合理搭配生果,使总热量刚好在一个区间),大部分模子并莫得果然懂题目,但GLM-4-Plus统管辖会了题意,并秉承慢慢充数的要领给出了正确谜底,况兼申诉十分有“东说念主味”,亦然第一个在此题拿到满分的模子。

二是长文本才气,GLM-4-Plus复旧128K高低文,凭借改进的驰念机制和分段处理本事,不错高效地处理大批文本信息。

咱们之前曾让复旧1M高低文的GLM-4-Long饰演了“书僮”的脚色,两分钟就能“熟读”50多万字的《国史大纲》。GLM-4-Plus在高低文长度上莫得过于“激进”,而是基于精确的黑白文本数据羼杂战略,得回了更强的长文本的推理后果,巧合满足论文阅读、著作回归等更高频的讹诈需求。

三是时序问答和多轮对话才气,从单一的图像识别进化到对视频、图像的领路,并能针对单个视频进行多轮对话问答。

在智谱的Demo中,输入长达40秒的视频后,GLM-4-Plus不错准确领路并感知时刻,精确定位到事件发生的时刻,然后在视频领路的基础上谀媚高低文进行对话,比如视频中的某个物体是在第几秒出现的、一共出现了几次,在智能安防、智能检测等场景中有着不可小觑的讹诈空间。

虽然,以上只是咱们比较感兴味的几个才气,GLM-4-Plus的升迁还体当今数常识题与代码狡计、数据分析任务、机器翻译等方面,行动智谱全模子眷属坚实的才气底座,号称“六边形战士”般的存在。

02 比性能想象有感知的,是治理问题的才气

智谱提供了GLM-4-Plus的API接口,即使不懂本事旨趣、不会教训和微调,也不错调用API来治理使命中的本色问题,致使脱手拓荒出一个“智能体”,比较性能想象上的升迁,有着更奏凯的价值感知。

因为宽泛使命需要处理大批的翰墨资料,限于大模子的话语领路和长文本才气,一些需求尚未被满足。于是咱们在智谱的绽开平台bigmodel上调用了GLM-4-Plus,并进行了针对性的场景测试:

第一个是财务诠释的阅读和信息整理。

每次到了财报季,不少企业会公布一份长达几十页乃至上百页的诠释,从新到尾阅读诠释的内容,至少需要两个小时的时刻,况兼会民俗性忽略掉一些关节信息,是以咱们将信息的整理使命交给了GLM-4-Plus。

咱们上传了PDF文献,并输入“回归诠释中的中枢信息”的领导后,GLM-4-Plus马上给出了咱们想要的信息:

其中有两个让咱们目下一亮的细节处理:原诠释中单元是“千好意思元”,GLM-4-Plus在输出的回归内容中,自动将单元换算成了“百万好意思元”;“晶圆代工”的收入和增长并未体当今图表中,仅在“管制层策动与分析”的篇末说起,依旧被GLM-4-Plus精确“捕捉”。

第二个是围绕一些细节信息的对话问答。

文档阅读实在是扫数大模子主打的场景,只是是信息回归似乎不成证据注解GLM-4-Plus的才气有多强。是以咱们进一步升迁了难度,用一些“守密”在表格中的信息策动GLM-4-Plus,考证能否在数万字的诠释中准确申诉。

比如“目前有几许研发东说念主员,30岁以下年青东说念主占比”的问题:

这个问题的诱骗性在于,表格等区别列举了2023年中庸2024年中的研发东说念主员数目,要是大模子不成准确领路高低文语义,很可能会给出2023年的数据。GLM-4-Plus的阐明无疑可圈可点,不仅准确收拢了2024年的数据,给出了表格中莫得的狡计过程,况兼将和问题对应的数字进行了加黑处理。

第三个是索要中枢信息并生成视频剧本。

除了归纳回归和信息检索,另一个刚需场景在于内容生成。咱们尝试让GLM-4-Plus在诠释的基础上索要中枢信息并生成视频剧本,在这个产物高度同质化的赛说念上,GLM-4-Plus能否给出不一样的体验感呢?

截至再次超出了咱们的预期。

原觉得GLM-4-Plus会像好多大模子一样只是对信息进行松懈的回归,最终给到的是一份90分的高分答卷,涵盖旁白、画面切换以及对插入图表、数据动画、“布景音乐遴荐轻快但不喧宾夺主的立场”等贴心提议,也让咱们进一步领路了测评博主toyama nao为何会给GLM-4-Plus“有东说念主味”的评价。

作念一个回归的话,在GLM-4-Plus的匡助下,咱们的使命效力至少升迁了300%,推敲到智谱照旧在智谱清言上线了视频创作智能体清影,30秒即可将恣意翰墨生成视频,让咱们对GLM-4-Plus的才气有了更多的期待:也许在不久后,只需上传一份财报,就能自动生成视频快讯。

03 东说念主机交互的新范式,正被千万拓荒者界说

尽管咱们的需求主要和谐在内容创作上,但在体验了GLM-4-Plus的才气后,脑海中产生了这么一个领会:GLM-4-Plus升迁的不只单是使命效力,东说念主机交互的民俗正在野不可逆的标的演变。

就像财报分析的过程,有别于当年逐段阅读、边看边记札记的模式,GLM-4-Plus的多轮对话才气,让咱们不错对着目次针对性发问,对所有这个词使命历程和效力实在是重塑的,一朝养成了民俗就不肯再叠加当年的模式。

在整理素材的过程中,咱们看到了GLM-4-Plus更多的讹诈场景:

有东说念主将整理的大厂口试题库“喂”给了GLM-4-Plus,然后让模子生成针对性的口试题目。逸猜想智谱清言APP上线的“视频通话”功能,让AI饰演口试官的脚色,进行一双一针对性教训并非莫得可能。

也有东说念主在挖掘GLM-4-Plus的数常识题与代码狡计才气,在大模子的匡助下一步步厘清破题想路、给出准确的代码狡计逻辑,进而匡助学生更好地分析息争答数学题,让GLM-4-Plus充任一双一家教。

更大范畴的用户民俗,还需要和千万拓荒者通盘培养。

比如智谱清言APP的“视频通话”功能,当AI有了“眼睛”后,帮咱们解锁了功课诱导、产物先容、游戏助手等一系列新体验。目前智谱照旧启动内测GLM-4-Plus-VideoCall,将“视频通话”的魔法赋予越来越多的拓荒者。

以智能硬件为例,VR眼镜、智能音箱、家教悔习机等产物都不错集成GLM-4-Plus-VideoCall,已毕视频通话、语音多轮交互等跨模态才气,让电影《Her》中的场景从科幻走进践诺。

一样的例子还有风头正劲的具身智能,在工业机器东说念主等场景中,一朝领有了视频分析与及时交互才气,将不再局限于面目拓荒的机械操作,极大升迁工业机器东说念主的自主操作才气,进一步自若出产力。

也即是说,GLM-4-Plus不只是“智能体”拓荒者的契机,还为硬件拓荒者提供了软硬协同的相助空间。

把视角再放大一些的话,苹果照旧在iPhone 16系列上搭载了一颗颓败的“相机键”,并在官方演示中将其界说为视觉AI的交互进口,在很猛进程上预示了硬件改进的标的。

由此不错得出的论断是:智谱等大模子厂商照旧向硬件拓荒者伸开了怀抱,而苹果为首的硬件厂商正在积极欢迎AI时间,一场“双向奔赴”将是不错意料的结局。

04 写在临了

令东说念主欢跃的,远不啻大模子的才气进阶和落地场景。

智谱在更新模子的同期,还同步开释了一波红利:10月份将施助每位用户1亿tokens额度,并把柄花消梯度提供最高1折的API扣头。

原因并不渊博释,GLM-4-Plus在才气升迁的同期,老本也在大幅下落。大模子落地到千行万业的临了一说念终止,正在无形中“瓦解”。恭候咱们的,注定是一个被大模子改写的星光熠熠的时间。






Powered by 宁夏琪钾电子商务有限公司 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024

栏目分类

热点资讯

相关资讯