出资超千万!阜阳这个水上乐土5月1日正式运营!
BOB综合app客户端
智谱AI的2024年主题,一定是在多模态赛道上狂奔。先是2024年7月26日,智谱AI上线了类Sora的视频生成模型“智谱清影”。团队约请我们运用和反应的诚心也很足——比起发布半年多了还没敞开的Sora,“清影”上来便是免费不定量。
一个月后的8月29日,在世界数据发掘与常识发现大会(KDD)上,智谱AI带着国产版《Her》、类GPT-4o炸了一波场——在C端产品“智谱清言”中,智谱AI初次上线了“视频通话”功用。
这意味着,当“懂王”AI长了眼睛、有了心情,人与AI的交互方法,离人与人更近了一步。
比方AI也跟上了潮流。最近刷屏游戏圈的《黑神话:悟空》,智谱清言看到后“秒懂”,还能和你唠两句。
一起,智谱AI还放出了最新版的“多模态模型全家桶”,比方能看懂视频和网页的视觉模型GLM-4V-Plus,支撑图片修改的文生图模型CogView-3-Plus。
言语基座模型GLM,也迭代到了GLM-4-Plus版别,更能玩转长文本,也更会做数学题。
从前,GPT-4o的“三段爱情迭代”,冷艳了一大批用户。但智谱清言像是个大直男,当要求它“更有爱情一点”,它会理性地朝你“泼冷水”:作为一个人工智能,无法表达爱情。
不过,智谱清言的视频通话功用,有更适合中国人“活到老学到老”体质的玩法。
比方,它可所以你的随身英语教师。翻开摄像头后,你也能体会一把“走到哪,问到哪,学到哪”的高浓度英语学习。
当然,它也可所以“哪里不明白拍哪里”的数学老师。智谱清言的解说,质量乃至和真人教师有的一拼,不只循循善诱,还有问答互动。家长再也用不着为教导作业而烦恼!
比方,它能一眼认出瑞幸的包装袋,立马给你来了一段瑞幸前史的科普。不过,智谱清言最终开了小差,将本意为咖啡该怎样贮存的问题,了解成了包装袋该怎样贮存……
现在,视频通话的进程还无法贮存在前史记录中。不过,有了“长了眼”的智谱清言,就似乎一起下载了作业帮、小红书和下厨房。
在KDD上,智谱AI更新了“模型全家桶”,既发布了新一代的言语基座模型,也发布了晋级后的多模态宗族:图画/视频了解模型GLM-4V-Plus、文生图模型 CogView-3-Plus。
有意思的是,GLM-4-Plus的练习,很多采用了高质量模型组成数据。事实上,AI组成数据已能够有用运用于模型练习,下降练习数据的获取本钱。
而在长文本才能的体现上,GLM-4-Plus和GPT-4o、Claude 3.5 Sonnet两个顶尖模型也齐头并进。在清华大学刘知远团队做的长文本测验集InfiniteBench上,GLM-4-Plus乃至略优于两个国外天花板模型。
一起,经过采纳近端战略优化(PPO,一种提高杂乱使命决议计划才能的练习方法),GLM-4-Plus的数据、代码算法等推理才能有了显着提高,还能够更好反映人类偏好。
相较于上一代GLM-4V,视觉大模型GLM-4V-Plus增加了视频和网页了解才能。
比方,只需输入智谱AI官网的截图,GLM-4V-Plus马上就能转化成html代码,协助你快速复刻网站。
与一般视频了解模型不同,GLM-4V-Plus不只看得懂杂乱视频,还具有时刻感知才能。这在某种程度上预示着你问模型视频第xx秒的内容,它也能给出答案。不过截止至发稿前,智谱AI敞开渠道的模型体会区还不支撑上传视频。
美中不足的是,相较于逆天的视觉多模态了解才能,GLM-4V-Plus的多轮对话和文本了解才能显得有些“拉垮”。看来,GLM-4V-Plus离成为GPT-4o,还有适当间隔。
在KDD上,智谱AI还发布了新一代的文生图模型CogView-3-Plus。与近期文生图界的“当红炸子鸡”FLUX比较,CogView-3-Plus 20s版别的各项才能基本能打平。
输入提示词:桌子上有一台笔记本电脑,电脑周围放着一个通明玻璃杯,这是一个圆柱形的杯子,半杯水还冒着热气,杯身折射了少许阳光。
一起,CogView-3-Plus也支撑图片修改功用,比方改动图中物体的色彩、替换物品等等。
给2024年1月发布的几款模型,加上“Plus”的后缀,智谱AI花了超越7个月——这也是2023年以来,智谱AI发布模型的最长周期。
可见的是,GPT-4o,关于AI大模型企业而言,是一道才能的分水岭。跟着多模态才能的交融,言语了解的“黑箱”刚被翻开,又很快被GPT-4o合上了。
大都国内模型厂商的战略是:分而治之,先增强不同模态的单模态模型才能,再霸占交融的难题。
智谱AI的模型矩阵,现在仍然在各自迭代才能的“分治”阶段,而视频通话功用的上线,让用户现已看到了开始多模交融的影子。