发布日期:2025-11-03 行业资讯
在这测验过程中,我一度产生了一种幻觉,便是,不会这些模型,不知道啥叫心形吧。
再抽暇花了一晚上的时刻,去DeepReaserch和研讨之后,我看到了一篇AI这块超级好玩的论文。
尽管文中的比方是视频,跟咱们上文的爱心图有点不太相同,可是底层原理,其实在我读完今后看来,是彻底一脉相通的。
这项研讨设置了一个基准,叫做SpookyBench,合成了一堆由噪点组成的视频,是是非的。
人类能够毫不费力地辨认出这些视频中的形状、文本和图画,准确率超越98%。
不管模型架构巨细、练习数据规划、是否通过微调或选用何种提示战略,AI从未答对任何一段视频的内容。
我也拿几个模型去试了一下,相同的那头鹿的视频,Gemini2.5-Pro相同无法辨认。
咱们能够先想想,现在一切的大模型,包含GPT-5、Gemini 2.5 Pro,它们是怎样看视频的。
很多人认为他们跟人相同,便是搬个小板凳搁那坐着,目不斜视的看完了整个视频?
它们会从视频里,每隔一段时刻抽帧,也便是截取几张静态的图片。 比方,第1秒截一张,第1.5秒截一张,第2秒截一张等等等等。
然后,AI会用它那剖析静态图片(也便是空间信息)的才能,去剖析这些一切的相片。
“哦,这张相片里有噪点。” “哦,这张相片里仍是噪点。” “哦,这张相片里依然是噪点。”
而那个“漂浮的心形”和“噪点中的鹿”,其实本质上,它们的信息恰恰只存在于帧与帧之间。
忽然想起了曾经做交互规划的时分,有一个简直刻在我血液里的心理学,这玩意,叫格局塔心理学。
里边有一个十分牛逼的准则,叫“一同命运规则”(Law of Common Fate)。
这个规则是说,咱们的大脑会天性地、主动地、不讲道理地,把朝着同一方向运动的物体,辨认为一个全体。
忽然,在灌木丛中,有一小片叶子的摇摆办法,跟周围一切的叶子都不相同,它们在以一个相同的规则,朝着同一个方向(比方坤坤的方向)缓慢移动。
坤坤的大脑,乃至不需要他考虑,就会马上拉响警报: “!快跑!山君来了!!!有风险!!”
所以,你看,当你看到那个“噪点鹿”的视频时,你底子不需要尽力,你大脑里的一同命运规则就主动启动了。
它帮你把一切一同往上移动的噪点归为一类,辨认为“鹿”,把一切一同往下移动的噪点归为另一类,辨认为“布景”。
它的架构,论文里叫 Spatial Bias空间成见,决议了它只能先去辨认空间上的特征。
但它无法从时刻的维度上,去发现这些噪点之间“一同的命运”,所以,它看不到那只鹿。
现在看,如同没有啥处理办法,不单单是一个技能缝隙了,或许一个能够喂数据就能处理的小bug,论文里也试了,微调练习也没用。
这时分,我其实又产生了问题,不对啊,运动这事,是时刻维度的,可是那个爱心,分明便是一张图,就没有时刻特点,那这玩意,究竟为啥也能让人感觉到,动呢???
在20世纪50年代,眼动范畴有一个试验证明了一个工作,便是,人眼在凝视时并非彻底停止,而是不断进行细小的运动。
这样的视幻觉图,大多数都是利用了咱们这个会自己运动的特征,来做出动态效果的。
反过来讲,假如某个视界(不管其巨细、色彩或亮度)坚持严厉的停止,那么在1~3秒内,该区域就会在视界中逐步消失。
视觉科学里有个差不多的理论是特克斯勒消逝效应,说的是当人们长时刻凝视一个固定点时,周边视界中不变的影响会逐步淡化乃至消失。
听起来挺绕的,但假如你想试一下,故意操控眼球停止不动的话,你能够扩大这张图,然后故意的牢牢盯住中心的十字。
这篇文章写着写着,忽然感觉回到了7、8年前还在做使用者实在的体会规划的时分,天天研讨认知心理学的日子。
那时分,咱们天天在研讨人,研讨认知心理学,研讨人的行为、研讨人的眼动道路、研讨人的注意力、研讨人的回忆,就想着,咱们的产品,怎样让用户体会更丝滑一点,让他更爽一点,咱们的转化率更高一点。。。
本来当年研讨了那么久的常识,在现在的年代,又以另一种途径,穿越了时空,发出出了新的光荣。
究竟,咱们不只能看到噪点中的鹿,咱们还能看到缄默沉静中的爱,看到无常中的美。