小哥给GPT4最强AI装上“眼睛”,让它看到家里的物品…真成机器人保姆了?!

“最强AI”GPT-4推出后,全球网民把它玩出了花。
有人用它建网站,有人靠它作弊,还有人让它设计理财方案。

以上这些都发生在电脑上,意味着GPT-4的真身只存在于赛博空间里。

但外国小哥麦凯·瑞克利(Mckay Wrigley)不走寻常路。他想给GPT-4一双“眼睛”,让它自己看到现实空间里的一切,成为他的家庭生活助手。

也就是说,把GPT-4从赛博空间带到现实空间。

从结果看,他做得很成功……

瑞克利是一个自学成才的程序员,码龄不过四年。
虽然经验尚浅,但靠着热情和好奇心,他在不久前做出“GPT之眼”。

这个名字听上去高端大气,但用他的话说,“不过是一堆东西拼凑在一起,根本不复杂”(当然也可能是谦虚)。

想要让GPT-4看到家里的一切,需要经历两个步骤,一个是拍摄,一个是视觉分析。

首先,瑞克利用苹果手机拍摄视频,视频直播到电脑上。

接着,他使用电脑上的视觉模型YOLOv8来检测目标。为了确保准确性,他需要先将房间内所有物品的图像输入进去,形成自己的数据集。

4-35.jpg

这是任务的核心,还好繁重的工作都由YOLOv8完成。
瑞克利说他只看了20分钟的油管教程视频,就搞定了一切。

为了让“家庭助手”的工作风格更自然,瑞克利选择用语音和它对话。

他使用OpenAI公司的语音自动识别系统Whisper,将它安装到电脑上。

Whisper对英语识别的准确性和人类差不多,检测到话语后,它会转成文字输入给GPT-4。
与此同时,视频上的物体由YOLOv8识别,输入给GPT-4。

4-36.jpg

GPT-4写出来的文字,会由AI语音生成器自动读出来。

就这样,GPT-4的耳朵、眼睛和嘴巴都有了。

“一切都唾手可得,简直非常简单。” 瑞克利兴奋地写道,“这就是世界未来的样子!”

光看文字,可能感觉不到科幻之处,
但看视频就有点毛骨悚然了……

“请记住,眼前这个AI没有任何先验知识,它只能通过摄像头拍到的物品来获得信息。” 瑞克利在视频开头说,“大家可以看到,屏幕上有很多框,这就是它在识别物品。”

“除此外,它还可以在网上搜索关于物品的信息。”

瑞克利按下运行按钮,GPT-4用专业的女声说:“我有什么能帮您的吗?”

瑞克利问:“生酮饮食是什么东西?”

GPT-4说:“让我找找……生酮饮食是一种低碳水化合物、高脂肪的饮食。它可以降低血糖和胰岛素,在远离碳水食用脂肪的过程中,改变身体的新陈代谢。”

瑞克利问:“好的。我想知道,如果我给你看一些食物,你能告诉我哪些属于生酮食物吗?”

GPT-4说:“当然。给我看看你的食物,我能告诉你哪些是生酮食物。”

瑞克利打开冰箱,用很快的速度拍摄牛油果、牛排、果汁、橙子、柠檬、酱料等食物。

在他拍的时候,这些物品都被框了起来。

他拍得相当草率,每个食物在镜头上停留的时间可能不到一秒。

之后,他关上冰箱,对观众们解释:“当我离开冰箱的时候,它就明白我不想继续展示了。冰箱门一关,它开始处理信息,整个识别过程很快。”

过了几秒钟,GPT-4说:“看起来,你家里有牛排、菠菜、黄油、牛油果和柠檬。这些都是很棒的生酮食物。”

瑞克利举了个大拇指说:“干得好,这就是我想让你做的。接下来我要你去网上搜菜谱,看看我能用这些食物做什么晚餐。”

GPT-4回答:“让我看看……我搜到一个叫‘15分钟柠檬大蒜黄油牛排配菠菜’的食谱。它用到了你有的食材。”

它给出了网页的链接,瑞克利向它表示感谢。双方客套了一下,然后GPT-4关闭了。

点进GPT-4给的菜谱网页,瑞克利发现不是很完美,因为里面也用到了他没有的食材。

“不过我觉得挺不错的了。你们看,它还不是一个完整的产品,只是一个演示。现在的效果已经很令人印象深刻了。”

瑞克利说,他非常期待苹果公司将在今年夏天推出的AR眼镜。搭配上GPT-4还未正式推出的图像输入功能,效果会非常爆炸。

想一想,戴着眼镜随处看,就能让GPT-4对你的生活了如指掌……
这不就是机器人管家走进现实吗?

4-37.jpg

瑞克利用到的技术不算复杂,但让GPT-4直接和现实交互,有点未来世界的样子。
推特评论区里,很多人已经等不及要试了,瑞克利鼓励大家“它做起来比看起来容易100倍”。

上个月,瑞克利做过“GPT之眼”简易版,效果也很不错。

他拿着可乐,问GPT-4这是什么,它很快回答“这是一罐可乐”。

接着,他问里面有多少卡路里。虽然光线模糊,距离也不算近,GPT-4看出来(准确地说是视觉模型看出来)这是健怡可乐,回答“它不含有任何卡路里”。

GPT-4还搜索出这款可乐的成分,给出网站链接。

瑞克利又拿出自己的牙刷,问它这是什么,同时要求它找到在亚马逊上的购买链接。

GPT-4回答“这根牙刷售价6.66美元,有14712人留下评分,星级评分为4.7”。

接着,它给出购买链接。瑞克利点进去后发现犯了点小错,GPT-4给的不是原价,而是折后价,大概是因为它登录了自己的亚马逊账号。

在最后的测试,瑞克利拿出一张电影海报,问GPT-4这个男人是谁,给出关于他的信息。

GPT-4很快找到他是约翰·维克,《疾速追杀》里的角色。

“约翰·维克是基努·里维斯在一部新黑色动作惊悚片中扮演的角色。约翰是一名传奇杀手。在一群人闯入他的家,偷走他的车,杀掉他已故妻子送的小狗后,他寻求复仇,重新回到犯罪的地下世界。这使他和曾经所属的国际杀手组织产生的冲突。”

维基百科的链接也贴心附上了。

现在,瑞克利在兴奋地期待AR眼镜,把它和GPT-4结合后,整个人就像生活在科幻小说里。

4-38.jpg

而这仅仅只是开始。

也许机器人管家会普及化,

也许人们会找出更神奇的功能,做出更不可思议的产品,
算是AI降生后给人的小小期盼吧……