谷歌正在升级其视觉搜索应用程序 Lens,使其能够近乎实时地回答有关您周围环境的问题。
安装了 Google 应用的讲英语的 Android 和 iOS 用户现在可以开始通过 Lens 拍摄视频,并询问有关视频中感兴趣的对象的问题。
Lens 产品管理总监 Lou Wang 表示,该功能使用“定制”的 Gemini 模型来理解视频和相关问题。Gemini 是 Google 的 AI 模型系列,为公司产品组合中的许多产品提供支持。
“假设你想更多地了解一些有趣的鱼,”Wang 在新闻发布会上说。“[Lens 将] 提供一份概述,解释他们为什么围成一圈游泳,并提供更多资源和有用信息。”
要使用 Lens 的新视频分析功能,您必须注册 Google 的 Search Labs 计划,并在 Labs 中选择“AI 概述等”实验功能。在 Google 应用程序中,按住智能手机的快门按钮会激活 Lens 的视频拍摄模式。
在录制视频时提出问题,Lens 将链接到 AI Overviews 提供的答案,AI Overview 是 Google 搜索中的功能,使用 AI 来总结来自网络的信息。
Google Lens 视频
据 Wang 介绍,Lens 使用 AI 来确定视频中的哪些帧最“有趣”和最突出,最重要的是,与所提出的问题相关,并使用这些帧来“基础”AI 概述中的答案。
“所有这一切都来自对人们现在如何尝试使用 Lens 之类的东西的观察,”Wang 说。“如果你降低提出这些问题的门槛并帮助人们满足他们的好奇心,人们就会很自然地接受这一点。”
Lens 视频的推出是 Meta 上个月为其 AR 眼镜预览的类似功能 Ray-Ban Meta 之后推出的。Meta 计划为眼镜带来实时 AI 视频功能,让佩戴者可以询问有关周围事物的问题(例如,“这是什么类型的花?
OpenAI 还预告了一项功能,可以让其高级语音模式工具理解视频。最终,高级语音模式——一项高级 ChatGPT 功能——将能够实时分析视频,并在回答您时考虑上下文。
谷歌似乎已经击败了这两家公司——减去 Lens 是异步的(你不能实时与它聊天),并假设视频功能像宣传的那样工作。在新闻发布会期间,我们没有看到现场演示,而谷歌在其 AI 功能方面历来承诺过高。
除了视频分析之外,Lens 现在还可以一次性搜索图像和文本。讲英语的用户(包括未注册 Labs 的用户)可以启动 Google 应用并按住快门按钮拍照,然后通过大声说出问题。
最后,Lens 获得了特定于电子商务的新功能。
从今天开始,当 Android 或 iOS 版 Lens 识别出产品时,它将显示有关该产品的信息,包括价格和交易、品牌、评论和库存。商品编码适用于上传的照片和新拍摄的照片(但不适用于视频),目前仅限于部分国家/地区和某些购物品类,包括电子产品、玩具和美妆商品。
“假设你看到了一个背包,并且你喜欢它,”Wang 说。“您可以使用 Lens 来识别该产品,您将能够立即看到您可能想知道的细节。”
这也有一个广告成分。谷歌表示,Lens 识别产品的结果页面还将展示带有选项和价格的“相关”购物广告。
为什么在 Lens 中粘贴广告?因为根据 Google 的数据,每月大约有 40 亿次 Lens 搜索与购物有关。对于一家以广告为命脉的科技巨头来说,这是一个不容错过的有利可图的机会。