人工智能和机器学习是谷歌近年来的热门项目, I/O2023主旨发言 只是让这更明显了。图像创建是这项技术更吸引人的应用之一,谷歌在这一领域的努力也体现在 想象中的 这是一个基于文本的图像生成工具,非常像中途和Del-E2。现在,google正在分享展示图片编辑器的研究成果,其中的文本提示和一些草图足以在图片上执行本地编辑。
谷歌的成像工具已经熟练地从零开始创建图像,仅靠文本提示。然而,如果你对结果不满意,你通常会被迫重组你的提示符,对它进行抛光,并让图像生成器重新启动,仅仅因为图像还不允许编辑你不满意的图像的特定元素。为了解决这个问题谷歌最近 共享研究 为了 影像编辑和编辑 ,实用程序目前正在测试中,但能够用文本提示引导编辑。
不需要使用提示创建新的图像,图像编辑器需要一个必须编辑的图片,一个定义更改的用户的文本提示,以及一个定义需要应用编辑的掩蔽区域。结果的编辑只限于您定义的区域,根据提供的提示进行定制。而且,结果是真实的和自然的。
掩蔽区域和图片编辑的结果"一束红色的花朵","两棵树","图片编辑标志","有绿色叶子的灌木"和"没有树叶的灌木"
从技术上讲,谷歌使用的这个新工具叫做INTIN,它就像是一个图像恢复,或者是一个我们最能描述的东西,即googleAI和Google的内容意识填充的融合。研究人员开发出了新的成像图像编辑器编码器,并在人工智能中加入了一个目标检测模块,以补偿不完整或不准确的掩模。
这项研究还包括一个名为编辑工作台的工具,用来评估文本引导的绘画效果。基于240图像数据集,基准评估了人为和人工生成的图像的修改参数,如修改的对象,他们的属性,如形状,大小,数字,和适合的场景。谷歌观察到,目标掩蔽有助于提高图像文本的一致性,使图像图像编辑器比其他版本更好,比如Del-E2和所有类别的稳定扩散测试。
不幸的是,谷歌对于人工智能的使用没有明确说明,这也是为什么谷歌不会向公众发布图片编辑的原因。公司最近 拟议框架 为了保护AI的开发,希望能在让人们访问像图片编辑器这样的工具之前建立一些硬限制。好的一面是,编辑台可以免费提供,以帮助进一步的人工智能研究。与此同时,我们仍然对基本模型------------------------------------------------------ 集成到板上 。