谷歌最新宣布,Android Studio中的Gemini助手已升级支持多模态输入功能,开发者现在可以直接将图像附加到提示中,以获取应用程序开发过程中的视觉辅助。
这项多模态功能最初在I/O2024大会上亮相,升级后的Gemini现能够"理解简单的线框,并将其转换为可用的Jetpack Compose代码"。在Android Studio Narwal的Canary版本中,Ask Gemini字段新增了"附加图像文件"(支持JPEG或PNG格式)选项。谷歌建议用户使用具有"强烈色彩对比"的图像并提供"清晰的提示"以获得最佳效果。
开发者可以上传从简单线框到高保真模型的各类屏幕截图和用户界面,并能指定预期功能。例如,在计算器设计示例中,可以要求"使交互和计算按预期工作"。
将视觉设计转化为功能性UI代码的典型提示包括:1."针对所提供的此图像,编写Android Jetpack Compose代码以制作尽可能接近此图像的屏幕。确保包含导入、使用Material3并记录代码。"2."对于提供的这张图片,编写Android Jetpack Compose代码以制作尽可能接近此图片的屏幕,在颜色上发挥创意。使交互和计算按预期进行。确保包含导入、使用Material3并记录代码。"
谷歌将Gemini定位为提供"初始设计框架"的工具,生成的代码通常需要进一步编辑和调整。常见的改进包括确保正确导入可绘制对象和图标。谷歌建议将生成的代码视为高效起点,从而加速UI开发工作流程。
此外,Gemini的视觉分析功能还可用于识别和解决错误,开发者可以"上传有问题的UI的屏幕截图,Gemini将分析该图像并提出潜在的解决方案"。开发者还可以附加相关代码片段以获得更精确的帮助。
Android Studio中的Gemini还支持上传架构图并获取解释或文档,类似于此前在I/O大会上展示的Gemini Astra眼镜功能。