字节推文生图框架InfiniteYou :可保持人脸特征,场景随便换

83
2025-03-21

字节跳动悄悄咪咪推出了一款名为 InfiniteYou (InfU), 的图像生成神器。简单的说,这是一款文本到图像的生成模型,它的厉害之处在于,能够根据你输入的文字描述,生成带有你个人身份特征的高质量图像



这可不是简单的换脸App能比的,它更注重的是在灵活变换场景和内容的同时,精准保留你的身份特征。想象一下,你可以轻松生成自己穿着宇航服漫步太空、身着古装穿越回古代的照片,而且保证那张脸还是你自己的,是不是很酷?


InfiniteYou”之所以能做到这一点,背后可有着一套“组合拳”。



  • 核心武器:InfuseNet。“InfiniteYou”的核心是一个名为 InfuseNet 的秘密武器。它可以将你的身份特征巧妙地注入到被称为 Diffusion Transformer (DiT) 的先进图像生成模型(比如 FLUX)中。InfuseNet就像一位技艺高超的化妆师,通过“残差连接”这种精细的操作,在增强人脸相似度的同时,还不破坏原有的生成能力。

  • 多阶段训练:精益求精。“InfiniteYou”的炼成并非一蹴而就,而是经历了预训练和使用合成的单人多样本(SPMS)数据进行监督微调(SFT)等多重考验。这种精细化的训练策略,能够显著提升文本和图像的对齐度,让生成的图像更符合你的文字描述,同时还能提高图像质量和美观度,并有效缓解“换脸”后常见的面部复制粘贴问题

  • 模型“双保险”:各有侧重。字节跳动这次还贴心地发布了 aes_stage2 和 sim_stage1 两个模型版本。aes_stage2 是经过第二阶段微调的模型,默认情况下拥有更好的文图对齐度和美观性。如果你更看重人脸的相似度,那么可以选择 sim_stage1。这就像买手机,一个注重拍照效果,一个注重性能,总有一款适合你。


通过对比实验可以看出,“InfiniteYou”在身份相似性、文本图像对齐、图像质量和美观度等方面,都超越了现有的先进方法,比如 FLUX.1-dev IP-Adapter 和 PuLID-FLUX。那些方法要么人脸不像,要么文字描述和图像内容不符,要么就是图像质量堪忧,甚至出现“换脸”后脸部特征生硬粘贴的问题。相比之下,“InfiniteYou”的表现更加全面和出色。


更令人惊喜的是,“InfiniteYou”还具备**“即插即用”**的特性。它可以与 FLUX.1-dev 的各种变体(比如更高效的 FLUX.1-schnell)、ControlNets 和 LoRAs 等现有工具无缝集成,提供更强的可控性和定制化能力。甚至还可以与 IP-Adapter 结合,实现个性化图像的风格迁移。这种强大的兼容性,无疑将为更广泛的社区做出有价值的贡献。


需要注意的是,“InfiniteYou”目前是基于 Creative Commons Attribution-NonCommercial4.0International Public License 发布的,仅供学术研究使用。下载和使用相关的模型(如 InsightFace 的人脸模型、FLUX.1-dev 基础模型和 LoRA 等)必须遵守其原始许可。同时,开发者也希望用户能够遵守当地法律法规,负责任地使用这项技术,避免任何潜在的滥用行为

79584
文章来源于网络,如有侵权请联系本站删除
精选二手好课
更多>>
年卡|低价出还有书
专升本
¥1800
次卡|沧州 木/电吉他一对一课程转让 线上线下均可
吉他课
¥2600
次卡|Hellokid纯欧美英语外教一对一
欧美英语外教一对一
¥12000
年卡|便宜转让
健身年卡+私教课
¥10000
次卡|低价转让
瑜伽
¥75
年卡|JS舞蹈(珠海井岸店)双项教练班年卡转让
古典舞,JAZZ,K-POP,HIPPOP
¥9000
年卡|注册会计师会计、审计、财管强化阶段课程转让
注册会计师
¥3680
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000
73
AI资讯

字节推文生图框架InfiniteYou :可保持人脸特征,场景随便换

收录于合集

字节跳动悄悄咪咪推出了一款名为 InfiniteYou (InfU), 的图像生成神器。简单的说,这是一款文本到图像的生成模型,它的厉害之处在于,能够根据你输入的文字描述,生成带有你个人身份特征的高质量图像



这可不是简单的换脸App能比的,它更注重的是在灵活变换场景和内容的同时,精准保留你的身份特征。想象一下,你可以轻松生成自己穿着宇航服漫步太空、身着古装穿越回古代的照片,而且保证那张脸还是你自己的,是不是很酷?


InfiniteYou”之所以能做到这一点,背后可有着一套“组合拳”。



  • 核心武器:InfuseNet。“InfiniteYou”的核心是一个名为 InfuseNet 的秘密武器。它可以将你的身份特征巧妙地注入到被称为 Diffusion Transformer (DiT) 的先进图像生成模型(比如 FLUX)中。InfuseNet就像一位技艺高超的化妆师,通过“残差连接”这种精细的操作,在增强人脸相似度的同时,还不破坏原有的生成能力。

  • 多阶段训练:精益求精。“InfiniteYou”的炼成并非一蹴而就,而是经历了预训练和使用合成的单人多样本(SPMS)数据进行监督微调(SFT)等多重考验。这种精细化的训练策略,能够显著提升文本和图像的对齐度,让生成的图像更符合你的文字描述,同时还能提高图像质量和美观度,并有效缓解“换脸”后常见的面部复制粘贴问题

  • 模型“双保险”:各有侧重。字节跳动这次还贴心地发布了 aes_stage2 和 sim_stage1 两个模型版本。aes_stage2 是经过第二阶段微调的模型,默认情况下拥有更好的文图对齐度和美观性。如果你更看重人脸的相似度,那么可以选择 sim_stage1。这就像买手机,一个注重拍照效果,一个注重性能,总有一款适合你。


通过对比实验可以看出,“InfiniteYou”在身份相似性、文本图像对齐、图像质量和美观度等方面,都超越了现有的先进方法,比如 FLUX.1-dev IP-Adapter 和 PuLID-FLUX。那些方法要么人脸不像,要么文字描述和图像内容不符,要么就是图像质量堪忧,甚至出现“换脸”后脸部特征生硬粘贴的问题。相比之下,“InfiniteYou”的表现更加全面和出色。


更令人惊喜的是,“InfiniteYou”还具备**“即插即用”**的特性。它可以与 FLUX.1-dev 的各种变体(比如更高效的 FLUX.1-schnell)、ControlNets 和 LoRAs 等现有工具无缝集成,提供更强的可控性和定制化能力。甚至还可以与 IP-Adapter 结合,实现个性化图像的风格迁移。这种强大的兼容性,无疑将为更广泛的社区做出有价值的贡献。


需要注意的是,“InfiniteYou”目前是基于 Creative Commons Attribution-NonCommercial4.0International Public License 发布的,仅供学术研究使用。下载和使用相关的模型(如 InsightFace 的人脸模型、FLUX.1-dev 基础模型和 LoRA 等)必须遵守其原始许可。同时,开发者也希望用户能够遵守当地法律法规,负责任地使用这项技术,避免任何潜在的滥用行为

79584
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
年卡|低价出还有书
专升本
¥1800
次卡|沧州 木/电吉他一对一课程转让 线上线下均可
吉他课
¥2600
次卡|Hellokid纯欧美英语外教一对一
欧美英语外教一对一
¥12000
年卡|便宜转让
健身年卡+私教课
¥10000
次卡|低价转让
瑜伽
¥75
年卡|JS舞蹈(珠海井岸店)双项教练班年卡转让
古典舞,JAZZ,K-POP,HIPPOP
¥9000
年卡|注册会计师会计、审计、财管强化阶段课程转让
注册会计师
¥3680
次卡|广州奥园广场芒果健身私教课转让
康复课、常规私教课
¥7500
次卡|瑜伽课转让
小班课
¥4263
年卡|大刊牛文课转让
大刊牛文课
¥1000