多模态检索新突破!智源开源多模态向量模型BGE-VL

63
2025-03-06

2025年3月6日,北京智源人工智能研究院宣布开源多模态向量模型BGE-VL,这一成果标志着多模态检索领域的新突破。BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果,显著提升了多模态检索的性能。


BGE-VL的开发基于大规模合成数据集MegaPairs,该数据集通过结合多模态表征模型、多模态大模型和大语言模型,从海量图文语料库中高效挖掘多模态三元组数据。这一方法不仅具备优异的可扩展性,能够以极低成本持续生成多样化且高质量的数据,还大幅提升了数据质量。与传统人工标注数据相比,MegaPairs仅需1/70的数据量即可实现更优的训练效果。


在技术实现上,MegaPairs的构造分为两个关键步骤:首先,使用多种相似度模型从图像数据集中挖掘多样的图像对;其次,利用开源的多模态大模型和大语言模型合成开放域检索指令。通过这一方法,MegaPairs无需人工参与,即可扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。此次发布的版本涵盖了2600万条样本,为多模态检索模型的训练提供了丰富的数据支持。



基于MegaPairs数据集,智源BGE团队训练了3款不同尺寸的多模态检索模型,包括BGE-VL-Base、BGE-VL-Large和BGE-VL-MLLM。这些模型在多个任务上展现了远超以往方法的领先性能。在Massive Multimodal Embedding Benchmark(MMEB)的36个多模态嵌入评测任务中,BGE-VL在零样本性能和有监督微调后的性能上均实现了最优表现,证明了其良好的任务泛化能力。


在组合图像检索任务中,BGE-VL在CIRCO评测集上刷新了现有基准,大幅超越了谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点,而BGE-VL-Base模型以不到1/50的参数量超越了其他大模型底座的多模态检索器。


此外,研究还表明,MegaPairs数据集具有良好的可扩展性和高效性。随着数据规模的增加,BGE-VL模型表现出一致的性能增长趋势。与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)即可实现显著的性能优势。

78551
文章来源于网络,如有侵权请联系本站删除
精选二手好课
更多>>
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890
次卡|昆明海伦国际七田阳光早教课100节
早教课
¥9000
次卡|西安A索国际早教转课,还剩129节,赠送4节课!
早教课
¥9000
次卡|海口本人在高米早教课有100节,打包9000
早教课
¥9000
次卡|济南市中区欧亚大观金宝贝幼儿早教中心课程
早教课
¥9000
次卡|深圳小马快跑早教,200多一节课现在转让140一节
早教课
¥9400
次卡|北京转纽约国际早教,9800,75节课,可以上蓝色港湾店等很多店
早教课
¥9800
次卡|[new]泰州[右]NYC纽约国际泰州早教中心[右]年卡出售[hot]
早教课
¥9850
年卡|西安西安麦吉森林托育课程一个月➕15天
早教课
¥9999
73
AI资讯

多模态检索新突破!智源开源多模态向量模型BGE-VL

收录于合集

2025年3月6日,北京智源人工智能研究院宣布开源多模态向量模型BGE-VL,这一成果标志着多模态检索领域的新突破。BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果,显著提升了多模态检索的性能。


BGE-VL的开发基于大规模合成数据集MegaPairs,该数据集通过结合多模态表征模型、多模态大模型和大语言模型,从海量图文语料库中高效挖掘多模态三元组数据。这一方法不仅具备优异的可扩展性,能够以极低成本持续生成多样化且高质量的数据,还大幅提升了数据质量。与传统人工标注数据相比,MegaPairs仅需1/70的数据量即可实现更优的训练效果。


在技术实现上,MegaPairs的构造分为两个关键步骤:首先,使用多种相似度模型从图像数据集中挖掘多样的图像对;其次,利用开源的多模态大模型和大语言模型合成开放域检索指令。通过这一方法,MegaPairs无需人工参与,即可扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。此次发布的版本涵盖了2600万条样本,为多模态检索模型的训练提供了丰富的数据支持。



基于MegaPairs数据集,智源BGE团队训练了3款不同尺寸的多模态检索模型,包括BGE-VL-Base、BGE-VL-Large和BGE-VL-MLLM。这些模型在多个任务上展现了远超以往方法的领先性能。在Massive Multimodal Embedding Benchmark(MMEB)的36个多模态嵌入评测任务中,BGE-VL在零样本性能和有监督微调后的性能上均实现了最优表现,证明了其良好的任务泛化能力。


在组合图像检索任务中,BGE-VL在CIRCO评测集上刷新了现有基准,大幅超越了谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点,而BGE-VL-Base模型以不到1/50的参数量超越了其他大模型底座的多模态检索器。


此外,研究还表明,MegaPairs数据集具有良好的可扩展性和高效性。随着数据规模的增加,BGE-VL模型表现出一致的性能增长趋势。与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)即可实现显著的性能优势。

78551
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890
次卡|昆明海伦国际七田阳光早教课100节
早教课
¥9000
次卡|西安A索国际早教转课,还剩129节,赠送4节课!
早教课
¥9000
次卡|海口本人在高米早教课有100节,打包9000
早教课
¥9000
次卡|济南市中区欧亚大观金宝贝幼儿早教中心课程
早教课
¥9000
次卡|深圳小马快跑早教,200多一节课现在转让140一节
早教课
¥9400
次卡|北京转纽约国际早教,9800,75节课,可以上蓝色港湾店等很多店
早教课
¥9800
次卡|[new]泰州[右]NYC纽约国际泰州早教中心[右]年卡出售[hot]
早教课
¥9850
年卡|西安西安麦吉森林托育课程一个月➕15天
早教课
¥9999