致力于研究人工智能模型压缩算法的欧洲初创公司Pruna AI于周四开源了其优化框架。
Pruna AI 一直在创建一个框架,将缓存、修剪、量化和提炼等多种效率方法应用于给定的 AI 模型。
Pruna AI 联合创始人兼首席技术官 John Rachwan 告诉 TechCrunch:“我们还标准化了压缩模型的保存和加载,应用这些压缩方法的组合,并在压缩后评估压缩模型。”
具体来说,Pruna AI 的框架可以评估压缩模型后是否存在明显的质量损失以及获得的性能提升。
“如果打个比方,我们的做法类似于 Hugging Face 标准化变压器和扩散器的方式——如何调用它们、如何保存它们、加载它们等等。我们也在做同样的事情,但采用的是效率方法,”他补充道。
大型 AI 实验室已经在使用各种压缩方法。例如,OpenAI 一直依靠提炼来创建其旗舰模型的更快版本。
OpenAI 很可能就是这样开发 GPT-4 Turbo(GPT-4 的更快版本)的。同样,Flux.1-schnell图像生成模型是 Black Forest Labs 的 Flux.1 模型的精简版本。
知识蒸馏是一种从具有“师生”模型的大型 AI 模型中提取知识的技术。开发人员向教师模型发送请求并记录输出。有时将答案与数据集进行比较,以查看其准确性。然后使用这些输出来训练学生模型,该模型经过训练可以近似教师的行为。
“对于大公司来说,他们通常会在内部构建这些东西。而在开源世界中,你所能找到的通常都是基于单一方法。例如,假设一种用于 LLM 的量化方法,或一种用于扩散模型的缓存方法,”Rachwan 说。“但你找不到一个工具来聚合所有这些方法,使它们易于使用和组合在一起。而这正是 Pruna 现在带来的巨大价值。”
虽然 Pruna AI 支持任何类型的模型,从大型语言模型到扩散模型、语音到文本模型和计算机视觉模型,但该公司目前更专注于图像和视频生成模型。
Pruna AI 的现有用户包括Scenario和PhotoRoom。除了开源版本外,Pruna AI 还提供了具有高级优化功能的企业版,其中包括优化代理。
“我们即将发布的最令人兴奋的功能是压缩代理,”Rachwan 说道。“基本上,你给它你的模型,你说:‘我想要更快的速度,但不要让我的准确率下降超过 2%。’然后,代理就会发挥它的魔力。它会为你找到最佳组合,并将其返回给你。作为开发人员,你什么都不用做。”
Pruna AI 的专业版按小时收费。“这类似于你在 AWS 或任何云服务上租用 GPU 时的想法,”Rachwan 说。
如果您的模型是 AI 基础设施的关键部分,那么使用优化模型最终会为您节省大量推理成本。例如,Pruna AI 使用其压缩框架将 Llama 模型缩小了八倍,而损失却没有太多。Pruna AI 希望其客户将其压缩框架视为一项物有所值的投资。
几个月前,Pruna AI 筹集了 650 万美元的种子资金。这家初创公司的投资者包括 EQT Ventures、Daphni、Motier Ventures 和 Kima Ventures。