AI 往往会编造事情。这对任何经常使用它的人来说都没有吸引力,尤其是对企业来说,因为错误的结果可能会损害底线。在 Salesforce 最近的一项调查中,有一半的员工表示,他们担心公司的生成式 AI 驱动的系统的回答不准确。
虽然没有任何技术可以解决这些 “幻觉”,但有些技术可以提供帮助。例如,检索增强生成 (RAG) 将 AI 模型与知识库配对,以便在模型回答之前提供补充信息,作为一种事实核查机制。
由于对更可靠的 AI 的极高需求,整个业务都建立在 RAG 上。Voyage AI 就是其中之一。Voyage 由斯坦福大学教授 Tengyu 马于 2023 年创立,为 Harvey、Vanta、Replit 和 SK Telecom 等公司提供 RAG 系统支持。
“Voyage的使命是提高企业人工智能的搜索和检索准确性和效率,”马在接受TechCrunch采访时说。“Voyage 解决方案针对特定领域(例如编码、财务、法律和多语言应用程序)量身定制,并根据公司的数据量身定制。”
为了启动 RAG 系统,Voyage 训练 AI 模型将文本、文档、PDF 和其他形式的数据转换为称为向量嵌入的数字表示形式。嵌入以紧凑的格式捕获不同数据点之间的含义和关系,使其可用于与搜索相关的应用程序,如 RAG。
Voyage 使用一种称为上下文嵌入的特定类型的嵌入,它不仅可以捕获数据的语义含义,还可以捕获数据出现的上下文。例如,给定句子“I sat on the bank of the river”和“I deposited money in the bank”中的单词“bank”,Voyage 的嵌入模型将为“bank”的每个实例生成不同的向量,以反映上下文隐含的不同含义。
Voyage 托管和许可其模型以供本地、私有云或公共云使用,并为选择为这项服务付费的客户微调其模型。在这方面,该公司并不是独一无二的 - OpenAI也有一个可定制的嵌入服务 - 但马声称Voyage的模型以更低的成本提供更好的性能。
“在 RAG 中,给定一个问题或查询,我们首先从非结构化知识库中检索相关信息,就像图书管理员从图书馆搜索书籍一样,”他解释说。“传统的 RAG 方法在信息编码过程中经常遇到上下文丢失问题,导致无法检索相关信息。Voyage 的嵌入模型具有一流的检索准确性,这转化为 RAG 系统的端到端响应质量。
为这些大胆的主张提供分量的是 OpenAI 主要竞争对手 Anthropic 的认可;Anthropic 支持文档将 Voyage 的模型描述为“最先进的”。
“Voyage 的方法使用在公司数据上训练的向量嵌入来提供上下文感知检索,”马 说,“这显著提高了检索的准确性。
马 说,总部位于帕洛阿尔托的 Voyage 只有 250 多个客户。他拒绝回答有关收入的问题。
9 月,拥有十几名员工的 Voyage 完成了 2000 万美元的 A 轮融资,该轮融资由 CRV 领投,Wing VC、Conviction、Snowflake 和 Databricks 参投。马 表示,这笔现金注入使 Voyage 的总融资额达到 2800 万美元,将支持新嵌入模型的推出,并将使公司的规模扩大一倍。