从谷歌等大型科技公司到 OpenAI 和 Anthropic 等初创公司,人工智能模型正在以令人眼花缭乱的速度涌现。跟踪最新的模型可能会让人不知所措。
更令人困惑的是,人工智能模型通常基于行业基准进行推广。但这些技术指标往往无法揭示真实的人和公司如何使用它们。
为了消除干扰,TechCrunch 汇编了自 2024 年以来发布的最先进 AI 模型的概述,并详细介绍了如何使用它们以及它们最适合什么。我们也会不断更新此列表,发布最新发布的内容。
目前有超过一百万个 AI 模型:例如,Hugging Face就拥有超过 140 万个模型。因此,此列表可能会遗漏一些表现更好的模型。
2025 年发布的 AI 模型
Google Gemini 2.5
谷歌称,推理模型 Gemini 2.5 Pro Experimental 擅长构建 Web 应用和代码代理。然而,与 Claude Sonnet 3.7 相比,它在一项流行的编码基准测试中表现不佳。该模型需要每月 20 美元的 Gemini Advanced 订阅。
ChatGPT-4o 图像生成器
OpenAI已升级其现有的 GPT-4o 模型,使其能够生成图像,而不仅仅是文本。尽管存在明显的版权问题,但升级后的模型很快就因将图像转换成吉卜力工作室风格的动画而走红。访问 GPT-4o 至少需要每月 20 美元的 ChatGPT Plus 订阅。
Stability AI 的稳定虚拟摄像头
图像生成初创公司 Stability AI推出了一个模型,该公司称该模型可以从单个 2D 图像生成 3D 场景和摄像机角度。然而,它仍然难以处理包含人类和流动水等更复杂元素的场景。该模型可在 HuggingFace 上用于非商业研究。
Cohere 的 Aya Vision
Cohere发布了一款名为 Aya Vision 的多模式模型,声称该模型在为图片添加字幕和回答有关照片的问题等方面表现最佳。Cohere 称,与其他模型不同,该模型在英语以外的语言方面也表现出色。该模型可在 WhatsApp 上免费使用。
OpenAI 的 GPT 4.5“Orion”
OpenAI 称 Orion 是他们迄今为止最大的模型,并宣称其拥有强大的“世界知识”和“情商”。然而,与较新的推理模型相比,它在某些基准上表现不佳。Orion 可供 OpenAI 每月 200 美元计划的订阅者使用。
克劳德·桑奈特 3.7
Anthropic 表示,这是业界首个“混合”推理模型,因为它既可以快速给出答案,又可以在需要时真正思考问题。据 Anthropic 称,它还让用户可以控制模型的思考时间。Sonnet 3.7 可供所有 Claude 用户使用,但重度用户需要每月支付 20 美元的 Pro 计划。
xAI 的 Grok 3
Grok 3 是埃隆·马斯克创办的初创公司 xAI 的最新旗舰机型。据称,它在数学、科学和编码方面的表现优于其他领先机型。该机型需要 X Premium(每月 50 美元)。一项研究发现Grok 2 偏左后,马斯克承诺将 Grok 转向更“政治中立”的立场,但目前尚不清楚这是否已实现。
OpenAI o3-mini
这是 OpenAI最新的推理模型,针对编码、数学和科学等 STEM 相关任务进行了优化。它不是 OpenAI 最强大的模型,但由于它体积较小,该公司表示成本明显较低。它是免费的,但重度用户需要订阅。
OpenAI深度研究
OpenAI 的深度研究旨在对具有明确引文的主题进行深入研究。此服务仅适用于 ChatGPT每月 200 美元的 Pro 订阅。OpenAI建议将其用于从科学到购物研究的所有领域,但请注意幻觉仍然是 AI 的一个问题。
米斯特拉尔猫
Mistral推出了多模式人工智能个人助理Le Chat 的应用版本。Mistral声称Le Chat 的响应速度比任何其他聊天机器人都快。它还有一个付费版本,其中包含法新社的最新新闻。 《世界报》的测试发现 Le Chat 的性能令人印象深刻,尽管它比 ChatGPT 犯的错误更多。
OpenAI 操作员
OpenAI 的 Operator旨在成为一名个人实习生,可以独立完成一些事情,比如帮你买杂货。它需要每月支付 200 美元的 ChatGPT Pro 订阅费。人工智能代理很有前途,但它们仍处于实验阶段:《华盛顿邮报》的一位评论员说,Operator自己决定以 31 美元的价格订购一打鸡蛋,用评论员的信用卡支付。
Google Gemini 2.0 Pro 实验版
Google Gemini备受期待的旗舰型号声称它在编码和理解常识方面表现出色。它还拥有一个由 200 万个标记组成的超长上下文窗口,可帮助需要快速处理大量文本的用户。该服务需要(至少)每月 19.99 美元的 Google One AI Premium 订阅。
2024 年发布的 AI 模型
DeepSeek R1
这种中国人工智能模型席卷了硅谷。DeepSeek 的 R1 在编码和数学方面表现出色,而其开源性质意味着任何人都可以在本地运行它。此外,它是免费的。然而,R1 集成了中国政府的审查制度,并因可能将用户数据发回中国而面临越来越多的禁令。
双子座深度研究
Deep Research以简单且引用充分的文档总结了 Google 的搜索结果。该服务对学生和其他需要快速研究摘要的人很有帮助。但是,它的质量远不如实际的同行评审论文。Deep Research 需要 19.99 美元的 Google One AI Premium 订阅。
元骆驼 3.3 70B
这是Meta 开源 Llama AI 模型的最新、最先进的版本。Meta 宣称此版本是迄今为止最便宜、最高效的版本,尤其适用于数学、常识和指令遵循。它是免费的开源版本。
OpenAI Sora
Sora 是一个基于文本创建逼真视频的模型。虽然它可以生成整个场景而不仅仅是片段,但OpenAI 承认它经常会产生“不切实际的物理现象”。它目前仅在 ChatGPT 的付费版本中可用,从 Plus 开始,每月收费 20 美元。
阿里巴巴 Qwen QwQ-32B-预览
该模型是少数可在某些行业基准上与 OpenAI 的 o1 相媲美的模型之一,在数学和编码方面表现出色。具有讽刺意味的是,对于一个“推理模型”,它“在常识推理方面还有改进的空间”,阿里巴巴表示。TechCrunch测试显示,它还融入了中国政府的审查制度。它是免费的开源模型。
Anthropic 的计算机使用
Claude 的 Computer Use 旨在控制您的计算机来完成编码或预订机票等任务,使其成为 OpenAI 的 Operator 的前身。不过,Computer use仍处于测试阶段。定价通过 API 进行:每百万个 token 输入 0.80 美元,每百万个 token 输出 4 美元。
xAI 的 Grok 2
埃隆·马斯克的人工智能公司 xAI 推出了其旗舰 Grok 2 聊天机器人的增强版,据称其速度“快了三倍”。免费用户在 Grok 上每两小时只能问 10 个问题,而 X 的 Premium 和 Premium+ 计划的订阅者则享受更高的使用限制。xAI 还推出了一款图像生成器 Aurora,可以生成高度逼真的图像,包括一些图形或暴力内容。
OpenAI o1
OpenAI 的 o1 系列旨在通过隐藏的推理功能“思考”响应,从而产生更好的答案。OpenAI声称,该模型在编码、数学和安全方面表现出色,但也存在试图欺骗人类的问题。使用 o1 需要订阅 ChatGPT Plus,每月收费 20 美元。
Anthropic 的 Claude Sonnet 3.5
Claude Sonnet 3.5 是 Anthropic声称同类中最好的模型。它以其编码能力而闻名,被认为是技术内幕人士的首选聊天机器人。 该模型可以在 Claude 上免费访问,但重度用户需要每月 20 美元的 Pro 订阅。虽然它可以理解图像,但无法生成图像。
OpenAI GPT 4o-mini
OpenAI称 GPT 4o-mini是迄今为止最实惠、速度最快的模型,这要归功于其小巧的体积。它旨在实现广泛的任务,例如为客户服务聊天机器人提供支持。该模型在 ChatGPT 的免费套餐中可用。与更复杂的任务相比,它更适合大量简单任务。
凝聚命令 R+
Cohere 的Command R+ 模型擅长为企业提供复杂的检索增强生成 (RAG) 应用。这意味着它可以很好地查找和引用特定信息。(RAG 的发明者实际上在 Cohere 工作。)尽管如此,RAG并不能完全解决 AI 的幻觉问题。