Cryptonews

革命性的人工智能升级揭晓:DeepSeek 最新版本将溢价费用削减至 GPT 5.5 价格标签的一小部分

来源
cryptonewstrend.com
已发布
革命性的人工智能升级揭晓:DeepSeek 最新版本将溢价费用削减至 GPT 5.5 价格标签的一小部分

简而言之

DeepSeek发布了其新的V4-Pro模型,拥有1.6万亿个参数。

每百万个输入/输出代币的成本为 1.74 美元/3.48 美元,大约是 Claude Opus 4.7 价格的 1/20,比 GPT 5.5 Pro 便宜 98%。

DeepSeek 部分使用华为 Ascend 芯片训练 V4,规避了美国的出口限制,并表示一旦 2026 年晚些时候 950 个新超级节点上线,Pro 型号本已很低的价格将进一步下降。

DeepSeek 又回来了,它在 OpenAI 放弃 GPT-5.5 几个小时后出现。巧合?或许。但如果你是一家中国人工智能实验室,过去三年来美国政府一直试图通过芯片出口禁令来放慢速度,那么你的时机感就会变得非常敏锐。

位于杭州的实验室今天发布了 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 的预览版本,均为开放重量,均具有 100 万个令牌上下文窗口。这意味着在模型崩溃之前,您基本上可以使用与《指环王》三部曲差不多大小的环境。两者的价格也远低于西方同类产品,而且对于那些能够在本地运行的人来说都是免费的。

DeepSeek 的最后一次重大颠覆是 2025 年 1 月的 R1,一天之内就让 Nvidia 的市值蒸发了 6000 亿美元,因为投资者质疑美国公司是否真的需要如此巨额投资才能产生一个中国小型实验室仅花费一小部分成本就能取得的成果。 V4 是一种不同的举措:更安静、更具技术性,并且更注重实际使用 AI 进行构建的任何人的效率。

两种模式,截然不同的工作

在这两个新模型中,DeepSeek 的 V4-Pro 是最大的模型,总参数达到 1.6 万亿个。从角度来看,参数是模型用来存储知识和识别模式的内部“设置”或“脑细胞”——模型拥有的参数越多,理论上它可以容纳的信息就越复杂。这使其成为迄今为止 LLM 市场上最大的开源模型。这个大小可能听起来很荒谬,直到您了解到它每次推理过程仅激活 490 亿个。

这是 DeepSeek 自 V3 以来改进的专家混合技巧:完整的模型位于那里,但只有其中的相关部分会针对任何给定的请求而唤醒。更多的知识,相同的计算费用。

Deepseek 在 Huggingface 上的模型官方卡片中写道:“DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的最大推理能力模式,显着提高了开源模型的知识能力,牢固地确立了自己作为当今最好的开源模型的地位。” “它在编码基准测试中实现了顶级性能,并显着缩小了与领先的推理和代理任务闭源模型的差距。”

V4-Flash 是实用的:2840 亿个总参数,130 亿个活跃参数。它的设计速度更快、成本更低,并且根据 DeepSeek 自己的基准测试,“在给予更大的思维预算时,可实现与 Pro 版本相当的推理性能。”

两者都支持一百万个上下文令牌。这大约是 750,000 个单词——大约是整个《指环王》三部曲加上改动的部分。这是一个标准功能,而不是高级功能。

Deepseek 的(并非如此)秘密武器:让大规模的注意力变得不那么可怕

这是为书呆子或那些对模型的魔力感兴趣的人提供的技术部分。 Deepseek 并没有隐藏它的秘密,而且一切都是免费的——完整的论文可以在 Github 上找到。

标准人工智能注意力(让模型理解单词之间关系的机制)存在严重的扩展问题。每次将上下文长度加倍时,计算成本大约会增加四倍。因此,在 100 万个代币上运行模型的成本不仅仅是 500,000 个代币的两倍。价格是它的四倍。这就是为什么长上下文历史上一直是实验室添加的复选框,然后默默地限制速率限制。

DeepSeek 发明了两种新的注意力类型来解决这个问题。第一个是压缩稀疏注意力,分两步进行。它首先将令牌组(例如,每 4 个令牌)压缩为单个条目。然后,它不会处理所有这些压缩条目,而是使用“闪电索引器”仅挑选与任何给定查询最相关的结果。你的模型从关注一百万个令牌到关注一小部分最重要的块,有点像图书管理员,他不会阅读每本书,但确切地知道要检查哪个书架。

第二种是严重压缩注意力,更具侵略性。它将每 128 个标记折叠成一个条目——没有稀疏选择,只有残酷的压缩。你会失去细粒度的细节,但你会得到极其廉价的全局视图。两种注意力类型在交替层中运行,因此模型同时获得细节和概述。

技术论文的结果是:在 100 万个代币的情况下,V4-Pro 使用了其前身 (V3.2) 所需计算量的 27%。 KV 缓存(模型跟踪上下文所需的内存)下降到 V3.2 的 10%。 V4-Flash 进一步推动了这一点:10% 的计算,7% 的内存