终于找到答案了!DeepSeek凭啥能给出这么丰富的答案 - 反事实推理(上)

为什么deepseek的回答如此丰富,如此多维度? 今天和大家聊聊,deepseek核心技术(之一):反事实推理。 什么是反事实推理?

为什么deepseek的回答如此丰富,如此多维度?

今天和大家聊聊,deepseek核心技术(之一):反事实推理。

终于找到答案了!DeepSeek凭啥能给出这么丰富的答案 - 反事实推理(上)

什么是反事实推理?

Counterfactual Reasoning,它是一种通过构建与事实相反的假设性情景,探索因果关系和潜在结果的逻辑推理方法。

举个例子:

如果我是帅哥,短视频流量会怎样?

我是帅哥吗?不是,这个假设有违事实。

但基于这个假设,会怎么样呢?

探索一下其中的因果关系与潜在结果。

为什么说反事实推理对deepseek帮助极大呢?

其一,能突破数据量上限。

传统的大模型,比拼的都是数据量与参数量,需要大量的互联网数据。但互联网数据毕竟是有限的,最多把全网的数据都拿来训练,对吧?

有没有办法突破全网数据量上限呢?

有的,虚构数据,反事实推理模拟各种场景,来增强训练样本。

其二,助力因果发现,加强结果的解释性,关联性,因果性。

会有人问,虚构训练数据,那回复的置信度会打折扣吧?

与之相反,反事实推理有着严密的数学模型,因果推断三层次模型,它由美国计算机科学家Pearl提出,是因果推理理论的核心框架。

因果推断有哪三层次?

第一层:关联,Association。这一层关注条件概率P(Y|X),是传统统计学和机器学习的主要关注点。

这一层能回答:是否具备相关性。

但无法回答:是否具备因果性。

举例,通过观察事实发现:P(肺癌|吸烟) > P(肺癌|不吸烟)

推理得出:肺癌与吸烟相关

但无法推出:吸烟导致肺癌

第二层:干预,Aintervention。这一层关注P(Y|do(X)),即主动干预某一变量,观察对结果的影响。

这一层能够回答:如果怎么样(施加了干预),会怎么样。

举例,强制所有人抽烟,然后继续观察事实发现:

  • P(肺癌|do(吸烟=100%)) > P(肺癌)
  • P(肺癌|do(吸烟=100%)) != 100%

推理得出:

  • 吸烟会使肺癌概率上升;
  • 但吸烟不是导致肺癌的原因;

第三层:反事实,Counterfactuals。这一层研究假设性问题,关注xxoo(公式不会输入)。

这一层关注:如果采取了不同的行动,结果会如何。这里面会用到结构因果建模SCM,反事实计算,可识别性分析等知识,不详细展开。

画外音:楼主没研究透,所以打马虎眼一笔带过(这一句发布时删除)。

举例:如果某吸烟者当初未吸烟,肺癌的概率会如何变化。

反事实推理在责任判定(例如:医疗事故归因),个性化决策(如果xx怎么样,如果xx怎样),人工智能因果解释性上有大量应用。

总之,通过反事实推理,deepseek能够更好地揭示变量间的因果链。

其三:避免单一输出,加强分析维度。

这一点用过deepseek的童鞋感受上应该都比较直观。

终于找到答案了!DeepSeek凭啥能给出这么丰富的答案 - 反事实推理(上)

你看,deepseek的回答丰富度极高:

  • 构造假设,尝试多方案;
  • 多方案进行数据对比;
  • 差异归因;
  • 给出结论与建议;

总的来说,deepseek在提示词优化引擎,因果推理模块,解释性增强模块,结论输出模块… 等算法、策略、工程架构中都深度结合了反事实推理,其对deepseek的崛起功不可没。

反事实推理,对我们写提示词,获取更佳的回答质量有什么启示呢?

下一篇见。。

总结

  • 反事实推理是deepseek的核心技术(之一);
  • 反事实推理,是一种通过构建与事实相反的假设性情景,探索因果关系和潜在结果的逻辑推理方法;
  • 反事实推理,有着严密的数学模型,属于因果推断第三层次;
  • 反事实推理,能帮deepseek突破数据量上限,加强结果解释性,提升回复丰富度;

知其然,知其所以然。

思路比结论更重要。

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

DeepSeek-R1详细解读!

DeepSeek-R1爆火,今天来详细看下。 论文地址::::现有LLMs在推理任务上的改进主要依赖监督微调(SFT)和后训练(Post-Training)方法,但这些方法需要大量人工标注数据且成本高昂。 OpenAI的o1系列模型虽通过扩展推理链(Chain-of-Thought, CoT)提升了性能,但其测试时扩展仍存在挑战。

服务器总是繁忙?DeepSeek-R1本地部署图文版教程来啦

最近一段时间,国产大模型DeepSeek-R1在市场上迅速崛起,成为了众多用户的新宠。 然而,伴随其热度与用户量的急剧攀升,由此导致服务器繁忙的状况频繁出现。 为了摆脱服务器繁忙的困扰,本地部署DeepSeek-R1成为了一个绝佳的解决方案,这不仅减少了对网络连接的依赖,还能增强数据安全性。