替换
查找内容:
替换为:
全部替换
插入链接
链接网址:
链接显示标题:
请选择网址类型
点我插入链接
插入文件
文件名称:
文件显示标题:
请选择文件类型
点我插入文件
发现错误 发表观点

原文内容

反馈意见

提交 正在提交..... 反馈历史

复制下面的地址分享给好友

确定 正在提交.....
train

你好,

关闭
提交 重做 重新开始 关闭
跳转
  • 新建同级
  • 新建子级
  • 删除
  • 重命名
选择收藏夹
新建收藏夹
公开

取消 确定

1. 基本信息
姓名:
企业:
职位:
联系方式:
邮箱:
2. 请在此填写您的问题,我们将优先安排答疑
提交

报名成功!
课程观看链接如下:
请添加课程助理微信,获得更多信息:
确认
确定
取消 确认

识林

  • 知识
  • 视频
  • 社区
  • 政策法规
    • 国内药监
    • FDA
    • EU
    • PIC/S
    • WHO
    • ICH
    • MHRA
    • PMDA
    • TGA
  • 研发注册
    • 概览
    • 监管动态
    • 研究专题
  • 生产质量
    • 概览
    • 监管动态
    • 各国GMP
    • 中国GMP
    • 中国GMP指南
    • GMP对比
    • 检查缺陷
    • 研究专题
  • 主题词库
  • 帮助中心
  • 关于识林
    • 识林介绍
    • 识林FAQs
    • 功能介绍
    • 团队诊断
    • 联系我们
  • 30天免登录

    忘记密码?

【周末杂谈】大模型推理的局限性

首页 > 资讯 > 【周末杂谈】大模型推理的局限性

页面比对

出自识林

【周末杂谈】大模型推理的局限性
页面比对
笔记

2025-06-15

跳转到: 导航, 搜索

LLM和LRM随着任务复杂度的增加,会完全丧失推理能力

十天前,苹果公司的研发团队发布了一篇AI研究论文。不愧是出自苹果之手,无论是新颖的方法论,让人意想不到的结果和结论,还是论文写作的精炼和插图的精美,都令人耳目一新。

笔者非AI专家,难以专业地对论文说三道四。下面只是对论文做简要介绍,有兴趣的读者可在网上查阅原文(The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity)。

论文提出了一套深入、系统研究语言大模型(LLM)和推理大模型(LRM)推理轨迹和质量的方法论。创新点在提出了一组在维持整体逻辑不变的条件下,可控地逐步提高任务复杂度的应用场景和测试数据集,从而可定量、系统地研究大模型的推理过程和结果。论文的主要结论如下。

  • 推理工作量随任务复杂度的增加而增加。但达到一定程度后,即使给足够的提示和算力,其推理工作量也会下降。也就是当任务复杂了,尽管多给提示和算力,大模型也会撂挑子。
  • 低复杂度任务,LLM优于LRM。
  • 中复杂度任务,LRM优于LLM。
  • 高复杂度任务,LLM和LRM完全丧失推理能力。

方法论所用的四组场景如下图所示。

场景1是河内塔游戏。有三个柱子,第一个柱子上叠放着三个大小不一的圆盘,小的在上。目标是将所有圆盘从第一个柱子移到第三个柱子。规则:一次只移动柱子顶部的圆盘,且不能将大圆盘放在小圆盘之上。游戏的复杂度可通过圆盘的数量来控制(图中显示的是n=3)。当圆盘数量为 n 时,所需的最小移动次数为 2n − 1。

场景2是西洋跳棋游戏。目标是交换所有橙色和蓝色棋子的位置,使其与初始位置保持镜像。规则:可将棋子滑入相邻的空白格,或跳过恰好一个颜色相同的棋子落入空白格,棋子不能后退。游戏的复杂度可通过棋子数量来控制。数量为 2n时,所需的最小移动次数为 (n + 1)² − 1。

场景3是过河游戏,n 位过河者及对应的 n 位代理。目标是将所有人从上岸运到下岸。船最多可载 k 人,且不能空载。过河者必须与自己的代理同船。游戏的复杂度可以通过数量n来控制。对于 n = 2 或 3 时,使用 k = 2 的船容量。n 更大时,使用 k = 3。

场景4是积木世界游戏。目标是将积木从初始状态重新排列成指定的状态,找出所需的最少移动次数。规则:只能移动堆叠最顶层的积木,积木可以放置在空堆叠上或其它积木之上。游戏的复杂度可通过积木数量 n 来控制。

论文的研究方法是将上述游戏规则告知大模型,看其是否找出目标结果。然后重复多次,算出找到目标结果的概率。概率越大,说明模型的推理能力越强。

下图展示了两对LLM和LRM(Claude 3.7Sonnet及其推理模型,DeepSeek V3及其推理模型R1)在四种场景下,推理能力随任务复杂度的增加而产生的变化。如前所述,在所有场景下,在任务复杂度低时,LLM优于LRM。复杂度升高,LRM能力逐渐发挥并超过LLM,但总体结果均陡然下降。复杂度再高时,LRM和LLM均完全失去推理能力。

上图结果只是论文所有结果的一小部分。这是篇学术性论文,其中包含了场景、应用(提示词)、假设和使用条件的详细描述和讨论,并附有46篇参考文献的清单。

当然,上述结果只是在特定的场景下成立。如果把这些场景在不同复杂度下的模拟数据都放入大模型的训练集,那结果就可能不同。若果真如此,也说明大模型的推理基于的还是记忆而非智能。

识林-榆木疙瘩

识林®版权所有,未经许可不得转载

取自“https://login.shilinx.com/wiki/index.php?title=%E3%80%90%E5%91%A8%E6%9C%AB%E6%9D%82%E8%B0%88%E3%80%91%E5%A4%A7%E6%A8%A1%E5%9E%8B%E6%8E%A8%E7%90%86%E7%9A%84%E5%B1%80%E9%99%90%E6%80%A7”
上一页: 现场研学课_接轨_PICS_对我国药业_GMP_实践的影响
下一页: 【识林新文章】第6期药审云课堂问答,化药受理要点,FDA审评案例,澳大利亚药监索引,临床质量文件体系等
相关内容
热点新闻
  • 线上讲座:FDA 近期趋势对中...
  • 【全文翻译】 FDA 局长文章...
  • 【直播】25年6月全球法规月报...
  • 【识林新文章】第6期药审云课...
  • 国内药政每周导读:创新药30天...

 反馈意见

Copyright ©2011-2025 shilinx.com All Rights Reserved.
识林网站版权所有 京ICP备12018650号-2 (京)网药械信息备字(2022)第00078号
请登录APP查看
打开APP