首页

0金币女王免费专区

时间:2025-05-29 08:15:00 作者:清华学霸与AI比做高考压轴题,谁会赢? 浏览量:82871

  作者:陆涵之

  去年,“9.11和9.9谁大?”这一简单的数学题曾难倒了多家大模型。到了今年,大模型的理科能力提升如何?

  今日网易有道发布了一则视频,6位清华姚班学生与AI比赛做高考压轴题。清华姚班为图灵奖得主姚期智院士创办,汇聚了数学、物理、信息学竞赛金牌得主。

  姚班学生和AI竞速的两道题分别为2023年高考数学全国一卷压轴题和2021年高考物理江苏卷压轴题。姚班学生在10分钟内完成了作答,仅有1位同学做错了题目,AI答疑笔则在输入确认后几秒就开始输出步骤,并答对了题目。

  对于AI的回答,一位姚班学生认为AI做题思路与其一致,步骤更加清晰,相较于传统的答案更有利于学生理解解题思路。

  可以对比的是,去年高考结束后,有机构让包括GPT-4o、豆包、文心4.0在内的9家大模型尝试河南的高考卷,并以河南的分数线评判,最终有4家大模型在文科高考中达到河南的一本线,但没有大模型的理科分数达到河南省一本线。

  有道相关负责人对记者表示,今年以来AI进展迅速,尤其是DeepSeek-R1带来了推理模型大爆发,而大模型推理能力和交互能力在教育场景的适配性非常高,能够逐步解决个性化教学和答疑的需求,而且提供的指导和答疑质量越来越高,所以选择与高考顶尖学霸进行同题测试,用一种直接明了的方式向大众展示AI大模型能力的提升。

  在题型选择上,主要基于难度和认知度的考量,上述负责人表示,“因为大家对高考的难度都是有概念的,尤其是这种高难度的理科压轴题,容易引起关注,也能直观展示效果。”

  上述人士透露,前段时间还做了北京最新高考二模(题库数据里没有的新题)的挑战。AI答题后由老师进行批改,分数为697分(总分750分),达到“清北”水平。“毕竟去年AI集体做24年高考题的时候理科几乎全军覆灭。”

  过去一年时间,不少大模型公司将数学能力作为大模型的能力体现。OpenAI在介绍OpenAI o3-mini时表示,OpenAI o3‑mini 的高推理能力在 FrontierMath 上的表现优于其前辈。在 FrontierMath 上,当被要求使用 Python 工具时,具有高推理能力的 o3‑mini 首次尝试即可解决超过 32% 的问题,其中包括超过 28% 的挑战性 (T3) 问题。FrontierMath是由Epoch AI联合60余位全世界的数学家共同推出了全新的数学基准,其原创的数学问题对于专业数学家而言仍需数小时甚至数日解决。不过,OpenAI公布的成绩后续曾遭到质疑。

  此前谷歌宣布推出了基于强化学习的数学推理系统 AlphaProof,以及几何求解系统的改进版 AlphaGeometry 2。谷歌表示这两款系统共同解决了2024年国际数学奥林匹克(IMO) 六道题目中的四道,首次达到了与银牌得主相当的水平。

  今年4月29日,阿里巴巴发布新一代通义千问模型Qwen3。据了解,在奥数水平的AIME25测评中,千问3斩获81.5分,刷新开源纪录。

  艾媒咨询发布的《2024年人工智能+教育行业发展研究报告》指出,2023至2027年在线教育市场的AI贡献率预计从7%提升至16%左右。

展开全文
相关文章
立德树人|青少年阶段是人生的“拔节孕穗期”,最需要精心引导和栽培

本届“熊猫杯”共有中国、澳大利亚、吉尔吉斯斯坦、蒙古国的U19男足参赛。由于2025年U20亚洲杯中国队与澳大利亚队、吉尔吉斯斯坦队和卡塔尔队同在A组,本届“熊猫杯”为3支球队提供了提前了解对手的宝贵机会。

上海地铁9号线触网挂冰停运 多方协力疏导客流

(一)需要调整中华人民共和国在加入世界贸易组织议定书中承诺的最惠国税率、关税配额税率和出口税率的,由国务院关税税则委员会提出建议,经国务院审核后报全国人民代表大会常务委员会决定。

“赫莱坦”号在沪命名交付 刷新中国船企年度交付LNG船纪录

通报称,关于海南佰骏国际旅行社有限公司违规组织旅游团前往桂林一事,海南省旅游文化市场行政执法局经调查取证查明,该公司在已被吊销旅行社业务许可证情况下,仍非法擅自从事旅行社业务,以组团社身份招徕组织旅游活动。

浙江杭州:近2000名“泳士”抢渡富春江

此外,29日晚,活动现场还举行了国家级非遗打铁花、烧火龙、千架无人机、焰火、火壶、火魔方等表演,为民众呈现了一场精彩的视觉盛宴。(完)

特稿|习近平主席与匈中友好“小使者”

商务印书馆副总编辑郑勇指出,张曼菱在西南联大领域深耕20年,从纪录片、数据库到西南联大三部曲的写作出版,坚持不辍。正如任继愈先生所说:“张曼菱以她锲而不舍的精神,克服种种困难,使这一工程完成,令人感动。她是靠着西南联大的精神制作这部作品的。”她对西南联大历史资源的抢救性开掘和研究是一项壮举,对西南联大历史遗产和精神遗产的记录和阐释有着重要的文化贡献。

相关资讯
西安、青岛将启动赴港澳“个人游” 相关机票搜索热度上涨

一是缩短办证期限。公证法规定,除法定情形外,公证机构自受理公证申请之日起15个工作日内出具公证书。但从实际办证情况看,一些公证事项(事务)的办证时间是有压缩空间的。我们梳理了各地公证事项办结期限情况,综合考虑人员力量、软硬件设施、办证需求等因素,对法律关系简单、事实清楚、证明材料充分的公证事项(事务),制定了《公证办理提速清单(2024年版)》,将出具公证书的期限由15个工作日分别缩短至5个工作日或者10个工作日。其中,受理之日起5个工作日内出具公证书的公证事项共24类81项,10个工作日内的共13类69项,分别占公证业务总项的36%和30%。同时,我们鼓励各地公证机构采取创新申请方式、优化服务流程、加强业务协作、推进信息共享等措施,进一步压缩出具公证书的期限,有条件的公证机构尽可能实现“当日出证”“当场出证”。二是拓展“一证一次办”。总结2017年以来“最多跑一次”试点工作经验,我们制定了《“高效办成一件事”公证事项(事务)清单(2024年版)》,对法律关系明确、事实清楚、无争议的公证事项,当事人只要材料齐全、真实,符合法定受理条件的,只跑一次公证机构即可办好公证。与“最多跑一次”工作相比,公证事项范围由9类22项扩充至31类84项。三是推进“一事一站办”。对于需要多个部门办理,关联性强、办理时间相对集中的多个事项,我们鼓励公证机构集中办理,为人民群众提供“一站式”服务。比如,通过与不动产中心互设办事窗口、互嵌功能模块、联通服务系统等方式,实现“公证+不动产登记”一站办好;通过“公证+领事认证”联办,实现涉外公证和领事认证“一次申请、一窗受理、联动办理”,为人民群众提供“省时、省力、省心”的公证法律服务。

热门资讯
链接文字