
摘要每年增加了100分,这可能是可以通过的最后一代“ AI”。去年有li yuan编辑| Zheng Xuan,大型模型的世界几乎是“疯狂的匆忙”的代名词。该技术以每周单元的形式进行迭代,并且能力的界限从写作诗歌和绘画的一代和发现科学方面都扩展了。但是,撇开这些宏伟的叙述,我们如何找到适合AI功能的准确和客观的规模?恐怕与“大学入学评论”相比,无法更直接地接触到每个中国人的心。去年,Geek Park对AI大学入学考试进行了模拟评估。去年的持续传统,Geek Park再次在今年的AI学院入口设立了一个评论室,使基本的家庭和外国模型可以重新进入检查室。进入评论室的“ AI候选人”不在Ly治愈了去年的文科偏见问题,但也获得了很高的分数,足以在山东省接受1000人。但是,如果我们认为它是“新兴”的,它通常会将真实的“ IQ”暴露在意外的地方。一些主要发现如下:预计AI将首次袭击主要的大学:今年,AI的全面能力表明有可能首次接受领先的大学。与2024年相比,参加测试的所有大型模型都取得了自由艺术和科学分数的重大跳跃。由于山东省采用了标记申请的打印,因此无法将其直接与标记段进行比较。我们估计,大学入学评论中的顶级豆袋将在该省排名500-900,并将在著名大学的人文和社会科学专业中接受。大学和夸江大学。大型模型不再是对科学的严重偏见,科学的发展速度更快:每个主要模型中的总体文科得分增加了115.6分,而平均程度的总科学得分增加了147.4分。尽管管理主题的增长速度更快,但普通艺术的平均总得分小于228.33分。总的来说,今年大型标记的总体表现不再是严重的。数学能力提高了,超过中文和英语:数学是今年最重要的发展的主题,平均得分比去年高84.25。 AI数学的性能超过了中文和英语,这表明AI将来可能会更好地处理具有强大逻辑和标准解决方案的问题。多模式能力一直是扩大差距的关键:从去年到今年,了解模型的视觉效果HAve得到了显着改进,特别是包含大量图像问题的主题已知。与去年相比,平均物理和地理评分增加了约20分,生物学增加了15分。化学主题的总体表现略有弱,“ Beanbao”模型刚刚通过,但是所有员工的平均得分也比去年高12.6分。作为复活节彩蛋,我们还试图让AI在今年的视频流中回答问题。 01从一级大学到顶级大学,如果去年的AI是一名出色的学生,刚刚到达了一级大学,那么今年之后,他们与领先的学术硕士长大,这将足以影响中国领先的大学。它背后发生了什么样的转变?在加深具体的更改之前,让我们首先向参加测试的家庭和外国人介绍候选人:Doubao,DeepSeek(R1-0528 Version),chatgpt(O3),Yuanbao(Hunyuan T1),Kimi(K1.5),Wen Xin Yi Yan,Tongyi Qian问题。为了更好地适应使用读者的经验,该评论在每个模型的PC的公共部分上进行了等级,并且审查以巴掌的形式进行了两次,以获得平均标记。目的是评估模型的全面能力。此评论方法将直接允许模型识别要回答的图像。 DeepSeek-R1仍然不支持图像识别和答案,因此它仅测试了纯文本问题,最终结果并未完全提及。其他测试细节如下:该测试使用山东纸进行2025新的大学入学评论作为本评论的纸质测试。有两个因素:首先,山东纸是互联网上最快的大学入学论文之一,以确保主动评估。其次,综合的卡希拉潘(Kahirapan在中文中,数学和英语在全国范围内使用副本,而其余主题是独立的问题。如此困难的“规则”最好了解该模型当前大型功能的上限。为了确保公平性并评估模型的总体基本功能,模型的网络运行同样脱离了可以杀死网络网络能力的产品,以消除“查找问题”的可能性。 O3和Wenxin可能无法杀死Internet连接,而是检查模型的思维过程,并发现Wenxin中没有Internet搜索。 O3有少量的搜索,但没有明确的好处,标记率小于Noti网络的答案。同时,我们打开了深入思考模式默认值,但是在通常的联系下,研究模式并未打开以模仿用户的实时场景问答。两名主要学生邀请每个主题得分,没有很多选择。如果有D在问号超过1/6的问号中,将引入第三方讨论以讨论标记(与判断大学入学入学的过程相对应),并邀请参加真正的大学入学考试标记的高中教师进行随机检查,以统一标准的不同问题。在评分过程中,我们进行了两种特殊治疗方法:我们特别邀请年长的老师对Compsai立场的身份审查以确保公平和公平。此外,由于未获得聆听英语的一部分,我们将所有模型设置为在此项目上算作完整标记。最终,所有候选人的结果如下:去年,大型模型的深刻能力在模型的能力上取得了重大改善。该模型不再直接产生答案,而是逐渐研究,问题衰减,评估中间结果,甚至纠正t下摆自己,这导致了数学检查模型的性能显着改善。在总分总分为150的数学测试中,即使是该测试中最糟糕的性能AI模型也得分为128.75,这是人类候选人中的一个很好的水平。回顾Nakangin今年,表现最好的模型仅达到70分,而传球线没有达到。数学能力的提高直接导致了今年大型模型入门审查的总体结果的显着改善。多模式能力已成为决定大型模型功能性能差异的另一个主要因素。在大学入学测试的过去一年中,许多型号没有照片识别功能。当时Geek Park采用的审核方法是:可以识别照片的模型使用图片和文本,而一个不识别图片仅进入文本的模型,并由Markdown/latex补充垫子以帮助识别公式。像这个人一样,多模式能力是基本模型的通常功能。因此,我们在测试中首次使用图片中的纯粹问题(除了DeepSeek除外)。在众多模型中,最吸引人的Doubao和Chatgpt模型都是多模式的版本,它们对图像问题显示出明显的好处。 Qwen3和Wenxin X1都是语言模型。在处理图像问题时,他们可以使用OCR来识别文本和答案,或调用基于图像的问题表现不佳的视觉模型。但是,即使对于最高的Doubao和ChatGPT分数(得分最高的图像问题得分),图像问题率也只有70%,这是一个巨大的空间,而文本问题的最大标记率为90%。可以看出,大型模型仍然有很多用于改善多模式理解和推理的房间。可以预测,通过继续提高多模式能力,AI大学入学考试的结果将继续改善明年。人工智能测试失败最终将成为大多数人的标准。但是,人工智能并没有赢得完整的成绩。什么仅限于AI顶部?答案比预期的要有趣。 02 AI天才在数学上的完整分数附近,全部丢失了一个关键问题。在对AI大学入学评论的完整审查中,“ AI候选人”在重复一年后在数学主题方面做出了巨大的发展。在2024年的分析中,当时的AI候选人在填写到空白的问题上表现不佳,并回答问题,他们的MGA标记通常徘徊在0到2分之间。最后9个参与模型的平均得分仅为47分。但是今年,这是完全不同的。可以看出,如果这是许多选择或复杂的主观答案的目的,那么新一代大型模型的准确性现在是不同的。它清楚地表明了自己的capabi大型模型的研究,尤其是基本推理能力,取得了基本的成功。如果去年的模型只是一个可以应用基本公式(例如衍生物和三角学功能)的“起点”,那么今年的模型已经演变为“解决问题”,可以平静地处理复杂的衍生化和证明。在一定程度上,预期这样的结果。自AI进入哀悼的时代以来,具有里程碑意义的发展已取得了数学能力的重大改进。当该模型能够思考和纠正自己时,就像一个孩子过去回答问题一样,与成年人一起成长,他们可以在给出答案之前深入思考,其逻辑能力已经取得了合格的跳跃。您应该知道,对于候选人来说,今年的新课程标准第一卷中的数学问题通常被认为非常困难。 “像竞争论文”,最后的Questi诸如衍生物和圆锥曲线之类的ONS是模糊的,计算是压倒性的,甚至“测试中的学术大师哭泣”的现象也存在。但是,面对一份困难的试验文件,领先的大型模型Arestill轻松表现。通过关注,AI多模式能力的发展仍然是第二。在数学主题中,只有20个点的图像问题不是模型标记的显着改进的重点。大多数模型在图像问题中也获得了15分。为什么要15分?这很友好 - 友好。这些大型模型在整个测试中得分超过130分。在人类社会中,他们也被认为是领先的数学专业学生,但是他们确实在许多选择中确实错误地被认为是错误的。对他们来说,这并不是最后一个问题,而是一个问题选项,即使是一个非常困难的问题。这个问题的数学原理非常简单,并且是向量和减少问题的主要补充。连接图形只有两个点(0.2)和(2,0)获得目标向量,模量是根号2的2倍。即使一个不知道数学的人可以用裸眼观察图中的线,他也可以估计其长度不会超过3.3。但是,这个问题涵盖了所有领先的AI。主要的矛盾是:问题并不困难,但图片很困难。对于大型模型,此图片的视觉信息非常混乱:点线,实线,坐标轴,数字和文本相互关联,甚至线条的文本和基本线条重叠了许多区域。这种视觉“肮脏数据”已成为准确的AI识别的噩梦。以数学最佳性能为例,解决问题的过程是暴露了问题的根源:当它首先阅读问题信息时,它犯了一个错误。当您不正确地阅读问题时,无论数学推理有多强大Y在它的背后,最终是资源水和无根的树。 03 AI写作构图:提供示例,但在升华中不好。作为所谓的大型语言模型,中文和英语始终是传统的AI力量。但是有趣的是,在大型模型的数学逻辑中,大型模型的中文和英语能力似乎不足。这也与现实世界一致:领先的候选人可以在数学上获得完整的印记,但是在中国主题上获得相同的痕迹非常困难。 AI似乎拥有相同的瓶颈。如果您仔细阅读了中国纸,您会发现失去的AI点非常有趣。在多项选择选择的部分,除了豆面包和DeepSeek-R1,其他模型的错误率超过20%。这种现象可以揭示AI与人之间的问题:对于人类候选人,可以更容易失去。o在组织语言和扩大意见时删除;但是对于AI来说,阅读一长物材料并准确研究一组高度混乱的选项中的每一个微妙的语义和逻辑陷阱差异可能会更加困难。在高度预期的构图主题中,AI的表现在去年的过程中持续:平均标记高于人类,但很难拥有真正的杰作。去年,特定的指向老师的评论是,大多数AI论文都是安全的“ 2级”,很少反对这个主题。但是,由于他们缺乏深度,财富和创造力,很难产生感人的“ 1级”,而下降的部分更加常规。今年,情况仍然一样。 7大型模型的总体平均标记为50.75点,平均程度较低。每个模型都可以实现准确的想法,流利的语言和丰富的论点,但是讨论并不深入,示例是相似的。与人类的MO相比DEL,缺乏热量和同理心的答案。今年年课程课程的新标题是:国家作曲“民族灵魂”阅读以下材料并根据要求写作。 (60分)她想为孩子们唱一段段落,但KHE说他很生气,他不能说话。 - 如果我是鸟,他是一位“鼓艺术家”,我也应该用粘稠的喉咙唱歌 - “我爱这片土地”会用血腥的手拥抱你,因为一个国家已经上升了 - 什么样的联想和思想在上面的“赞美”上做了上述材料?请写一篇文章。它是样品中的ingot形成的AI组成。它标志着该男子的得分老师的高分为53.5,使其在AI工作中最佳。但是,如果您仔细观察文章,AI的“模板”的问题将完全暴露出来。例如,在本文的中心经文中,首先通过了“这种精神光在历史上正在燃烧”的观点,然后引用三到四个历史人物并排;然后导致论证说“真正的责任和疾病是背景”,然后列出了经历过痛苦的三到四个人。最后,在谈论当代精神时,列出了三到四个当代数字。 AI构图的语言非常漂亮,对经典的提及自然而然地富有和详尽,但是逻辑上,似乎在告诉您的父母,看看一切都在做什么,您应该做自己的事吗?也许有了很好的安排来宣传单词,人工智能可以写一些人的内心作品。但是目前,独立的AI创建类似于实现牢固的写作模板:用类似的情况填充轮廓,最终导致略微严格而严格的崩溃。它可以写出看似很棒的段落,Ngunit很难创建一篇真正动人的文章。 04英语:主要被构图标记拖动。类似于中文,AI perfo传统力量的rmance-英语也进入了平台期。去年,各种AI公司的英语得分都很棒,而今年模式的技能并没有向前发展。实际上,所有参与模型的平均得分仅比去年高3.2分,而改进的平均得分比数学更小。该模型的总体模型也下降到130-140点的范围,并且未达到人类学家的水平。从逻辑上讲,它有点异常。人工智能的英语水平对每个人来说都是显而易见的,并且比许多英语法官所说的英语更真实。进入英语学院的入口入口分析本身并没有触及母语人士的语言上限。与包含古代汉语的中文相比,其客观问题获得了更高的比例和更简单的组成要求(只有80个单词),并且不追求高思想。从理论上讲,这是一个战场AI更有可能获得绝对受益的地方。但是,AI候选人在这里没有显示更多的统治地位。那么,瓶颈到底在哪里?构图的主题可能是一个巨大的阻力。其背后有两个可能的原因:苛刻的单词限制:在中文写作中,AI有时会揭示“交流”的特征,有时是“不说话”,但在长期写作中,单词数要求并不严格。但是,在80字的迷你写作中,准确控制单词计数将成为一个巨大的挑战,如果您不小心,您将被点扣除,以获取额外的单词/小单词。参加考验的缺乏智慧:在有限的空间内,人类候选人故意使用更高级的句子模式和紧张的方式来“显示他们的技能”以获得高分。人工智能的目的通常是清楚并完整地传达信息。为了标记而优化句子结构的复杂性是偶然的,因此它可能会遭受秘密损失标记细节。这篇评论中最友好的观点是中国和外国模型在其作品中显示的“主页和客场逆转”现象。在中国作品的“遥远的游戏”中,由chatgpt代表的“外国kandidato”领先。但是,在英语主题上,他们的“主场比赛”丢失了,它输给了“中国候选人” - DeepSeek在许多选择方面也获得了全部痕迹,在最终总分中,Deepeek在Doubao中也超过了Chatgpt。数学中AI的发展是“天空”,其在科学和科学的三个主题中的表现就像是“破坏冰层并启动启航”。 AI和领先的人类候选人。测试逻辑和多模式能力。关于物理和化学主题的图形问题的成本超过80%,生物学中的图形问题也有大约一半的问题。今年,读取图和模型推理能力的增强的普遍能力共同鼓励了发展全面的科学技能。但是,像数学AI的数学旅行一样,“见”并不意味着AI可以“理解”。它可以清楚地反映在化学中大型模型的不良表现中。化学问题高度取决于图片,化学问题图片的复杂性更高。目前,人工智能缺点完全暴露出来。目前,领先的AI的综合科学得分大致与中途和上游人类候选人的ANTA相等,但远非达到“学术”水平。俗话说:“纸张越困难,差距就越清晰。”在全面而深刻的科学试验的全面作用中,AI尚未实现稳定镇压人类候选人的能力。在此时,该主题目前查看AI结果:物理学,最快的发展“先锋”物理学是三种科学和综合科学中最快的“先锋”发展平均得分为20.25分。就客观问题和空白的问题而言,许多ChatGpt问题的准确率高达92.13%,而Bean Brade也达到了89.81%,显示了基本概念和物理法律的坚实抓地力。化学:被复杂图形拖动的“严重影响的地方”,化学变成了“严重影响”,从而降低了整体科学和技术评分。一般分数相对较低,只有杜巴通过了测试,多种选择和填充问题的平均标记率小于60%。化学图形:不仅受试者本身取决于照片(例如实验设备和反应流程图),而且化学结构图的复杂性通常超过对当前模型的准确理解的极限,导致了问题25(有机化学)(有机化学),完整分数为12,所有模型都非常低。这个问题主要评估路径和有机物合成的结构。没有评估模型可以正确产生有机物的结构简化公式,并且了解有机物的空间结构相对较弱。生物学:在遗传计算中未失败的生物学主题的缺点准确地暴露于需要严格逻辑推理的遗传问题。例如,第22个问题(遗传学问题)通常柔和地表现出16分,而得分最高的Chatgpt仅获得9分。这个问题的重点是基因型检查,计算遗传可能性等。06AI仍然对主题有偏见,而文科是一个舒适区。在今年的大学入学评论中,已经恢复了清晰的趋势:文科综合性仍然是AI舒适的高标记。去年早些时候,Chatgpt在综合文献中得分高237。今年,Yuanbao在文科的253.5分,与最高的科学分数相反(213.25分)。与去年相比,即使消除了强大的文学和薄弱的科学和主题的问题,但与人类候选人相反,主要模式并没有改变。在人类候选人中,最高的科学标记通常高于文科中最高标记。不需要互联网连接,最高的AI评分率超过80%,扩大了学习的领先者的水平。今年观点的增长主要由地理主题贡献。从细分来看,每个主题的发展和瓶颈变得更加清晰:最大的亮点无疑是地理。由于多模式能力的启动,AI对地理地图问题的理解得到了显着增强,这导致该主题的平均标记提高了20.3分,这成为了渐进式的机动性。我W蚂蚁去地理,我面临的挑战与科学化学方面的挑战完全相同 - AI仍然很难理解高度专业的复杂图形。例如,在问题19中失去了最大的观点(关于地形和地形的全面审查问题),该模型的性能可以描述为“不慢”:在TWHAT(1)中,只有少数模型在判断地面方向时只能正确响应。问题(2)关于“高度”概念的专业计算,所有模型都失败了。相比之下,政治和历史主题的标记确实处于很高的水平,并且没有做出重大发展。对于这两个主题,挑战已经进入了一个更困难的类别:如果您可以准确理解测试教学大纲,应用主题语言并执行多维的深入分析。对于人类候选人,这也需要特殊培训。例如,DeepSeek-R1失去了很多分由于不同的想法和偏离测试点。在论文史上,AI通常很难对历史因素进行深入的多维综述,而讨论是瘦的。一些细节非常有趣。在中国模特马克之后,查格普特的文科马克并没有增加,但今年有所下降。这种“家庭优势”也间接可见。在通往通用人工智能的途中,深度理解和对区域规则的适应仍然是必要的部分。 07复活节彩蛋1:可以使用AI眼镜作弊吗?从去年到今年,“ Visual AI硬件”(例如AI眼镜)无疑将成为技术行业中最热门的重点。其背后的主要动力是对大型模型的实时视频理解的出现。这意味着AI正在从对指示的简单接受到积极看和理解物理世界。顺便说一句,考试今年的帕加索克学院(Pagasok College)已经实现了新的更改:评论室的安全门已完全升级,旨在准确避免使用新的作弊工具,例如智能眼镜。这使人们感到奇怪:可以将可以与实际上用于在考试室中“显示自己的力量”的视频实时互动的多模型新兴模型?有了这个问题,我们在中国选择了在国外的Chatgpt和Yuanbao进行偶然的审判。为了简化流程,我们只选择了较少的英语阅读问题,并试图让视频模型“观看”测试纸并回答。尽管这是一个非常简单的测试,但结果非常清楚,问题很明显:1。严重的幻觉-Guni:模型非常容易想象一下,changgpts和inggs都非常容易,但是铸币厂更清晰。当Yuanbao尝试阅读第二篇文章时,他开始创建一篇文章和标题,该文章和标题不存在于稀薄的风中,最终未能解决导管测试。英语卷的二读是关于九年级的写作老师,讲述了如何教学生“写作重要的东西”。文章后的问题24是关于该问题的第一段中提到哪些字符的24。在尝试Yuanbao时,Yuanbao将继续提出多项选择问题,并在屏幕上未出现多个选择时对答案做出回应,从而导致无法继续。在发现问题后,我们询问了该文章所说的模型,并且模型的答案截然不同 - 看起来像是关于口头组织的文字,但这确实是一个奇怪的故事。 2。被动互动模式。为了模拟真实的测试,在测试期间,我们要求模型在看到问题时直接回答答案,而无需说明或等待某人问。尽管Chatgpt在看到问题时声称直接回答问题,但这并不是一项倡议。整个过程要求测试人员继续提示和指导语音,这远非“完全自动解决问题”。 3。混乱的结果:每当我们看到这个问题时,给定一个更复杂的提示词,我们几乎没有从chatgpt获得一组答案,但是这个结果不是一个好的参考值。更多的试验将表明,页面转速的变化,镜头级别的变化,镜头的变化,将时间更改为迅速出现单词,甚至在同一过程中的同一问题也会导致模型提供完全不同的答案。尽管视频模型也是GPT-4O模型,但它远非直接响应图片的GPT-4O模型的稳定性和准确性。幻觉问题使环境的长度恶化。当被问及第三篇文章怎么说时,GPT-4O回答了第一篇文章的主要内容。通过上一篇文章,模型的准确性与这些模型非常相似。今天的视频模型,例如去年的图像模型,仍在早期s。该模型的主要模型产品不想在当前阶段促进此功能-GPT -4O视频通话操作已在短暂的测试时间后迅速达到一天至日限制。在此阶段,在此阶段要在检查室里作弊,它还需要带来巨大的风险,例如必须继续与之交谈,没有答案。这通常是科幻小说的情节。尽管如此,当模型正确执行时,AI可以立即解释英语在屏幕上看到屏幕的几秒钟。这确实是一次了不起的经历。 08复活节彩蛋2:仿生学会喜欢它们形成的电子绵羊吗?自远古时代以来,“没有第一文学,也没有武术的第二文学。”在人类创造者中,风格和学校有所不同。想要现实主义的人有时会“获得”一种写作风格,因为它重视自己的风格,所以无法更大的模型?我们做了一个有趣的尝试:让大型模型参与在这篇跨犯罪评论中,并分解每个生成的论文。该测试使用了组成主题的第一个巴掌结果。希望,而工作是直立的。在最低标记上,不仅比较了人类的智慧和人工智学的智慧,而且还比较了我们在这里观察AI智力的发展的规模,对大学入学的审查,一种完美的场景,完美地包括知识掌握,逻辑推理和测试技术,使AI允许AI显示最有吸引力的和相反的方面,并轻松解决困难问题;有时,它也会显示孩子的认知盲点,这在关键问题上犯了有趣的错误。感谢您的大学入学评论。它提供了一个清晰而高度的参考,值得我们熟悉AI智能的整体水平的“快照”,这可能是后者。下一个AI停止最终将成为一个更加复杂和更广泛的现实世界。测试只是漫长旅程的起点,而不是其能力边界的末端。该快照最终将成为其成长专辑的古老图片,该专辑在其演变中记录了荣耀和笨拙的泛黄。 *头部图像来源:Visual Chine本文是Geek Park的原始文章。请联系Geek Park Wechat Geekparkgo