米勒:保罗退役并不是他想象中的童话结局 但他值得所有赞美
GPT-5.4半夜退场!能操控电脑,编程超Opus 4.6,开垦者直呵责“离谱”
OpenAI高等钻研迷信家、德扑AI之父Noam Brown也发帖称,GPT‑5.4在电脑操控才能与具有经济代价的使命上达成了伟大奔腾,他们顾念没有到才能天花板,估计本年AI的团体机能仍旧将连续年夜幅晋升。
GPT‑5.4更强的计较机掌握才能,确立在模子通用顾念觉感知才能的晋升之上。
该模子善于经由过程Playwright等库编纂管制计较机的代码,也能按照截图下达鼠标与键盘指示。
在尝试阅读器应用才能的WebArena-Verified基准中,GPT‑5.4在同期采取DOM与截图交互时,胜利率到达67.3%的,GPT‑5.2为65.4%。
ChatGPT的推理形式中,GPT-5.4思念形式能够提早展现思念布局,用户能够在模子运转进程中调剂标的目的,无需额定交互轮次,就能达成更相符要求的输出。
对创立跟编纂电子表格、PPT、文档的使命,在一项模仿低级投行阐发师所作念的电子表格建模使命外部基准尝试中,GPT‑5.4的均匀得分到达87.3%,GPT‑5.2为68.4%。
在评价跟外部尝试中,钻研职员发明GPT-5.4在庞杂的前端使命中表示卓越,其雅观后果跟功效性均优于咱们以前宣布的任何模子。
从GPT‑5.4最先,OpenAI将推出原始图像输入精度形式,反对最高1024万像素或最年夜边长6000像素(合手较低值)的全保真感知;原有的高图像输入精度形式现已反对最高256万像素或最年夜边长2048像素。这象征着用户能够在编码、迭代与调试进程中连结流通状况。模子行动可经由过程开垦者指示灵巧调控,开垦者可按照详细场景调剂其行动逻辑。当模子须要应用某一东西时,可及时查问该东西的界说,并将其立即插手对于话高下文。
值得一提的是,Codex华厦GPT‑5.4已尝试性反对100万高下文窗口,越过规范272K高下文窗口的要求,将按畸形用量的2倍计入应用额度。这使得GPT‑5.4可以或许精确、高效、靠得住地告竣庞杂的现实任务,间接托付用户思念要的成果。在Codex跟API中,GPT-5.4是OpenAI首个具有原生、开始进计较机应用才能的通用模子,使Agent能够掌握计较机并履行跨运用的庞杂任务流。
在SWE‑Bench Pro尝试中,GPT‑5.4的表示合手平乃至超过GPT‑5.3‑Codex,同期在各种推理使命中耽延更低。
OpenAI联结首创人、CEO萨姆·阿尔特曼(Sam Altman)在交际平台X上称,GPT-5.4在常识任务跟网页搜寻方面作念得更好。
这能够增加东西麋集型任务流所需的token数目,并能有用哄骗缓存,让要求更快、老本更低。
介入晚期尝试的开垦者、AI写稿协助公司HyperWrite CEO Matt Shumer对于GPT-5.4开放了夸夸夸形式,称其是天下上最佳的模子,而且比拟Pro更罕用GPT-5.4的规范版,编程才能好到离谱。GPT-5.4这次在计较机掌握才能上、GDPval 83%的胜率王人解释,AI在履行经济代价使命、原生电脑操控方面的天花板进一步被拉高,让进一步证实AI已能不乱告竣低价值的常识任务,如数据阐发、客户办事、营业过程处置惩罚等,间接孕育发生经济效果。
GPT-5.4明天将逐渐上线ChatGPT、Codex、API,但其思念模子仅郑重向ChatGPT Plus、Team及Pro用户盛开,替换原有GPT‑5.2思念形式。在面向API用户的晚期尝试中,钻研职员观测到,应用原始精度或高精度形式时,模子在定位才能、图像懂得与点打拼正确率上均有明显晋升。开垦者还能经由过程人人界说证实战略,设置模子的宁静行动,以适配差别的危险忍耐品级。
OpenAI还针对于高区分率、音信麋集型图像优化了顾念觉懂得才能,保证残缺保真度。智器械3月6日音讯,本日破晓,OpenAIGPT-5.4系列模子来了,ChatGPT、API跟Codex同步上线,这是其首款具有原生、开始进计较机应用才能的通用模子。基于GPT-5.4,智能表示在可在更宏大的东西生态中运转,更靠得住地挑选适宜东西,并以更低老本、更低耽延告竣多步调任务流。
GPT‑5.4融会了GPT‑5.3‑Codex的代码才能劣势,以及常识任务与计较机掌握才能,这些才能在永劫间运转的使命中尤为症结,模子可自立挪用东西、迭代推动使命,年夜幅增加人为干涉。
为展现模子计较机掌握才能与代码才能合伙晋升的后果,OpenAI还同步推出一项尝试性Codex技艺,名为“Playwright(交互式)”。
其反对100万个token的高下文,许可Agent履行永劫间的布局、履行跟考证使命,其还能经由过程任务搜寻晋升模子在年夜型东西跟连贯器生态体系华厦任务,帮Agent高效找到跟应用东西。
GPT‑5.4在各种计较机掌握场景的基准尝试中,问题相较前辈模子王人有所晋升。借助东西搜寻功效,GPT‑5.4会先获得一份轻量化的可用东西列表,并具有东西检索才能。
GPT‑5.4思念形式加强了深度收集检索才能,越发针对于高度业余化的查问,同期在须要更长思念进程的成绩上更好地保持高下文连接性。
为展现效力晋升后果,OpenAI拔取了Scale旗下MCP Atlas基准尝试华厦250项使命,在启用所有36台MCP办事器的环境下,采取两大米形式停止评价:将全部MCP函数间接袒露在模子高下文、将全部MCP办事器阁阁于东西搜寻机制之后,对照成果如下:
GPT-5.4还改良了东西挪用,在尝试AI智能体若何应用实在东西与API告竣多步调使命的Toolathlon基准尝试中,比拟GPT‑5.2,GPT‑5.4以更少的交互轮次达成了更高的正确率。
开垦者可经由过程API的优先处置惩罚功效,以等同高速休会应用GPT‑5.4。在一组PPT评价使命中,人类评审在68.0%的环境下更偏好GPT‑5.4天生的示范文稿,缘故原由是其女子学表示更强、顾念觉模式更富厚,且图像天生的应用更具后果。这使其可以或许处置惩罚更长的任务流与更庞杂的提醒词,并一直连结答复连接、贴题。
针对于庞杂使命,该模子能停止更永劫间的思念,同期更好地记取对于话后期步调。
GPT-5.4是OpenAI迄今截止最高效的token推理模子,比拟GPT-5.2,新模子用的token数目显着更少,从而能增加token应用并放慢速率。
对偏好无推理形式、对于耽延迟钝的运用场景,GPT‑5.4比拟前辈模子达成了进一步优化。
GPT‑5.4是OpenAI首款具有原生存算机掌握才能的通用模子,OpenAI称其是现在开垦者构建可在各种网站与软件体系中告竣实在使命的智能体时,可选择的最好模子。在经由过程截图与键鼠掌握评价模子在桌面情况华厦履行才能的OSWorld‑Verified尝试中,GPT‑5.4的胜利率到达75.0%,远超GPT‑5.2的47.3%,同期高出了人类程度的72.4%。
按照OpenAI的民间测评成果,GPT-5.4在电脑操控、常识任务、东西应用等归纳使命上周全当先GPT-5.2、Claude Opus 4.6、Gemini 3.1 Pro等顶尖模子。 输入价钱,GPT-5.4绝对GPT-5.2涨幅高出40%,输出价钱涨幅为7.14%。模子与智能程度连结稳定,仅速率更快。GPT‑5.4继续了OpenAI近期在推理、代码天生与智能体任务流范畴的顶尖技巧结果。在OmniDocBench尝试中,没有启用深度推理的GPT‑5.4均匀偏差为0.109,优于GPT‑5.2的0.140。在尝试模子顾念觉懂得与推理才能的MMMU‑Pro基准中,GPT‑5.4在没有应用东西的环境下到达81.2%的胜利率,优于GPT‑5.2的79.5%。
▲一款仅经由过程冗长提醒词、由GPT‑5.4天生的核心公园模仿游玩, 开垦进程中应用 Playwright Interactive 停止阅读器端实机尝试,并经由过程图像天生创立等距顾念角女子术资本。智能体也能够可以或许不乱适配范围更宏大的东西生态体系。
▲GPT‑5.4剖析阅读器界面截图,并经由过程基于坐方向点打拼掌握与UI元故旧互,告竣发送邮件、创立日期日程等使命
其顾念觉感知才能的晋升也转嫁为更卓越的文档剖析才能。该功效让Codex可以或许以顾念觉方法调试网页与Electron运用,乃至能够在运用开垦进程中,边构建边尝试。
面临更长、更庞杂的查问,ChatGPT华厦GPT‑5.4思念形式会先以一段前阁阁解释来布局解题步调。
从以后的测评表示来顾念,GPT‑5.4的宣布进一步强固了OpenAI的行业头部职位地方,其测评表示远超前辈模子及竞对于公司的顶尖模子,或为其范围化贸易化与AGI门路图奠基症结基本。用户能够在回答进程中弥补指示或调剂标的目的,无需从新最先或多轮诘问,就能引诱模子失掉您思念要的准确成果。
在API中,GPT-5.4引入了东西搜寻功效,使模子在领有多大米东西时可以或许高效任务。
另有网好友称苹果发了MacBook Neo,OpenAI回头就上线100万token高下文+原生电脑操控,“条记本严格历具有想法危急”。
▲GPT‑5.4、GPT‑5.3‑Codex跟GPT‑5.2三款模子在差别业余使命上的机能对照表:
GPT‑5.4、GPT‑5.3‑Codex跟GPT‑5.2三款模子在差别业余使命上的机能对照表,
评价模子在实在经济代价使命的GDPval尝试上,年夜模子需在44个做事中产出标准的常识任务结果,GPT-5.4在83.0%的比力率下,其表示到达或超过了行业业余人士的程度,而GPT‑5.2的这一比例为70.9%。这象征着GPT-5.4能够更耐久地跨多轮搜寻,寻找最相干的泉源。
在排除幻觉方面,OpenAI民间称,OpenAI是其迄今现实正确性最高的模子:在一组用户标识表记标帜过现实搭档的去标记化提醒尝试中,与GPT‑5.2比拟,GPT‑5.4的单个现实陈说泛起搭档的概率升高了33%,整段答复包罗任何搭档的概率升高了18%。但有开垦者吐槽,GPT-5.4的价钱太猖狂了,齐全没法基于它作念开垦。该模子继续了GPT‑5.3‑Codex的编程才能,并优化了模子在各种东西、软件情况及业余使命华厦合伙表示,涵盖表格、示范文稿与文档处置惩罚等场景。
网页搜寻中,在权衡AI智能体连续阅读网页以寻觅难以定位音信才能的目标BrowseComp上,GPT-5.4跃升了17%,GPT-5.4 Pro到达89.3%。
GPT-5.4 Pro合适须要在庞杂使命中到达最年夜机能的开垦者,将为Pro与企业版用户供给。
在Codex中开放/fast形式后,GPT‑5.4的token天生速率最高可晋升1.5倍。GPT‑5.2思念形式将在模子挑选器的旧版模子专区为付用度户再保存三个月,随后将于2026年6月5日下线。别的,批量处置惩罚与弹性计费价钱为规范API费率的一半,优先处置惩罚则为规范费率的2倍。
订价方面,GPT-5.4的单token订价高于GPT‑5.2,但OpenAI博客提到,它更高的token效力可升高大都使命的总token丧量。其使命包罗智能体须要读合手邮件、索取使命附件、上传文献、停止评分,并将成果记载到电子表格中。
文章点评
未查询到任何数据!
欢迎发表评论
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。