鼻翼长痘是什么原因| 脖子肿是什么原因| 卡姿兰是什么档次| 面粉可以做什么| 梦到好多蛇是什么意思| 偶尔头疼是什么原因| 梦见猫什么意思| 7月19号是什么星座| 空调什么品牌好| 合肥为什么叫合肥| 咖啡伴侣是什么| 低gi食物是什么意思| 为什么会得胆囊炎| 牙龈萎缩用什么牙膏好| s和m分别是什么意思| 楼房风水主要看什么| 腹股沟在什么位置| 肚脐右边疼是什么原因| 天秤和什么星座最配| 胸口正中间疼是什么病| 备孕什么意思| puma是什么牌子| 梦见财神爷是什么预兆| 妇科菌群失调吃什么药| 圆房要做什么| 五灵脂是什么| 74年大溪水命缺什么| 乙肝核心抗体偏高是什么意思| 脑部有结节意味着什么| 什么老什么老| 风湿是什么原因引起的| 冯巩什么军衔| 手臂痛什么原因| 为什么手会掉皮| 下午2点半是什么时辰| 头发轻轻一拉就掉了是什么原因| 不排卵是什么原因| 睡醒嘴巴苦是什么原因| 透析病人磷高了吃什么降磷| 感谢老师送什么花| 梦见婴儿是什么预兆| 肛门坠胀吃什么消炎药| 水样分泌物是什么炎症| 三亚免税店什么最便宜| 金刚经讲的是什么| 舒张压偏低是什么原因| 失孤什么意思| 糖耐量是什么| 阴囊潮湿什么原因| 医政科是做什么的| 应无所住什么意思| 15天来一次月经是什么原因| 偏袒是什么意思| 脚掌发红是什么原因| 大便黑色是什么问题| 前列腺钙化灶是什么意思| 穷奢极欲什么意思| 大象是什么颜色| 鹦鹉吃什么蔬菜| 世界杯什么时候开始| 12月1日什么星座| 梦见大老鼠是什么意思| 狼牙套是什么| 1950年属什么生肖| 耽美剧是什么意思| 梦见自己骑马是什么意思| 维生素b2有什么功效| 周杰伦为什么叫周董| vsd是什么意思| 什么的鼻子| 身体发凉是什么原因| esse是什么牌子的烟| 膝盖疼吃什么药| 冬天手脚冰凉是什么原因怎么调理| 人见人爱是什么意思| 吃榴莲对女人有什么好处| 腿抽筋挂什么科| 臭氧是什么味道| 水泻拉肚子吃什么药| 什么是淋病| 维生素ad和维生素d有什么区别| 尿检是检查什么的| 濡养是什么意思| 1939年属什么生肖| 接档是什么意思| 大便前面硬后面稀是什么原因| 子宫瘢痕是什么意思| 甲亢是什么症状| 武警和特警有什么区别| 男性性功能下降是什么原因| 3月16是什么星座| cock什么意思| 婴幼儿吃什么奶粉好| 什么情况下会感染hpv病毒| nit是什么意思| 指甲凹凸不平是什么原因| hope是什么意思啊| 双龙戏珠是什么意思| 爬楼是什么意思| qs是什么意思| 乔字五行属什么| 家蛇出现寓意什么| 喝咖啡不能吃什么食物| 一什么骆驼| 哦哦是什么意思| 6月30日什么星座| 疤痕痒是什么原因| 为什么手比脸白那么多| 思维是什么意思| 房间隔缺损是什么意思| 积食是什么症状| 右手臂酸痛是什么前兆| 巨蟹座是什么象| 西林是什么药| 阑尾炎什么症状表现| 男性尿道痒吃什么药| 鸡奸什么意思| 茯苓有什么作用| 甲状腺去医院挂什么科| 开五行属什么| 拍拖是什么意思| 梵是什么意思| 肌酐高不能吃什么| 妨子痣是什么意思| 突然好想你你会在哪里是什么歌| 免漆板是什么板材| 依巴斯汀片是什么药| 慢性胃炎伴胆汁反流是什么意思| 孕早期适合吃什么水果| store是什么| 演唱会安可是什么意思| 胎动少是什么原因| NT是什么钱| cto是什么意思| 黑玫瑰代表什么意思| 为什么乳头会疼| 疙瘩疤痕有什么方法可以去除| 男人是女人的什么| 沙眼衣原体是什么病| 布尔乔亚什么意思| 晚上吃什么不长肉| 女人喜欢什么样的阴茎| 长期喝咖啡有什么好处和坏处| 清炖牛肉放什么调料| versace什么牌子| 婊子是什么| 肺炎吃什么药| 1970年属狗是什么命| 真菌孢子阳性什么意思| 2004年出生属什么| 男人不尊重你说明什么| 仓鼠可以吃什么| 哥哥的老婆叫什么| 属鼠的和什么属相相克| 神经官能症挂什么科| 羟丁酸脱氢酶高是什么原因| 活水是什么意思| rhino是什么意思| 腹泻肚子疼吃什么药| 神采什么什么| 大便常规检查能查出什么| 肺部有问题一般会出现什么症状| 水囊是什么| 眼睑是什么位置图片| 玄武是什么动物| 及时是什么意思| nrc是什么意思| 忖量是什么意思| 乳腺囊实性结节是什么意思| 61岁属什么生肖| 腰椎间盘突出什么症状| 衣原体感染男性吃什么药| 什么是撸管| lofter是什么意思| 滴滴是什么意思| 法令纹用什么填充效果最好| 为什么十二生肖老鼠排第一| allan英文名什么意思| 梦见和老公吵架是什么意思| 葡萄籽有什么功效| 丹参长什么样子图片| 高铁服务员叫什么| 血色素是什么| 守夜是什么意思| 口腔异味是什么原因引起的| 息风止痉是什么意思| 银行支行行长什么级别| 下午5点到7点是什么时辰| qrs是什么意思| 御字五行属什么| 绞股蓝长什么样| 种生基是什么意思| 脂肪肝吃什么药最好| 什么是阳虚什么是阴虚| 这是什么踏板| 女人喜欢什么样的阴茎| 湖南有什么好玩的地方| 结节灶是什么意思啊| 金达莱是什么花| 甲状腺球蛋白抗体低说明什么| 小孩用脚尖走路是什么原因| 泪目是什么意思| 身心健康是什么意思| 妗是什么意思| 温州什么最出名| 什么是好词| 为什么会长痘痘| 慰问金是什么意思| 儿童咽峡炎吃什么药| 沙僧是什么生肖| 饕餮什么意思| 5.29是什么星座| 精神病的前兆是什么| 海柳什么颜色最贵的| 什么泡水喝治口臭| 牙疼是什么原因导致的| 阿波罗是什么神| 为什么会得子宫腺肌症| 小猫吃什么东西| 为什么精液是黄色的| 科颜氏属于什么档次| 什么水果可以减肥刮油脂| 姜罚是什么| 6月3日什么星座| 冬阴功汤是什么味道| 右眼一直跳是什么原因| 63岁属什么| 甜菜根是什么菜| 脑残是什么意思| 打感情牌是什么意思| 血糖高吃什么好| 三下乡是什么意思| 画风是什么意思| 头痛做什么检查| 包皮炎吃什么消炎药| 萌是什么意思| g代表什么单位| 科学的尽头是什么| 丁香泡水喝有什么功效和作用| 多普勒超声检查是什么| 12306什么时候放票| 子不教父之过是什么意思| 升白针叫什么名字| 0x00000024蓝屏代码是什么意思| 授记是什么意思| 入睡困难是什么原因引起的| 抗缪勒氏管激素是检查什么的| 什么叫五音不全| 菊花和枸杞泡水喝有什么功效| 不可以加什么偏旁| 10月4日是什么星座| 为什么肾阳虚很难恢复| 甲状腺囊实性结节是什么意思| 介入室是干什么的| 食指是什么经络| 什么的哭| 喝酒上脸是什么原因| 痛风发作吃什么药| 21三体临界风险是什么意思| 老年人反复发烧是什么原因引起的| 莫名其妙的心情不好是什么原因| 梦见钓到大鱼是什么意思| 白细胞增多是什么原因| 乙肝阻断针什么时候打| 百度
by Abigail Wall

教育部解读《国家教育事业发展“十三五”规划》

feature
Aug 5, 20255 mins

Researchers are racing to develop more challenging, interpretable, and fair assessments of AI models that reflect real-world use cases. The stakes are high.

百度 作为领克02全球首发地,荷兰阿姆斯特丹不仅拥有、时尚的城市氛围,更是全世界最自由开放、个性包容的都市之一,充分契合了领克02“不追随、自极致”的个性宣言。

Five stars, top 5, number five, number 5
Credit: Andrey_Popov/Shutterstock

Benchmarks are often reduced to leaderboard standings in media coverage, but their role in AI development is far more critical. They are the backbone of model evaluation—guiding improvements, enabling reproducibility, and ensuring real-world applicability. Whether you’re a developer, data scientist, or business leader, understanding benchmarks is essential for navigating the AI landscape effectively.

At their core, benchmarks are standardized evaluations designed to measure AI capabilities. Early examples like GLUE (General Language Understanding Evaluation) and SuperGLUE focused on natural language understanding tasks—such as sentence similarity, question answering, and textual entailment—using multiple-choice or span-based formats. Today’s benchmarks are far more sophisticated, reflecting the complex demands AI systems face in production. Modern evaluations assess not only accuracy but also factors like code quality, robustness, interpretability, efficiency, and domain-specific compliance.

Contemporary benchmarks test advanced capabilities: maintaining long-context coherence, performing multimodal reasoning across text and images, and solving graduate-level problems in fields like physics, chemistry, and mathematics. For instance, GPQA (Graduate-Level Google-Proof Q&A Benchmark) challenges models with questions in biology, physics, and chemistry that even human experts find difficult, while MATH (Mathematics Aptitude Test of Heuristics) requires multi-step symbolic reasoning. These benchmarks increasingly use nuanced scoring rubrics to evaluate not just correctness, but reasoning process, consistency, and in some cases, explanations or chain-of-thought alignment.

As AI models improve, they can “saturate” benchmarks—reaching near-perfect scores that limit a test’s ability to differentiate between strong and exceptional models. This phenomenon has created a benchmark arms race, prompting researchers to continuously develop more challenging, interpretable, and fair assessments that reflect real-world use cases without favoring specific modeling approaches.

Keeping up with evolving models

This evolution is particularly stark in the domain of AI coding agents. The leap from basic code completion to autonomous software engineering has driven major changes in benchmark design. For example, HumanEval—launched by OpenAI in 2021—evaluated Python function synthesis from prompts. Fast forward to 2025, and newer benchmarks like SWE-bench evaluate whether an AI agent can resolve actual GitHub issues drawn from widely used open-source repositories, involving multi-file reasoning, dependency management, and integration testing—tasks typically requiring hours or days of human effort.

Beyond traditional programming tasks, emerging benchmarks now test devops automation (e.g., CI/CD management), security-aware code reviews (e.g., identifying CVEs), and even product interpretation (e.g., translating feature specs into implementation plans). Consider a benchmark where an AI must migrate a full application from Python 2 to Python 3—a task involving syntax changes, dependency updates, test coverage, and deployment orchestration.

The trajectory is clear. As AI coding agents evolve from copilots to autonomous contributors, benchmarks will become more critical and credential-like. Drawing parallels to the legal field is apt: Law students may graduate, but passing the bar exam determines their right to practice. Similarly, we may see AI systems undergo domain-specific “bar exams” to earn deployment trust.

This is especially urgent in high-stakes sectors. A coding agent working on financial infrastructure may need to demonstrate competency in encryption, error handling, and compliance with banking regulations. An agent writing embedded code for medical devices would need to pass tests aligned with FDA standards and ISO safety certifications.

Quality control systems for AI

As AI agents gain autonomy in software development, the benchmarks used to evaluate them will become gatekeepers—deciding which systems are trusted to build and maintain critical infrastructure. And this trend won’t stop at coding. Expect credentialing benchmarks for AI in medicine, law, finance, education, and beyond. These aren’t just academic exercises. Benchmarks are positioned to become the quality control systems for an AI-governed world. 

However, we’re not there yet. Creating truly effective benchmarks is expensive, time-consuming, and surprisingly difficult. Consider what it takes to build something like SWE-bench: curating thousands of real GitHub issues, setting up testing environments, validating that problems are solvable, and designing fair scoring systems. This process requires domain experts, engineers, and months of refinement, all for a benchmark that may become obsolete as models rapidly improve.

Current benchmarks also have blind spots. Models can game tests without developing genuine capabilities, and performance often doesn’t translate to real-world results. The measurement problem is fundamental. How do you test whether an AI can truly “understand” code versus just pattern-match its way to correct answers?

Investment in better benchmarks isn’t just academic—it’s infrastructure for an AI-driven future. The path from today’s flawed tests to tomorrow’s credentialing systems will require solving hard problems around cost, validity, and real-world relevance. Understanding both the promise and current limitations of benchmarks is essential for navigating how AI will ultimately be regulated, deployed, and trusted.

Abigail Wall is product manager at Runloop.

Generative AI Insights provides a venue for technology leaders to explore and discuss the challenges and opportunities of generative artificial intelligence. The selection is wide-ranging, from technology deep dives to case studies to expert opinion, but also subjective, based on our judgment of which topics and treatments will best serve InfoWorld’s technically sophisticated audience. InfoWorld does not accept marketing collateral for publication and reserves the right to edit all contributed content. Contact doug_dineley@foundryco.com.

排恶露吃什么药 怔忡是什么意思 茶化石属于什么茶 什么是二级医院 苏慧伦为什么不老
什么人容易得精神病 观音成道日是什么意思 葡萄糖是什么意思 1997年出生属什么 什么是文字狱
荨麻疹是什么原因 腿抽筋吃什么药最好 肿标五项查的是什么 社保卡是干什么用的 身上长血痣是什么原因引起的
双子座上升星座是什么 肝低回声结节是什么意思 女性漏尿是什么原因 性腺六项是查什么的 丝瓜和什么相克
天蝎座什么星象shenchushe.com 缠腰蛇是什么原因引起的shenchushe.com 睚眦是什么意思hcv9jop6ns0r.cn 脸水肿是什么原因hcv8jop1ns5r.cn 为老不尊是什么意思hcv8jop7ns2r.cn
松鼠鱼是什么鱼hcv7jop9ns2r.cn 吉吉念什么hcv9jop3ns1r.cn 鸡痘用什么药效果好hcv9jop6ns1r.cn 法国用什么货币hcv7jop5ns0r.cn 血压高吃什么菜和水果能降血压sanhestory.com
阔腿裤配什么鞋子好看hcv7jop9ns5r.cn 脖子右侧疼是什么原因hcv8jop1ns3r.cn 腔梗是什么hcv8jop2ns6r.cn 个子矮吃什么才能长高hcv8jop5ns3r.cn 怀孕后的分泌物是什么样的hcv8jop5ns8r.cn
小孩啃指甲是什么原因hcv8jop3ns5r.cn 喉结肿大是什么原因hcv8jop5ns7r.cn 血红蛋白是指什么chuanglingweilai.com 霉菌感染用什么药好hcv8jop2ns9r.cn vup是什么意思hcv7jop7ns4r.cn
百度