bench

中新赛克AI技术斩获全球第六！BIRD-Bench权威评测见证硬核实力

近日，在被誉为“Text-to-SQL领域试金石”的国际权威评测基准BIRD-Bench上，中新赛克凭借其自研的Sinovatio-SQL系统，在竞争异常激烈的全球榜单中双双跻身第...

admin /新鲜讯息 /2025-10-29 /0 评论 /26 阅读

登顶SWE-Bench！快手KAT-Dev-72B-Exp，刷新开源SOTA！

大规模强化学习作为关键路径，能够有效激发大模型复杂推理能力并显著提升其任务泛化性。近期，快手 Kwaipilot 团队重磅发布了 KAT-Dev-72B-Exp，在软件开发能力评测...

admin /新鲜讯息 /2025-10-14 /0 评论 /68 阅读

阿里巴巴联合高校发布首个面向生产场景的代码安全基准SecCodeBench

近年来，以大语言模型（LLM）为核心的AI编程助手（如GitHub Copilot, Cursor）正以前所未有的速度渗透到软件开发的每个角落。Stack Overflow 202...

admin /新鲜讯息 /2025-07-10 /0 评论 /94 阅读

GPT-4o会听却不一定能懂？GPT-4o能理解阴阳怪气吗？

近年来，音频大语言模型（LALMs）如 GPT-4o 迅速发展，已具备直接进行语音对话的能力，标志着人机交互迈入“开口即交流”的新时代。然而，当前模型在理解人类隐含意图（如...

admin /新鲜讯息 /2025-07-01 /0 评论 /100 阅读

现代C++测试工具链(是时候抛弃gtest/google bench了)

gtest的问题gtest需要安装有时候带来很多不方便，比如需要经常切换gcc和clang的时候就比较麻烦，安装的gtest可能在另一个编译器下编译不过, 编写跨平台程序的时候需...

admin /新鲜讯息 /2025-02-15 /0 评论 /231 阅读

首次覆盖超 11 类真实编程场景！豆包大模型团队开源代码大模型全新基准

今天，字节跳动豆包大模型团队开源 FullStack Bench，一个专注于全栈编程和多语言编程的代码评估数据集。该数据集在业界首次囊括编程全栈技术中超 11 类真实场景，覆盖了...

admin /新鲜讯息 /2024-12-07 /0 评论 /197 阅读

重磅！海量数据完成中国信通院集中式事务型数据库性能测试

近日，在中国信通院组织的2024年下半年可信数据库“集中式事务型数据库性能测试”中，北京海量数据技术股份有限公司（以下简称：海量数据）的海量数据库Vastbase G100 V2....

admin /新鲜讯息 /2024-10-29 /0 评论 /259 阅读

【安全/科技】互联网情报资讯08.16

【安全情报】DARPA举办人工智能网络挑战赛，推动人工智能驱动的网络安全（来源：executivegov 发布时间：2024-08-14）美国国防高级研究计划局（DARPA）举办了...

admin /新鲜讯息 /2024-08-16 /0 评论 /383 阅读

ACL 2024 | Parrot（鹦鹉）：增强大语言模型在多轮对话中的指令跟随能力

多轮对话是大语言模型与人类互动的主要方式，广泛应用于消费娱乐、生产力工具和创意生成等场景。然而，构建多轮对话能力所需的训练数据人工标注成本高，且难以控制质量和多样性。因此，如何增强...

admin /新鲜讯息 /2024-07-23 /0 评论 /445 阅读

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

近日，中国信息通信研究院发布大模型安全基准测试AI Safety Bench 2024年Q1的首轮测评报告（下称“测评报告”），结果显示，360集团自研的认知通用大模型360智脑综...

admin /新鲜讯息 /2024-04-10 /0 评论 /262 阅读

关于 bench 的文章

中新赛克AI技术斩获全球第六！BIRD-Bench权威评测见证硬核实力

登顶SWE-Bench！快手KAT-Dev-72B-Exp，刷新开源SOTA！

阿里巴巴联合高校发布首个面向生产场景的代码安全基准SecCodeBench

GPT-4o会听却不一定能懂？GPT-4o能理解阴阳怪气吗？

现代C++测试工具链(是时候抛弃gtest/google bench了)

首次覆盖超 11 类真实编程场景！豆包大模型团队开源代码大模型全新基准

重磅！海量数据完成中国信通院集中式事务型数据库性能测试

【安全/科技】互联网情报资讯08.16

ACL 2024 | Parrot（鹦鹉）：增强大语言模型在多轮对话中的指令跟随能力

中国信通院发布大模型安全基准测试报告 360智脑综合排名第一

搜索

最近发表

热门文章

标签列表

最新文章

热评文章

热门文章

站点信息