2025年11月,网络安全解决方案的先驱与全球领导者CheckPoint软件技术有限公司与行业领先、专注于AI代理应用安全的AI原生安全平台Lakera,联合英国人工智能安全研究所(AISI)的研究人员,近日发布专为AI智能体中大型语言模型(LLM)安全设计的开源安全评估工具——骨干破坏基准测试(backbonebreakerbenchmark)b3。
IT产业网 2025/11/05 09:29 基准测试 语言模型 开源 公司 推出 代理 模型 基准 大型 旗下 面向 出面 测试 语言 安全
IBM 研究发布了一项突破性的 LLM(大型语言模型)基准测试方法,承诺将计算成本降低高达99%。传统的基准测试,如斯坦福的 HELM,需要耗费超过一天的时间,并且成本高达1万美元,这对开发人员和研究人员来说是一个昂贵的过程。
站长之家 2024/06/04 14:27 IBM 大模型 语言模型 计算