智工具编译 金碧辉编辑 程茜
智工具5月28日新闻,据科技媒体The Decoder 5月26日报道,当天,谷歌正式宣布开源大模子评测框架LMEval,支持对GPT-4o、Claude 3.7 Sonnet、Gemini 2.0 Flash、Llama-3.1-405B等主流模子举行多模态能力标准化评估。
LMEval基于LiteLLM框架(能闪开发者通过统一API便捷挪用GPT、Claude、Llama等上百款大模子,并支持流式响应、批量推理及本钱监控等功效的开源框架)买通谷歌、OpenAI、Anthropic、Ollama和Hugging Face五大厂商API接口,首次实现文本、图像、代码三类使命的一站式评测,并通过增量评估手艺镌汰80%重复测试算力消耗。
LMEval的源代码和示例条记本已经在GitHub上果真,供宽大开发者使用和研究。
地点:https://github.com/google/lmeval
一、跨平台互通,接纳增量评估+多线程并行盘算手艺,测试效率提升5倍
LMEval基于LiteLLM框架,将谷歌、OpenAI、Anthropic、Ollama、Hugging Face的API接口标准化,开发者无需针对差别平台重写测试代码。
同时,科技媒体The Decoder援引谷歌官方说道,LMEval系统接纳增量评估手艺,配合多线程并行盘算,能节约80%算力,原本8小时的测试流程可压缩至1.5小时。
在评估场景层面,LMEval突破了简单文本问答的局限,将图像明确、代码天生等场景纳入评测领域,知足多领域对大模子能力评测的需求。
在题型方面,LMEval提供了是非判断、多选问答、开放式天生等多达12种题型,为周全评估模子在差别使命形式下的体现创立了条件。同时,LMEval?榛杓圃市砜⒄咭谰葑陨硌芯炕蛴敌枨,无邪添加新的评估维度,增强了框架的扩展性与顺应性。
在清静评估层面,LMEval新增的规避性回覆检测功效能够识别模子在面临敏感问题时所接纳的推诿战略,这关于评估模子在处置惩罚敏感信息时的可靠性意义重大。
▲Giskard的清静评分显示了差别的AI模子怎样有用地规避潜在的有害内容。百分比越高,清静性就越高。(图源:谷歌)
在数据存储与隐私;げ忝,LMEval将测试数据存储于自加密的SQLite数据库中,外地会见需密钥验证,有用阻断搜索引擎抓取,在数据使用历程中全方位包管数据清静与隐私。
二、评测本钱直降90%,月之暗面已安排
据The Decoder报道,LMEval接纳增量评估手艺后,企业新增测试场景的运维本钱降低90%。海内大模子创业公司月之暗面手艺认真人王海明、刘征瀛在今年5月26日谷歌LMEval框架宣布后的媒体相同会上透露,该工具已应用于其内部流程优化,在未使用LMEval前,月之暗面针对新模子或新场景的评测往往需要数周时间来搭建测试情形、设计评测流程以及执行测试。
而引入LMEval后,原本重大冗长的流程得以简化,现在仅需几天就能完成一轮周全评测,研发周期大幅缩短超两周。
LMEval配套的LMEvalboard可视化工具支持天生雷达图,能直观比照差别模子在各项能力上的体现短板。
开发者点击图表即可审查详细过失案例,还能并排比照差别模子对统一问题的响应差别,助力精准定位模子性能优劣,为模子的优化与刷新提供有力依据
结语:谷歌开源LMEval框架,买通五大厂商API接口
谷歌开放的开源框架LMEval基于LiteLLM框架,买通谷歌、OpenAI、Anthropic、Ollama和Hugging FaceAPI的API接口,闪开发者能在统一情形下评测差别泉源模子。通过?榛杓,它可同时知足文本、图像、代码等多模态评估需求,提供12种题型,还能无邪添加新评估维度。而增量评估手艺配合多线程并行盘算,节约80%算力,使企业新增测试场景的运维本钱降低90%,显著提升测试效率、降低测试本钱。
谷歌推出的LMeval框架通过标准化和无邪性的连系,为研究职员和开发者提供了便当。在未来,随着AI手艺的一直演进,LMeval框架或有可能成为行业内评测事情的标准,助力推动AI模子的一连生长与优化。
泉源:The Decoder
成人永久免费crm入口在哪 | 3天前 |
莱卡恩腹肌凸根根图片高清 |
13女打屁股沟㊙️SP视频 | 5天前 |
日漫网站 |
3D朱竹清被❌到爽动漫 | 6天前 |
嗯~啊别揉我奶头㊙️视频麻豆 |
李小璐裸被❌视频无码网站 | 4天前 |
funny榨精肌肉Gay龙男同 |
3D不知火舞被❌羞辱打开腿小说 | 9天前 |
揉弄高潮嗯啊AV视频网站 |
日本A片无码裸体视频免费 | 1天前 |
男人裸体㊙️情趣内裤 |
🔞🍆🍑×××🔞网站 | 5天前 |
妮可裸体被❌涩涩在线观看 |
赵露思被c到怀孕 | 5天前 |
推荐 - 91Porn |
424hcn.登录入口张柏芝 | 2天前 |
乖⋯好舒服⋯把腿张开许盛 |
91美女㊙️下部偷拍 | 5天前 |
ai换脸宋雨琦自慰❌❌喷水好爽 |