很多朋友不知道【研究人员开发新型基础模型HRM-Text 训练成本仅1500美元】,今天小绿就为大家解答一下。
不过,研究团队也指出,HRM-Text目前更接近概念验证,并非现成的通用聊天产品替代方案,在多轮对话、推理模式控制和工程适配方面仍需要进一步完善。 【CNMO科技消息】有研究人员近日公布了一种名为HRM-Text的新型语言模型训练方案,称其从零开始训练一个10亿参数基础模型,估算计算成本约为1500美元,训练时长为1.9天,使用16块GPU完成。研究人员表示,这一方案能够降低基础大模型预训练对高算力和海量互联网文本的依赖。
测试结果显示,这一10亿参数模型在多项基准上取得了与更大开源模型接近的表现,包括MMLU得分60.7%、GSM8K得分84.5%、MATH得分56.2%。研究人员称,该模型训练时使用的标记数量比部分Qwen、Gemma和Llama模型少100倍至900倍,估算计算量低96倍至432倍。
AI模型 为解决循环结构在语言训练中容易出现梯度爆炸或消失的问题,研究团队还引入了名为MagicNorm的归一化方法,并采用逐步增加推理深度的预热训练策略。研究人员认为,这表明基础模型预训练不一定只能由高资源机构完成,企业未来可以围绕自身业务数据和外部知识库,训练更紧凑的推理核心模型。
据CNMO科技了解,HRM-Text没有采用常见的Transformer架构,而是基于分层循环模型HRM构建,将计算分为变化较慢的策略层和变化较快的执行层。与传统大模型通过“下一个词预测”学习原始文本不同,HRM-Text仅使用“指令-回复”数据进行训练,训练目标也从逐词预测改为任务完成,即主要根据最终回答质量进行优化。研究团队称,这种方式更接近企业实际使用场景,因为用户通常是围绕具体任务提出问题并期待明确答复。版权所有,未经许可不得转载
在数据规模上,HRM-Text训练时使用了约400亿个标记,显著少于主流模型常见的更大规模训练语料。数据由通用指令、数学、符号逻辑、教材练习和改写知识等“指令-回复”样本组成。研究人员还在训练中移除了展示中间推理过程的相关标记,以促使模型更多依赖内部层级推理结构。
以上问题已经回答了。如果你想了解更多,请关新经网网站 (https://www.xinhuatone.com/)
研究人员开发新型基础模型HRM-Text 训练成本仅1500美元
2026-06-14 19:40:07 来源:新经网 作者:冯思韵
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
