6月9日消息,小红书近日开源了首个大模型——dots.llm1。dots.llm1是一个中等规模的Mixture of Experts(MoE)文本大模型,由小红书 hi lab(Humane Intelligence Lab,人文智能实验室)团队研发,总参数量142B,激活参数 14B。
一、技术突围:MoE架构与工程创新重构成本效率
网经社数字零售台(DR.100EC.CN)查询DeepSeek后获悉,在AI大模型军备竞赛白热化的当下,小红书hi lab团队推出的dots.llm1犹如一匹黑马,以142B总参数、14B激活参数的MoE架构,在性能与成本间找到了精妙平衡。这款中等规模模型采用细粒度混合专家结构,从128个路由专家中动态选择前6个,配合2个共享专家,实现参数激活效率的最大化。在32K超长上下文处理中,其独创的UtK策略展现出卓越的长文本记忆能力,这得益于对Transformer解码器架构的深度优化——用MoE模块替代传统前馈网络,并引入无辅助损失的负载平衡策略,通过动态调整偏置项确保专家网络负载均衡。
工程创新层面,团队与英伟达合作开发的交错式1F1B流水线调度技术堪称典范。该技术将稳态1F1B阶段的首个micro batch前向传播提前至预热阶段,实现A2A通信与计算的重叠覆盖,配合优化后的分组GEMM算子,在H800GPU上实现前向计算14%、反向计算6.68%的显著提速。这种硬件协同优化使得模型训练效率飙升,总训练成本仅需146万GPU小时,不到Qwen2.5-72B的1/4,每万亿token训练成本更是低至13万GPU小时,重新定义了大规模模型的性价比标准。
二、数据哲学:11.2万亿token炼就的“人文基因”
在数据构建上,dots.llm1展现出独特的人文视角。团队摒弃合成数据,深耕11.2万亿高质量真实语料,构建起三阶段数据处理框架:第一阶段通过URL过滤、trafilatura正文提取、MD5去重等操作,从海量网页中萃取优质文本;第二阶段引入MinHash-LSH模糊去重和启发式过滤,剔除广告、导航栏等噪声;第三阶段利用15亿参数分类器和网页杂波去除模型,将知识性内容比例提升至60%。这种近乎严苛的数据清洗,使得处理后的数据集在MMLU、TriviaQA等基准测试中表现超越TxT360等开源数据集。
更值得关注的是“AI人文训练师”团队的介入。这个由哲学、文学背景专家组成的特殊团队,与复旦大学哲学学院合作成立“AI人文人才训练营”,通过指令微调和拒绝采样微调(RFT),为模型注入人文温度。在伦理思辨测试中,dots.llm1展现出对“电车难题”等哲学命题的深度理解,在人性化表达测试中,其生成的藏头诗和天气组件代码,既保持技术精准度,又充满生活气息。
三、开源革命:MIT协议下的技术民主化实践
小红书此次开源策略堪称行业标杆。除基础模型外,团队还开放了每1万亿token训练节点的中间检查点,总计14个模型权重全部公开。这种“全生命周期”开源模式,为研究者提供了透视大模型学习动态的珍贵样本。在GitHub仓库中,详细的lr schedule、batch size参数,以及基于Cybertron框架的完整训练代码,让开发者可以无缝复现训练流程。
对比行业惯例,这种开源力度远超普通模型发布。以Qwen2.5系列为例,其仅开放最终模型权重,而dots.llm1的中间检查点相当于提供了模型进化的“时间切片”,使自适应继续训练(Continue Pretraining)和监督微调(SFT)成为可能。在Hugging Face社区,开发者已利用这些资源展开创新实验,有团队尝试将中间模型移植到边缘设备,实现低功耗推理。
四、行业震荡:开源新势力的技术话语权重构
dots.llm1的横空出世,在AI行业激起千层浪。在中文基准测试中,其以92.6分称霸CLUEWSC语义理解榜,C-Eval综合得分92.2分力压DeepSeek-V3,MATH500数学推理达84.8分,展现出“以小搏大”的惊人实力。这种性能优势直接冲击现有开源格局,迫使头部玩家重新审视技术路线。Meta某AI研究员在社交平台坦言:“当中国团队用1/4资源达成相当性能,我们该反思Scaling Law的效率边界。”
更深远的影响在于技术范式的转变。dots.llm1验证了“优质数据+高效架构”可替代“暴力Scaling”的可能性,其未使用合成数据的实践,更暗示着数据合成并非唯一出路。在GitHub仓库中,关于数据处理流程的讨论热度持续攀升,有开发者据此开发出新型网页正文提取工具,形成技术溢出效应。
五、未来演进:从工具到伙伴的人文智能愿景
站在技术转折点,小红书hi lab的野心不止于模型开源。团队正筹建“AI人文实验室2.0”,计划将音乐智能、空间智能等多模态能力融入现有架构。在技术路线图上,数据合成技术被列为重点探索方向,旨在平衡数据质量与多样性。更值得期待的是,基于dots.llm1的垂直领域微调模型已在路上,教育、医疗等场景的定制化版本或将年内面世。
这场由人文智能驱动的技术革命,正在改写AI与人类的互动方式。当dots.llm1能准确解读“弱智吧”式脑筋急转弯,当它用藏头诗诉说打工人的心声,我们看到的不仅是技术进步,更是AI向人性化迈进的坚实步伐。在这个意义上,小红书开源的不只是代码,更是一个充满温度的智能未来。