云启伙伴|接近全球最领先大模型,天使轮被投「MiniMax」发布万亿 MoE 模型

云启资本·2024年4月17日

早于行业共识,下注MoE模型

算力,一直是AI大模型面临的巨大挑战。

年度分享中,我们观察到业界正尝试多种途径解决,包括MoE(Mixture of Experts)混合专家模型,向量数据库、研发AI芯片等。

早在MoE模型成为行业共识之前,国内头部基础大模型公司、云启天使轮被投「MiniMax」就投入了80%以上的算力和研发资源做MoE。目前,已在取得阶段性的领先成果。

今年1月,MiniMax发布国内首个MoE大模型abab 6,并持续研发优化,发布了更强大的abab 6.5系列,核心能力开始接近世界上最领先的大语言模型

本期「云启伙伴」为您带来MiniMax关于MoE模型的最新进展,enjoy.

➤➤➤ 今天,MiniMax 正式推出abab 6.5 系列模型。在此前abab 6的基础上,进一步地挖掘了 MoE 架构的潜力,研发出了更强大的 abab 6.5。

这个过程中,MiniMax找到了越来越多加速实现 Scaling Laws 的途径,包括改进模型架构,重构数据 pipeline,训练算法及并行训练策略优化等。今天发布的 abab 6.5 和 abab 6.5s 是公司加速 Scaling Laws 过程的阶段性成果。 abab 6.5 系列包含两个模型:abab 6.5 和 abab 6.5s。abab 6.5 包含万亿参数,支持 200k tokens 的上下文长度;abab 6.5s 跟 abab 6.5 使用了同样的训练技术和数据,但是更高效,支持 200k tokens 的上下文长度,可以 1 秒内处理近 3 万字的文本。 在各类核心能力测试中,abab 6.5开始接近 GPT-4、 Claude-3、 Gemini-1.5 等世界上最领先的大语言模型。 abab 6.5 和 abab 6.5s 会滚动更新到 MiniMax 旗下的产品中,包括生产力产品海螺 AI 和 MiniMax 开放平台上,欢迎使用👏

目前,MiniMax开放平台现在已经服务了超过 20000 家企业和个人开发者。打通办公协作、互动娱乐、客服、搜索、教育等十余个行业场景,与腾讯、金山办公、阅文集团、小红书、高济健康、滴滴、美团、小米等达成合作。 同时,MiniMax 采取"双轮驱动",是中国大模型创业公司中做产品最早、最多,投入也最大的一家。它们的第一款产品 Glow 上线于 2022 年 10 月,之后又陆续推出了星野、海螺 AI 等至少 4 个产品,既有陪伴型的社交娱乐应用,也有问答等生产力应用,多个应用的日活用户已突破 100 万


模型核心能力测试 用业界标准的开源测试集来测试两个模型,在知识、推理、数学、编程、指令遵从等维度上和行业领先的语言模型进行了对比。

标注星号的为MiniMax调用API测试得到的结果,其余分数来自对应的技术报告

在 200k token 内进行了业界常用的"大海捞针"测试,即在很长的文本中放入一个和该文本无关的句子(针),然后通过自然语言提问模型,看模型是否准确将这个针回答出来。在 891 次测试中,abab 6.5 均能正确回答。 💡Ps.公司正在招募更多信仰AGI的伙伴,与用户共创智能,点击了解详情