无论男女,,,,,都馋他身子?????!
算力,,,,,就像骑手一样,,,,,也要学会调理。。。。。。若是你在深夜点了一份外卖。。。。。。几分钟后,,,,,系统迅速给你派来最近的骑手,,,,,他不需要全城出动的雄师,,,,,只要顺路接单,,,,,就能把一碗热汤准时送到你手里。。。。。。美团正在把这种 " 派单逻辑 " 搬到 AI 天下。。。。。。在最新宣布的 LongCat-Flash 模子里,,,,,算力不再是一股脑砸上去,,,,,而是像骑手一样被精准调理:重大问题派更多 " 能手 ",,,,,简朴问题就近解决,,,,,最大限度镌汰铺张。。。。。。美团最近的财报,,,,,和所处的竞争情形,,,,,让它需要新的故事。。。。。。而 LongCat-Flash,,,,,就是美团递出的第一张筹码:在大模子赛道开打另一场战斗,,,,,把百万 tokens 的推理本钱压到 0.7 美元。。。。。。以下为 LongCat-Flash 手艺文档解读:像治理骑手一样治理算力手艺立异:算力活在算法中首先,,,,,LongCat-Flash 的特殊之处,,,,,不在于它 " 更大 ",,,,,而在于它会 " 精打细算 "。。。。。。它的总参数规模有 5600 亿,,,,,但在现实推理时,,,,,每个 token 只需要挪用一小部分,,,,,约莫 18.6B – 31.3B。。。。。?????梢园阉胂蟪梢桓鲋卮蟮钠锸滞哦,,,,,不是每一单都要全员出动,,,,,而是凭证订单的难度,,,,,派出最合适的几位骑手去送。。。。。。这样一来,,,,,既能包管笼罩面,,,,,又阻止了算力铺张。。。。。。而所谓 " 零盘算专家 ",,,,,着实就是处置惩罚简朴使命的捷径。。。。。。好比,,,,,一单只是送楼下便当店的一瓶水,,,,,就不需要总部重大调理,,,,,周围的小哥顺路就能完成。。。。。。同样,,,,,LongCat-Flash 遇到简朴的 token,,,,,就直接放行,,,,,不铺张多余算力,,,,,把资源留给真正重大的使命。。。。。。这种 " 按需分派 " 的逻辑,,,,,让模子像调理骑手一样,,,,,把活派得更合理。。。。。。上图中展示了 LongCat-Flash 的整体架构:每层由多头潜在注重力(MLA)+ MoE 专家组成,,,,,其中一部分是零盘算专家,,,,,包管遇到简朴 token 时可以 " 零开销 " 直接通过。。。。。。上图中 ( a ) 曲线显示:在相同算力预算下,,,,,加入零盘算专家的模子 loss 更低,,,,,收敛更快;;;;;; ( b ) 激活专家数稳固在 8 个左右,,,,,平均约 27B 参数;;;;;; ( c ) 差别 token 之间算力分派差别显着,,,,,说明模子确着实 " 挑票据 "。。。。。。另一个立异点叫 ScMoE(Shortcut-connected MoE)。。。。。。古板模子要等一批使命所有处置惩罚完,,,,,再进入下一批,,,,,就像骑手要等所有订单派完才华出门。。。。。。ScMoE 的思绪是 " 边派边送 ":骑手在送餐的同时,,,,,系统已经最先为他妄想下一单。。。。。。这样,,,,,算力的使用和通讯可以同时举行,,,,,整体效率自然提升。。。。。。图中三组曲线(差别模子规模)显示:有无 ScMoE 的 loss 险些重合,,,,,质量完全一致,,,,,但由于通讯和盘算可以重叠,,,,,ScMoE 在吞吐率和推理速率上显著提升。。。。。。工程能力:给算力买个 " 社保 "规模大,,,,,速率快只是第一步,,,,,要害是能不可稳固运行。。。。。。LongCat-Flash 的训练方法更像是在逐步扩张一个骑手网络:先在小规模试运行,,,,,把调理规则、蹊径妄想都调好,,,,,再推广到更大的规模,,,,,阻止一上来就乱成一团。。。。。。为了避免系统瓦解,,,,,它设置了 " 三重包管 "。。。。。。Router 稳固,,,,,相当于阻止所有订单都集中在一条线路;;;;;;激活稳固,,,,,就像避免某几个骑手被派单过多而累坏;;;;;;优化器稳固,,,,,则包管整体调理有节奏,,,,,恒久能跑下去。。。。。。正是靠这一套机制,,,,,它在 30 天里完成了 20 万亿 tokens 的训练使命。。。。。。性能较量:体现稳健从效果单来看,,,,,LongCat-Flash 不但是推理快,,,,,在各大基准测试中同样体现稳健!!。。。和ㄓ檬姑涸 MMLU(89.71)和 CEval(90.44)中,,,,,LongCat-Flash 抵达与国际一线模子相当的水准。。。。。。虽然 CEval 分数略低于 Kimi-K2(91.26),,,,,但整体体现依旧领先大大都基线模子,,,,,展现了不错的中文明确能力。。。。。。重大推理:在 GPQA-diamond(73.23)上,,,,,LongCat-Flash 与同类模子坚持相近水准;;;;;;在 DROP(79.06)、ZebraLogic(89.30)、GraphWalks-128k(51.05)等测试中,,,,,也稳固处于中上游梯队。。。。。。数学能力:在 MATH500(96.40)和 AIME24(70.42)上,,,,,LongCat-Flash 与 Kimi-K2、DeepSeek 相比差别不大,,,,,维持在高水平。。。。。。在 BeyondAIME(43.00)上虽有下滑,,,,,但整体仍优于大都模子。。。。。。编程使命:在 HumanEval+(88.41)、MBPP+(79.63)等 benchmark 上,,,,,LongCat-Flash 体现稳固,,,,,略低于 Kimi-K2(93.29、79.87),,,,,但依旧优于 Gemini2.5 Flash、Claude Sonnet 等敌手。。。。。。实测美团 LongCat-Flash:快着实从上面的测试基准中可以看到,,,,,美团 LongCat-Flash 的性能并没有遥遥领先的地方,,,,,只能算是与各大主流模子能力旗鼓相当。。。。。。因此在许多常用的测试中看不出差别,,,,,但有一点:美团这个模子是真的快,,,,,和买了准时宝一样。。。。。。promtps:写一个 Python 函数 is_prime ( n ) ,,,,,判断 n 是否是质数,,,,,并给出 10 个差别的测试样例。。。。。。左边模子是 LongCat-Flash 网页端,,,,,右边是 kimi 1.5(凭证官网形貌,,,,,响应更快),,,,,可以看到同样的提醒词,,,,,LongCat-Flash 没有怎么思索,,,,,一行行内容直接飞出来,,,,,而 kimi 1.5 经由短暂思索后,,,,,(和 LongCat-Flash 相比)慢悠悠的把内容写出来。。。。。。在焦点代码部分,,,,,二者也没差别,,,,,可以说 LongCat-Flash 又快又好。。。。。。LongCat-Flash 的速率和价钱优势,,,,,未必能连忙改写行业名堂。。。。。。事实在大模子市场,,,,,生态和用户习惯往往比性能参数更具粘性。。。。。。但它却透露出一个信号:美团依然习习用自己最善于的打法,,,,,把重大的科技问题翻译成 " 调理骑手 " 的逻辑,,,,,再用价钱杠杆撬开市场。。。。。。这让问题变得更有趣:当 AI 巨头们在谈模子规模、参数精度时,,,,,美团却在谈派单效率和本钱曲线。。。。。。它看似 " 接地气 " 的切入点,,,,,反而可能成为搅动名堂的变量,,,,,就像一经的 DeepSeek 那样。。。。。。十年前,,,,,美团用津贴烧出了外卖帝国。。。。。。十年后,,,,,它是否能靠另一场价钱战,,,,,把自己送进大模子的牌桌?????没人能给出谜底,,,,,但至少可以确定的是,,,,,美团已经递出了第一张筹码。。。。。。