优德88最新官网

宣布于2026-04-18 09:24:55 来自用户心得 ·

关注

无论男女，，，，，都馋他身子？？？？？！

原奶上市公司整体减亏，，，，，深度调解进入最后一年

算力，，，，，就像骑手一样，，，，，也要学会调理。。。。。。若是你在深夜点了一份外卖。。。。。。几分钟后，，，，，系统迅速给你派来最近的骑手，，，，，他不需要全城出动的雄师，，，，，只要顺路接单，，，，，就能把一碗热汤准时送到你手里。。。。。。美团正在把这种 " 派单逻辑 " 搬到 AI 天下。。。。。。在最新宣布的 LongCat-Flash 模子里，，，，，算力不再是一股脑砸上去，，，，，而是像骑手一样被精准调理：重大问题派更多 " 能手 "，，，，，简朴问题就近解决，，，，，最大限度镌汰铺张。。。。。。美团最近的财报，，，，，和所处的竞争情形，，，，，让它需要新的故事。。。。。。而 LongCat-Flash，，，，，就是美团递出的第一张筹码：在大模子赛道开打另一场战斗，，，，，把百万 tokens 的推理本钱压到 0.7 美元。。。。。。以下为 LongCat-Flash 手艺文档解读：像治理骑手一样治理算力手艺立异：算力活在算法中首先，，，，，LongCat-Flash 的特殊之处，，，，，不在于它 " 更大 "，，，，，而在于它会 " 精打细算 "。。。。。。它的总参数规模有 5600 亿，，，，，但在现实推理时，，，，，每个 token 只需要挪用一小部分，，，，，约莫 18.6B – 31.3B。。。。。�？？？？？梢园阉胂蟪梢桓鲋卮蟮钠锸滞哦�，，，，，不是每一单都要全员出动，，，，，而是凭证订单的难度，，，，，派出最合适的几位骑手去送。。。。。。这样一来，，，，，既能包管笼罩面，，，，，又阻止了算力铺张。。。。。。而所谓 " 零盘算专家 "，，，，，着实就是处置惩罚简朴使命的捷径。。。。。。好比，，，，，一单只是送楼下便当店的一瓶水，，，，，就不需要总部重大调理，，，，，周围的小哥顺路就能完成。。。。。。同样，，，，，LongCat-Flash 遇到简朴的 token，，，，，就直接放行，，，，，不铺张多余算力，，，，，把资源留给真正重大的使命。。。。。。这种 " 按需分派 " 的逻辑，，，，，让模子像调理骑手一样，，，，，把活派得更合理。。。。。。上图中展示了 LongCat-Flash 的整体架构：每层由多头潜在注重力（MLA）+ MoE 专家组成，，，，，其中一部分是零盘算专家，，，，，包管遇到简朴 token 时可以 " 零开销 " 直接通过。。。。。。上图中 ( a ) 曲线显示：在相同算力预算下，，，，，加入零盘算专家的模子 loss 更低，，，，，收敛更快；；；；；； ( b ) 激活专家数稳固在 8 个左右，，，，，平均约 27B 参数；；；；；； ( c ) 差别 token 之间算力分派差别显着，，，，，说明模子确着实 " 挑票据 "。。。。。。另一个立异点叫 ScMoE（Shortcut-connected MoE）。。。。。。古板模子要等一批使命所有处置惩罚完，，，，，再进入下一批，，，，，就像骑手要等所有订单派完才华出门。。。。。。ScMoE 的思绪是 " 边派边送 "：骑手在送餐的同时，，，，，系统已经最先为他妄想下一单。。。。。。这样，，，，，算力的使用和通讯可以同时举行，，，，，整体效率自然提升。。。。。。图中三组曲线（差别模子规模）显示：有无 ScMoE 的 loss 险些重合，，，，，质量完全一致，，，，，但由于通讯和盘算可以重叠，，，，，ScMoE 在吞吐率和推理速率上显著提升。。。。。。工程能力：给算力买个 " 社保 "规模大，，，，，速率快只是第一步，，，，，要害是能不可稳固运行。。。。。。LongCat-Flash 的训练方法更像是在逐步扩张一个骑手网络：先在小规模试运行，，，，，把调理规则、蹊径妄想都调好，，，，，再推广到更大的规模，，，，，阻止一上来就乱成一团。。。。。。为了避免系统瓦解，，，，，它设置了 " 三重包管 "。。。。。。Router 稳固，，，，，相当于阻止所有订单都集中在一条线路；；；；；；激活稳固，，，，，就像避免某几个骑手被派单过多而累坏；；；；；；优化器稳固，，，，，则包管整体调理有节奏，，，，，恒久能跑下去。。。。。。正是靠这一套机制，，，，，它在 30 天里完成了 20 万亿 tokens 的训练使命。。。。。。性能较量：体现稳健从效果单来看，，，，，LongCat-Flash 不但是推理快，，，，，在各大基准测试中同样体现稳健！！�。。。和ㄓ檬姑涸� MMLU（89.71）和 CEval（90.44）中，，，，，LongCat-Flash 抵达与国际一线模子相当的水准。。。。。。虽然 CEval 分数略低于 Kimi-K2（91.26），，，，，但整体体现依旧领先大大都基线模子，，，，，展现了不错的中文明确能力。。。。。。重大推理：在 GPQA-diamond（73.23）上，，，，，LongCat-Flash 与同类模子坚持相近水准；；；；；；在 DROP（79.06）、ZebraLogic（89.30）、GraphWalks-128k（51.05）等测试中，，，，，也稳固处于中上游梯队。。。。。。数学能力：在 MATH500（96.40）和 AIME24（70.42）上，，，，，LongCat-Flash 与 Kimi-K2、DeepSeek 相比差别不大，，，，，维持在高水平。。。。。。在 BeyondAIME（43.00）上虽有下滑，，，，，但整体仍优于大都模子。。。。。。编程使命：在 HumanEval+（88.41）、MBPP+（79.63）等 benchmark 上，，，，，LongCat-Flash 体现稳固，，，，，略低于 Kimi-K2（93.29、79.87），，，，，但依旧优于 Gemini2.5 Flash、Claude Sonnet 等敌手。。。。。。实测美团 LongCat-Flash：快着实从上面的测试基准中可以看到，，，，，美团 LongCat-Flash 的性能并没有遥遥领先的地方，，，，，只能算是与各大主流模子能力旗鼓相当。。。。。。因此在许多常用的测试中看不出差别，，，，，但有一点：美团这个模子是真的快，，，，，和买了准时宝一样。。。。。。promtps：写一个 Python 函数 is_prime ( n ) ，，，，，判断 n 是否是质数，，，，，并给出 10 个差别的测试样例。。。。。。左边模子是 LongCat-Flash 网页端，，，，，右边是 kimi 1.5（凭证官网形貌，，，，，响应更快），，，，，可以看到同样的提醒词，，，，，LongCat-Flash 没有怎么思索，，，，，一行行内容直接飞出来，，，，，而 kimi 1.5 经由短暂思索后，，，，，（和 LongCat-Flash 相比）慢悠悠的把内容写出来。。。。。。在焦点代码部分，，，，，二者也没差别，，，，，可以说 LongCat-Flash 又快又好。。。。。。LongCat-Flash 的速率和价钱优势，，，，，未必能连忙改写行业名堂。。。。。。事实在大模子市场，，，，，生态和用户习惯往往比性能参数更具粘性。。。。。。但它却透露出一个信号：美团依然习习用自己最善于的打法，，，，，把重大的科技问题翻译成 " 调理骑手 " 的逻辑，，，，，再用价钱杠杆撬开市场。。。。。。这让问题变得更有趣：当 AI 巨头们在谈模子规模、参数精度时，，，，，美团却在谈派单效率和本钱曲线。。。。。。它看似 " 接地气 " 的切入点，，，，，反而可能成为搅动名堂的变量，，，，，就像一经的 DeepSeek 那样。。。。。。十年前，，，，，美团用津贴烧出了外卖帝国。。。。。。十年后，，，，，它是否能靠另一场价钱战，，，，，把自己送进大模子的牌桌？？？？？没人能给出谜底，，，，，但至少可以确定的是，，，，，美团已经递出了第一张筹码。。。。。。

热门排行

【网站地图】【sitemap】