Transformer - 搜索 News

1 天

AI解决132年数学难题，Transformer成功寻找新的李雅普诺夫函数，三体 ...

研究的最终目标是发现新的李雅普诺夫函数，在随机生成的2-3个多项式、2-5个多项式的数据集中，最佳模型发现了11.8%和10.1%的李雅普诺夫函数，是传统方法的10倍。

AI大牛张祥雨：Transformer撑不起Agent时代

“Transformer完全不能支撑我们下一步，尤其是在Agent时代走向下一步。”12月18日，90后AI大牛、阶跃星辰首席科学家张翔雨公布了自己最新的研究结论，直指当前AI领域核心架构Transformer的技术瓶颈。 Transformer架构是当前人工智能，特别是生成式AI和大语言模型的基石。它是2017 年由谷歌团队在论文《Attention Is All ...

16 天

Mamba再次挑战霸主Transformer，首个通用Mamba开源大模型一鸣惊人

TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所 (TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。

腾讯网

替代Transformer标准前馈网络！华为诺亚开源VersatileFFN，开启参数高效 ...

大语言模型的性能提升很大程度上依赖于缩放定律（scaling ...

12 天

Transformer能否支撑下一代Agent？

张祥雨揭示了背后的数学逻辑——Transformer的信息流是单向的：“所有的信息只能从第L-1层流向第L层，不管context是多长，模型的深度是不会增加的，它只有L层。”它的思考深度是固定的，不会因为书变厚了，脑子就变得更深邃。

快科技

全球首款Transformer专用AI芯片Sohu发布：比英伟达H100快20倍

快科技6月26日消息，据媒体报道，美国新兴的芯片创业公司Etched发布其首款AI芯片——Sohu。这款芯片在运行大型模型时展现出了惊人的性能，其速度超越了行业巨头英伟达的H100高达20倍，即便是与今年3月才面世的顶尖芯片B200相比，Sohu也展现出超过10倍的优越 ...

20 天on MSN

谷歌创始人布林：当年发完Transformer论文，我们太不当回事了

回顾谷歌的来时路，布林坦言 8 年前提出 Transformer 时，他们没有予以足够的重视，而且因为担心聊天机器人说蠢话而害怕将其展示给世人。但他同时认为，他们这些年也做了很多正确的事情，比如投资研发 TPU 并建立规模庞大的数据中心。

生物通

基于条件引导Transformer的对抗扩散模型T-CADiff在医学图像分割中的创新 ...

针对医学图像分割中扩散模型(Diffusion Model)存在的特征错位和全局信息利用不足问题，西安交通大学团队提出T-CADiff模型。该研究通过条件引导Transformer(CGT)模块在傅里叶空间融合原始图像语义特征与噪声特征，结合GAN对抗训练提升生成真实性。在ISIC 2016数据集上 ...

17 天

谷歌联合创始人布林反思：错失Transformer先机，未来看好材料科学

关于未来大学形态，布林提出了颠覆性观点。他认为，随着信息传播方式的变革和远程协作的普及，传统地理界限对大学的限制可能减弱。虽然斯坦福所在的湾区具有特殊优势，但未来百年大学的概念可能需要重新定义。布林观察到，许多创新者没有学位，而是在实践中自我摸索成长。他强调，尽管谷歌雇佣了大量学术明星，但也吸纳了许多没有学士学位的优秀人才。

凤凰网

让大模型不靠外部干预自己学习！这家非Transformer AI黑马，引爆WAIC

智东西7月26日报道，今日，世界人工智能大会开幕，在上海一家AI创企的展台前，我们目睹了中国AI创业公司正向着主流Transformer架构发起强势冲锋。一台机器狗，学习了用户的打招呼手势后，不到30秒就学会并进行了复刻，且完全模仿了用户使用右手打招呼的 ...

来自MSN

谷歌新架构突破Transformer超长上下文瓶颈! Hinton灵魂拷问：后悔Open吗?

Transformer的提出者谷歌，刚刚上来给了Transformer梆梆就两拳（doge）。两项关于大模型新架构的研究一口气在NeurIPS 2025上发布，通过“测试时训练”机制，能在推理阶段将上下文窗口扩展至200万token。两项新成果分别是： Titans：兼具RNN速度和Transformer性能的全新 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果