研究的最终目标是发现新的李雅普诺夫函数,在随机生成的2-3个多项式、2-5个多项式的数据集中,最佳模型发现了11.8%和10.1%的李雅普诺夫函数,是 传统方法的10倍 。
“Transformer完全不能支撑我们下一步,尤其是在Agent时代走向下一步。”12月18日,90后AI大牛、阶跃星辰首席科学家张翔雨公布了自己最新的研究结论,直指当前AI领域核心架构Transformer的技术瓶颈。 Transformer架构是当前人工智能,特别是生成式AI和大语言模型的基石。它是2017 年由谷歌团队在论文《Attention Is All ...
TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。 今天,阿布扎比支持的技术创新研究所 (TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。
大语言模型的性能提升很大程度上依赖于缩放定律(scaling ...
张祥雨揭示了背后的数学逻辑——Transformer的信息流是单向的:“所有的信息只能从第L-1层流向第L层,不管context是多长,模型的深度是不会增加的,它只有L层。”它的思考深度是固定的,不会因为书变厚了,脑子就变得更深邃。
快科技6月26日消息,据媒体报道,美国新兴的芯片创业公司Etched发布其首款AI芯片——Sohu。 这款芯片在运行大型模型时展现出了惊人的性能,其速度超越了行业巨头英伟达的H100高达20倍,即便是与今年3月才面世的顶尖芯片B200相比,Sohu也展现出超过10倍的优越 ...
20 天on MSN
谷歌创始人布林:当年发完Transformer论文,我们太不当回事了
回顾谷歌的来时路,布林坦言 8 年前提出 Transformer 时,他们没有予以足够的重视,而且因为担心聊天机器人说蠢话而害怕将其展示给世人。但他同时认为,他们这些年也做了很多正确的事情,比如投资研发 TPU 并建立规模庞大的数据中心。
针对医学图像分割中扩散模型(Diffusion Model)存在的特征错位和全局信息利用不足问题,西安交通大学团队提出T-CADiff模型。该研究通过条件引导Transformer(CGT)模块在傅里叶空间融合原始图像语义特征与噪声特征,结合GAN对抗训练提升生成真实性。在ISIC 2016数据集上 ...
关于未来大学形态,布林提出了颠覆性观点。他认为,随着信息传播方式的变革和远程协作的普及,传统地理界限对大学的限制可能减弱。虽然斯坦福所在的湾区具有特殊优势,但未来百年大学的概念可能需要重新定义。布林观察到,许多创新者没有学位,而是在实践中自我摸索成长。他强调,尽管谷歌雇佣了大量学术明星,但也吸纳了许多没有学士学位的优秀人才。
智东西7月26日报道,今日,世界人工智能大会开幕,在上海一家AI创企的展台前,我们目睹了中国AI创业公司正向着主流Transformer架构发起强势冲锋。 一台机器狗,学习了用户的打招呼手势后,不到30秒就学会并进行了复刻,且完全模仿了用户使用右手打招呼的 ...
Transformer的提出者谷歌,刚刚上来给了Transformer梆梆就两拳(doge)。 两项关于大模型新架构的研究一口气在NeurIPS 2025上发布,通过“测试时训练”机制,能在推理阶段将上下文窗口扩展至200万token。 两项新成果分别是: Titans:兼具RNN速度和Transformer性能的全新 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果