北航、人大和九坤投资共同撰写的论文 《Scaling Laws for Code: Every Programming Language Matters》 整理而成。 在代码大模型(Code LLMs)的预训练中,行业内长期存在一种惯性思维,即把所有编程语言的代码都视为同质化的文本数据,主要关注数据总量的堆叠。然而,现代软件开发本质上是多语言混合的,不同语言的语法特性、语料规模和应用场景差异巨大。
听众 Burger 想知道 “language、lingo” 和 “tongue” 之间的区别。这三个词都与我们的交流方式有关,但它们并不完全相同。它们指的是交流的文化工具,还是我们说话的风格呢?它们三个中,哪个词的用法较口语化?哪个词更文学?本期节目为你一一解答。