首页 > 推荐 > 人物

一群中国年轻开发者挑战AI领域的Transformer模型

时间: 浏览:

在当前AI领域群雄逐鹿的背景下,一家创立于2023年6月的中国初创企业正在挑战2017年由谷歌提出的Transformer架构,致力于进行底层技术创新。

作为当下主流生成式人工智能的基础架构,Transformer技术堪称划时代。正是这一架构的突破,才引发了本轮AI领域的革新浪潮,包括风靡全球的ChatGPT在内。谷歌当年发表该架构论文时,其标题"Attention Is All You Need"更是彰显了其核心地位。

这家名为RockAI(岩芯数智)的企业,正在尝试通过架构创新来减少计算冗余和算力消耗。他们的目标是让每一台设备都能具备智能能力——"Make every device its own intelligence"。

自成立以来不到两年时间,RockAI已取得显著进展。其自主研发的Yan架构于2024年1月推出了中国首个非Transformer架构的大模型Yan1.0,并在随后演进到多模态Yan1.3版本。这一创新成果能够高效处理图像、文本和语音等多种信息形式,适配包括树莓派、无人机、机器人、PC以及手机等在内的各类终端设备。

RockAI位于上海的办公室里,60多位团队成员在开放式的办公环境中专注工作。这些充满热情的技术人才沉浸在自己的世界中,往往需要通过拍肩才能唤醒他们的注意。

2025年3月底,在与RockAI两位联合创始人刘凡平和邹佳思交流时,南方周末研究员发现,这两位创始人的温和、内敛气质,似乎与他们那激进的愿景不太匹配。然而深入了解后才发现,这种外表反差背后是深厚的技术积累。

此前,他们在互联网大厂工作期间积累了丰富的搜索和游戏开发经验,并在二三四五网络科技股份有限公司合作期间共同优化Transformer架构。经过多次尝试并穷尽各种可能性之后,他们决定携手创业,自主研发AI架构。

"如果过去是'软件定义硬件',那么未来将是'智能定义硬件'"。RockAI创始人兼CEO刘凡平指出,智能终端将成为通向通用人工智能(AGI)的"最佳载体"。他表示,这些智能设备将根据需求不断演变,就像真正的"变形金刚"一样。

就像ChatGPT引发了生成式AI革命,DeepSeek打破了"算力垄断",RockAI的Yan架构及其背后的中国制造生态系统,能否引领群体智能迈向AGI?这无疑是一个值得期待的技术突破。

从底层架构革新

南方周末:你们最早什么时候意识到大模型的效用?

刘凡平:虽然外界普遍认为大模型在最近两年才开始爆发,但凭借我们专业背景和从业经历,对相关技术始终保持敏锐感知。早在2019年从事搜索技术研发时,我们就已经开始深入探索Transformer架构的潜力。