其实,顾屿今天之所以找借口把车钥匙丢给苏念和唐以诺,让她们自己去逛大唐西市,就是因为他早就知道,今天西安交大和西工大联合举办了一场全国计算机视觉与模式识别暑期研讨会。
在这个深度学习刚刚崭露头角、传统算法依然把持着学术界话语权的2013年,这场会议注定会聚集起国内第一批对未来嗅觉敏锐的AI年轻研究者。
顾屿原本只是打算借着旅途休整的空档,顺路过来碰碰运气,看看能不能从会场里“捡漏”几个有潜力的好苗子,回去填补雅安“九章”基地的算法团队。
但他万万没想到,自己的运气简直好到爆棚。
随便走进一个分会场,听了一场被老教授们泼冷水的宣讲报告,居然就直接撞上了一条还未腾飞的“真龙”!
任少卿!
这个名字在如今的2013年学术圈,或许还只是一个四处化缘算力、被老前辈们质疑工程落地的普通博士生。
但在顾屿带着未来十几年记忆的脑子里,这个名字却如雷贯耳!
顾屿太清楚了,这位可是后世计算机视觉(CV)领域名副其实的顶尖大神!
他不仅是后世大名鼎鼎的ReSNet(残差网络)和FaSter R-CNN架构的核心作者之一,曾与何恺明等顶级大牛联手斩获过计算机视觉顶会CVPR的最佳论文,一举打破了全球图像识别准确率的历史记录。
更要命的是,这位大佬在未来还全盘执掌了国内头部造车新势力蔚来的自动驾驶研发大权,是真正懂算法又懂工程落地的帅才!
这哪里是什么捡漏的苗子?
这简直是老天爷把未来星舟汽车自动驾驶版块的“战略核武器”直接端到了他嘴边!
此刻,任少卿盯着面前这个穿着大裤衩和白T恤的张扬黄毛少年,大约有三秒钟没动。
不是被震到了。
是在判断这个人是不是脑子有点问题。
“几千张GPU?”
他重复了一遍,语气带着学者特有的审慎,
“你个人……”
“公司的。”
顾屿把手从裤兜里抽出来,顺手从走廊的椅架上拖过一把椅子坐下,一副刚吃完饭打算聊会儿天的架势,
“雅安大渡河边上,有个数据中心,目前主要跑推荐算法,顺带挖点矿。”
“挖矿。”
任少卿重复了这两个字。
“嗯。”
沉默了两秒。“你是哪家公司的HR?”
“不是HR。”
“销售?”
“也不是。”
顾屿抬起眼皮,
“我是老板。”
任少卿把双肩包的带子往肩上提了提,往石柱方向靠了半步。
这是他多年来养成的习惯。
离不确定因素保持一定物理距离。
“行,”
他语气极其克制,
“算你有GPU。但你刚才说,我现在卡的瓶颈不是算力——”
“对。”
“那是什么?”
“是你对'规模'这件事的理解,停在一个错误的框架里。”
顾屿靠上椅背,右腿搭在左膝上,
“你现在的逻辑是:更大的模型,更多的数据,更强的算力,效果就会越来越好。这个方向本身没问题。但你少算了一件事。”
任少卿没说话。
“效率。”
顾屿吐出两个字,
“你的模型在做大量无效计算。它用同样的力气处理每一个输入,不管那个输入重不重要,不管当前任务简单还是复杂。这是架构设计上的浪费,不是数据和算力能补回来的。”
“你说的这个问题,”
任少卿的眉头拧了一下,
“在卷积结构里,局部感受野决定了模型必须平等对待每一个特征图的位置,这是结构本身的天花板,目前没有好的解法。除非……”
他沉默了两秒,
“你是想让模型学会‘选择性注意’?而不是对每个输入都倾尽全力?”
顾屿眉毛微微一挑。这家伙,触到边了。
“差不多。”
顾屿说。
任少卿彻底闭上了嘴。
顾屿靠在椅背上,目光落在走廊另一端透进来的夕阳上。
2025年初的那个冬夜,为了给公司续命而变卖了所有家产。
只能缩在北京一间阴冷逼仄的出租屋里盯着融资失败通知书的自己,做的也是这件事。
堆参数,堆数据,堆算力,堆到搭进去自己的一切,烧光了公司账上最后一分钱。
当时全球的AI大厂全都陷入了“算力霸权”的迷信里,像硅谷的OpenAI为了训练一个达到顶尖效果的GPT-4模型,光是纯硬件算力就疯狂烧掉了一亿多美金!
那简直是组建了一支几万人的重装钢铁洪流,用铺天盖地的钞票硬生生砸开技术的大门。
然后,DeepSeek的技术报告横空出世了。
满打满算,不到六百万美元!
连人家巨头一个零头都不到的训练成本,却打出了一个在各项核心测试上媲美甚至超越上亿美金模型的极限成绩,一纸报告,直接让全世界的同行闭嘴。
这其中的差距,用个最通俗易懂的比喻来说:
同样是做一桌极其复杂的满汉全席,硅谷巨头就像是个不差钱的傻大款,花天价雇了十万个米其林三星主厨。
结果呢?
不管是烹饪极品鲍鱼,还是在后厨切大葱、洗盘子,全都让这帮拿着天价年薪的主厨去干。
而DeepSeek的打法,是极其精打细算的“扫地僧”。
它只留极少部分核心主厨在最关键的位置,剩下的全是切菜工和帮厨。
系统一旦拿到任务。
点个拍黄瓜,直接丢给切菜工去干;点个佛跳墙,主厨才下场。
它通过极简的底层算力优化和MOE(混合专家架构),绝不浪费哪怕一滴多余的算力。
顾屿当时读完那份报告,在椅子上坐了很久。
不是看不懂。
是看懂了,才明白。
那场属于AI时代的终极竞赛,从来不是比谁的肌肉更大,不是比谁更有钱,而是比谁浪费得更少。
任少卿跑的这条路,在2013年是对的。
但终点在哪,他恐怕想不到。
“你现在做的东西,”
顾屿收回目光,看向任少卿,
“在2013年是对的。但沿这条路走下去,十年后,你会碰到一堵墙。”
“什么墙?”
“规模的边际效益递减。”
顾屿顿了顿,把那套逻辑往更通俗的地方压,
“堆到某个临界点之后,你的收益增速会垮,但成本会疯涨。到那时候,别的大厂为了训练一个更好的模型直接烧掉几千万甚至一亿美金,你哪怕卖肾也跟不起。真正的破局,不在更大,在更聪明地用更少。”
“具体怎么做?”
任少卿的语气已经完全变了。
“让模型只用它需要用的那部分脑子去思考,别把整个网络都喊起来处理一个简单问题。”
顾屿把手从大裤衩的口袋里抽出来,随手在空中画了个圈,用极具画面感的网梗语气说道:
“打个比方,你现在开了一家号称能做全宇宙所有菜的饭店。但你现在的架构逻辑是,哪怕顾客只进来点一盘最普通的醋溜土豆丝,你也会把后厨几万个米其林顶级主厨全叫醒,让他们排着长队来切土豆。这叫什么?这叫大炮轰蚊子,纯纯的‘傻大款’式的大力出奇迹,非常浪费。”
任少卿微微一愣,这个大白话比喻糙是糙了点,却像一把锋利的手术刀,一刀精准地剖开了他模型里最大的那个病灶。
顾屿看着他:
“而我想让你做的真正神级架构,是懂得分工的‘混合专家机制’。系统接到点单,自动评估难度。是土豆丝,就只唤醒底层的小神经元去当切菜工;是满汉全席,才全面激活庞大的主网络。用最小的算力功耗,跑出最极限的效率。”
“同时,让它学会自己推理,而不只是学会背答案。让它像有常识的人类一样自己去验证、纠错,而不是靠你每天拿海量的人工标注喂它吃现成的结果。”
走廊里沉默了将近十秒。
任少卿站在原地,眼睛里有什么东西在动。
他不是在反驳。
他是在消化。
这是个经过长期训练的研究员的习惯。
先装进去,再开口。
“你是学AI的?”
他最终开口,语气里已经没了最初那层礼貌性的疏远。
“不是。”
顾屿站起来,拍了拍裤腿上沾的灰,
“高中生。”
任少卿的表情出现了一个短暂的空白。
“……高中生。”
“刚毕业,”
顾屿补了一句,
“今年九月去清华报到。”
任少卿看着他,脸上写满了困惑。
顾屿也没打算给他太多时间整理思路。
他从裤兜里掏出一张名片,递过去。
名片正面只有一个手机号,简洁到近乎草率。
“如果有兴趣,打这个电话。”
顾屿说,
“接电话的是我们的CEO,算力、薪资、课题方向,你要什么先开口。她会给你想要的东西。”
任少卿接过名片,低头看了一眼。
背面,印着四个字。
回响科技。
他抬起头,再次打量面前这个穿着大裤衩和白T恤、顶着一头张扬黄毛、站在西安交大走廊夕阳里的少年。
“等等,”
他声音有点干,
“你是……回响科技的......”
“董事长。”
顾屿纠正了一个字,转身往走廊出口走,语气懒散,
“回响科技,欢迎你的加入。”
走廊尽头,夕阳把他的影子拉得很长。
任少卿站在原地,手里捏着那张名片,久久没动。