周五,周昀和汇金的人正式签订了预研项目合同,只要预研项目能够达到预期标准,那接下来就是真正的大项目。
双方通过一周的时间,沟通了需求还有汇金需要提供的资源。
汇金的需求很简单,之前就已经谈的差不多了,现在只是更加明确一点,
他们需要的是一个能够预测某只单一股票的模型,消耗资源要尽可能少,准确率要尽可能高,这也是后续他们为周昀提供多少支持的重要依据。
至于资源方面,财大气粗的汇金提供了64张H100的显卡集群,还有相互配套的处理器和内存,其价值已经超过了千万。
因为说是预研项目,但其实除了在数据量和模型架构上有所阉割之外,现在要做的版本和最终版本在最核心的东西上是差不多的。
毕竟只要能精准预测一支股票,就能精准预测无数支,两者之间无非就是数据量上的差别。
汇金显然知道其中的难度,所以才会这么大方。
在周昀的预估中,这些资源应该是绰绰有余的,因为他研究的模型在算力的消耗上本就比市面上的同类型模型要低。
汇金还支付了周昀一个月两万的劳务费,按照合同,他需要在一年之内完成预研项目,如果失败了,他就要加入汇金。
按理来说,这种大项目,这样的验收时间并不算富裕,不过周昀有信心一年之内搞定。
实验室里,周昀并没有第一时间就开始设计方案,反倒是开始看起了论文。
因为不管是前世还是现在,他接触的都是“小模型”,这里的小模型指的是LSTM、CNN、FCN这种结构单一,参数量不大的轻量级神经网络。
而他现在要做的项目则需要用到真正意义上的多模态大模型,这种大模型现在普遍都是基于Transformer架构,
虽然Transformer非常厉害,但是也有一个缺点,因为他的主要核心Attention也就是注意力机制,
这种算法的时间复杂度复杂度是O(n^2),所以需要的计算量非常大,这也是为什么现在市面上的大模型训练需要的显卡都是几千几万张。
大模型和小模型之间除了算力消耗和成本上有着巨大差异,在整体架构上也有着明显的差异。
一个小模型可能只需要几百行代码就能完整的写出来,然后开始运行。
而一个真正意义上的大模型想要正常运行,除了其核心代码之外还需要各种的配套功能的代码,这些加起来几万行都算是少的了。
他在这方面的,不管是经验还是知识都很欠缺,所以第一步就是——看文献,至少要熟知多模态大模型领域所有的先进技术之后,他才会开始计划怎么将现有参数量不大的模型进行升级。
其实这一步应该是在谈项目之前就做的,只不过周昀那个模型的性能实在太优秀了,
再加上他在和汇金的人谈判的时候表现得太过淡定,这让别人以为他在这方面有了一定的积累,这才直接敲定了项目。
不过这都无伤大雅,凭他现在的英语水平和理解能力一天刷个十几篇论文不是问题,最多一个月,他就能把大模型领域的技术摸得差不多。
时间来到了七月底,距离周昀和汇金的谈判已经过去了两周时间。
周一,周昀照常来到实验室。
正当他打开电脑准备刷一刷今日份的论文时,沈瑞抱着个笔记本电脑走到他身边。
“周昀师弟,有件事我想找你帮个忙。”他有些不好意思地笑了笑。
“你说。”
“是这样,我之前不是把论文初稿给邓老师看了吗?改了几次他都不满意,说是创新点没有,模型性能没有提升,工作做的再多也没用,
但是他给的几个建议我都试了,没什么进展,上周组会我汇报的时候不还是被骂了一顿吗?”
一说起这个他就头大,也不知道自己当初为什么来读这个研究生,和周昀相比,他感觉自己笨的就像是个草履虫。
“行,我先看看论文?”
反正看一篇论文他也花不了多长时间,都是同门,而且平时师兄对他也都不错,经常请他喝咖啡奶茶,还时不时请他出去吃饭。
“太谢谢你了,真是不好意思,我也知道你最近很忙,我这也是实在没办法了,要是再这样下去,我感觉肯定是要延毕了。”沈瑞一边感谢一边打开电脑。
周昀接过电脑,快速的滚动鼠标,沈瑞的研究方向是网络流量的概念漂移,
所谓概念漂移简单来说就是,一年前微信的流量在网络中的样子是A形态,但是过了一年之后因为相关协议,软件升级,他在网络中的样子变成了B形态,
这种变化导致了现有的网络流量检测模型无法做出准确的判断,这个变化的过程就能大概理解成概念漂移。
这个方向他也挺熟悉,因为他前世给老师做横向的时候也有过涉猎,所以引言和相关技术部分他扫一眼就知道是怎么回事。
因为现在的论文都有了成熟的套路,前两部分都写的没什么太大问题。
不过当他看到方法部分的时候,知道了问题所在。
说实话沈瑞的方法发个CCFC或者SCI二区的期刊都是够了,但是邓老师的要求比较高,被喷也是无可厚非的事情。
看着论文,周昀不由得摇头笑了笑。
这模样看的沈瑞心脏不争气地一跳:“周昀,我这论文问题很大吗?”
对于周昀,他现在是完全信任的,其地位在他心里和邓永华没什么区别,要是连他都摇头的话,岂不是说明自己这论文完全没救了?
“没事,问题不大.....”周昀翻阅着论文解释了一句。
他笑是因为他在沈瑞身上看到了曾经的自己,也是一样,没什么天赋,发论文只能靠着对别人的模型修修改改,加点模块。
没办法,天才终究是少数,大多数的研究生甚至博士生所谓的科研,也不过就是做着“学术裁缝”的事情罢了。
“如果只是想发文章的话,你只需要增加一个模块就好,现在你的模型对概念漂移的检测准确率不高是因为它无法准确识别其中的鲁棒性特征,你只需要......”
周昀还贴心的帮忙找到了相应的论文和github代码链接,只要沈瑞照着别人的代码把相应的模块缝到自己的模型上,那不管是创新点还是性能提升就都有东西能写了。