第43章 又双叒叕突破啦
孟繁岐的这番话,听起来让人觉得不是那么舒服。
言下之意,给人一种华国AI技术就是不如国外的感觉。
这是李彦弘不大喜欢的,毕竟他这么早就关注AI技术,就是为了研发最前沿最先进的技术。
孟繁岐大概猜到了他的想法,前世他也曾被早期华国大量发表的AI论文所迷惑。
觉得在这个新崛起的技术上,华国已经可以和美国分庭抗礼,不落下风。
虽然AlphaGO震惊了世人,但毕竟有些华而不实。
直到上千亿级别的语言大模型出现,这种纯硬核实力的比拼,让孟繁岐不得不甘拜下风。
实际上,并非是技术手段和算法层面上相差太远。
更多的还是因为优质数据的数量不足。
白度的文心一言,出图的时候甚至会将用户的中文输入翻译成英文,再去作图。
很多较真的网友故意测试了中英文差异很大的词汇,比如总线(Bus),鼠标(mouse)。
文心一言绘出的图像竟然是大巴车和老鼠,这从中文上是完全说不通的事情。
可见即便不是全部,文心一言这个所谓的专注中文的超级大模型,也在相当程度上借助了英文基础的模型权重和技术。
究竟为何要这么做,说到底还是基础不够扎实牢靠。
整理数据,清洗数据,给数据打上高质量的标签。
这些都是脏活累活,见效慢的工作。
把别人公开的数据拿过来跑一跑训一训,多么方便快捷?
以国内996大厂的内卷风气,很难容下长回报周期的基础建设。
早些时候看看不出区别,只觉得国内大厂频繁在XX榜单上露面,刷榜,又是超过这个,又是超过那个。
直到语言大模型阶段,基础语料数量和质量上的劣势才暴露无遗。
“其实这也不能完全怪华国的大厂风气,美国的互联网起步要早,并且很多领域的文献材料归档做得特别好。”孟繁岐也曾仔细思索过这方面的问题。
“像github,arxiv这样的大型公开社区,里面都是非常优质的外文代码或者论文。这些也不只是美国人自己的积累。而是通过免费公用的形式,收割了全世界的数据。”
“华国人在github上贡献的代码行数也不在少数,反过来看看华国的论文社区,就比如知网,纯纯就是毒瘤。里面屯点硕博生的论文,还要论页数收费。就连下载之后的阅读器,甚至都需要专门的....”
此消彼长之下,差了多少珍贵的数据啊...
只是此时此刻,李彦弘应该还没有想到这么大规模的数据用于训练。因而孟繁岐也不急于一时和他讨论后面语言类的技术,以及生成式的大模型。
最近一两年内,孟繁岐的重心还是在视觉图像算法这边。
“李总,我个人相信AI技术的开源程度是相对的,不可以一直这样透明下去。只是最后成为壁垒的可能并不是模型本身这个纯技术范畴,更多的可能是计算能力,高质量的大规模数据,以及一些精髓的训练与反馈方式等等。”
“即便是现在的开源时期,算法产生到模型和代码公之于众,其实正常来说,有个半年到一年的时间差,都是正常的。”
“对学术界来说,这不是一个特别长的时间,但对业界能够真实落地的方向来说。这个时间导致的结果可能是天差地别,甚至是一个企业生与死的区别和距离。”
李彦弘闻言微微颔首,他自然明白孟繁岐话里暗示的意思。
假设说,李彦弘他想要推出一个实时高性能的图像检测应用,目前市面上的算法是没有能够支持他所需要的计算速度和准确度的。
即便孟繁岐愿意公开手里的结果,以论文的审阅方式,至少也是半年后,人们才会知道其中的技术细节。
再加上复现和试错的时间,他能够在8-9个月内的时间里把技术应用进去,就已经很快了。
但如果与孟繁岐合作,自然就能够提前8-9个月直接获得这项技术。
这么长的时间,足够李彦弘把各方面的适配,嵌入,甚至是App和用户界面等交互的东西全都开发完备。
市场方面的宣传和交涉也可以早早展开。
等到技术首次公布的时候,竞争者们还在看论文,惊叹于新技术的性能。
白度则已经和潜在客户谈了三四个月了。
竞争者们还在争相复现结果的时候,白度则可能连订单都已经签下了。
一旦白度这样的大型龙头企业能在技术创新上打出半年到大半年的时间差,后起之秀就很难分到大块的蛋糕了。
李彦弘心里计算着这里面的得失,觉得如果对方实在不肯考虑招聘一事的话,的确这种合作对自己来说百利而无一害。
“你的意思是,你总是会第一时间,又或者是提前和白度分享你的最新成果,或者一部分成果。”今年下半年的孟繁岐非常高产,DreamNet,生成式对抗网络,加上刚刚给李彦弘看的新型检测技术。
虽然觉得有些难以置信,但李彦弘已经不怎么怀疑孟繁岐的产出能力了,他唯一有疑问的是具体的合作方式。
“你不接受雇佣,自然就没有工资收入。技术入股,这点东西还不够看。产出没有定数,或者说得难听些,你也不会什么成果都来找我。那你希望以怎样的形式合作呢?”李彦弘询问道,“你计划成立空壳公司,白度按照你提供的技术和具体指标来定价收购?”
“你难道就不想早点收获财富吗?”李彦弘其实有些费解,他拿起手中的纸,掂了掂,“就这里的算法和模型,一手交钱,一手交货,多么方便快捷。”
“李总说笑了,这又不会是一锤子买卖。”重生者做技术突破,用点力气当然是必要的,但也不必用尽全力。且不说有部分技术受到限制不好直接做出,即便做得出,也总得多留点空间给自己不是。
一个人若是有了突破世界纪录的实力,那自然还是分个十次反复突破来得划算,哪有一步到位的道理。
要得就是,他又双叒叕突破世界纪录啦。