就在今天下午,百度发布重磅消息,百度新一代大语言模型、生成式AI产品文心一言,正式邀请测试。在全球陷入ChatGPT狂欢之后,中国也有了对标ChatGPT的大语言模型。在新闻发布会现场,百度创始人、董事长兼首席执行官李彦宏、百度首席技术官王海峰,也一一展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成等方面有突出能力。从现场演示来看,文心一言的回答准确性、流畅性都接近人类水平,甚至在中国文化等使用场景下,相比ChatGPT成为更优解。要知道,百度有着世界最大的知识图谱,在百度搜索中,经历过数十亿次的训练和数据积累,百度在问答和内容生成上有着得天独厚的优势。ChatGPT这类生成式AI,在回答事实性问题时常常产生“幻视”,而文心一言的检索增强,使它可以给到用户更准确、更有可信度的回答。从新闻发布会上的介绍来看,文心一言大模型的训练数据包括:万亿级网页数据、数十亿搜索数据和图片数据、百亿级语音日均调用数据,以及5500亿事实的知识图谱。而数据规模大,大模型就可能发生“智能涌现”,涌现出知识和逻辑推理能力。所以,文心一言还具备了一定的思维能力,能做到把问题拆分为子问题,一步步推理,更容易给出正确答案。像鸡兔同笼这种问题不在话下,甚至还能看出题目出得对不对。同时,对国人来说,文心一言堪称“没人比我更懂中文”!
其实,在之前全民热议ChatGPT时就有不少人发现,在中文语境下ChatGPT有时仿佛“人工智障”。
但中文理解能力拉满的文心一言,就不会产生类似问题,毕竟,在中文语言的处理上,百度处于独一无二的位置。作为扎根于中国市场的大语言模型,文心一言具备中文领域最先进的自然语言处理能力说是最适合中国人使用的大语言模型,也不为过。同样是用“洛阳纸贵”进行藏头诗的创作,直接高下立现。此外,图片、音频、视频等的相关功能会逐一上线,在基础功能、使用体验、多生态搭建上,全面替代ChatGPT。如果说,ChatGPT打开了全球AI科技竞争的赛道。那么,中国企业又一次站了出来,让我们有了站在这条赛道上的资本。无论是硬件还是软件,在中国这条自强之路上,有无数企业前赴后继的身影。
不为别的,只为在关键技术上,中国不被他人“卡脖子”。
所以,别人有的,中国必须要有。
就比如硬件上,中国跨越了半个世纪才得以实现的“大飞机梦”。
早在1980年,中国也曾拥有自己的飞机,那就是我们自行研制的第一架民用客机运-10。
虽然运-10采用了美国发动机和部分零件,但其国产化程度高达96%。
正在上海机场组装的运-10飞机
由于当时是和美国的麦道公司合资生产,美方的条件是停止运-10的研发,拆毁运-10第三架原型机及其生产线。考虑到当时的局势和国力等原因,中国履行了美方要求。但很快,波音就收购了麦道,合作戛然而止,所承诺的技术和资金支持全打了水漂。于是,中国不得不放弃大型客机的自主研发,走上“造不如买”的道路。运-10飞机被移出总厂房
目前,我国的干线大飞机需求量达到每年上千架,如此大的产业全部被波音和空客瓜分了。
如果当初没有放弃运-10,现在中国领空飞的将是国产飞机,而非波音空客了。
不过,就在去年12月26日,国产飞机梦,再次迎来希望。
因为,我国自主研制的新一代大飞机 C919,顺利完成验证飞行,正为今年春天投入商业运营做最后准备。
要知道,多少年来,掌握大飞机先进制造技术的都是美国、法国等欧美国家。
这次的C919的成功意味着,我们不会再和50年前一样被踢下牌桌,而是有了上桌博弈的可能。
软件上更是同理。
要知道,一个国家的社会经济活动,是高度依赖数字基础设施的。而基础软件,是推动信息技术发展的根本驱动力。
所以,软件上的关键技术,我们也必须要有!
回望过去,经过很多企业的努力和多年布局,以往必需的国外技术,都有了我们自己的“平替”。
ARM断供,我们有ARM
v8的永久使用权并掌握ARM架构的设计和修改。不得不感叹有些中国企业家的未雨绸缪,数十年前就已经看清一个现实:核心技术只有掌握在自己手中,才能真正实现技术自由。所以,2012年,华为就已经在规划自有操作系统“鸿蒙”;2013年,王坚也开始主持研发阿里云的飞天操作系统;早在2011年,百度就着手研究基于知识的语言解析了,2019年推出了知识增强的大模型ERNIE 1.0,也就是文心一言的雏形。他们的这些布局和规划,都是希望能打造出中国自己的软件生态。也正是因为这些企业家的人间清醒,让中国有了在相关产业中和他国Battle的底气。而现在,我们已经进入人工智能时代,全球AI竞技已经一触即发。甚至,在很多人眼里,ChatGPT的出现不亚于一次工业革命。不管是对企业还是国家来说,决定未来10年、20年命运和国际地位的关键,可能都将和AI技术息息相关。现在,全球各大互联网大厂都开始连夜布局AI战略,企图尽快分走AI赛道的大蛋糕。微软连夜的上线了预置ChatGPT功能的新版bing搜索引擎,Google也紧赶慢赶的推出自己的竞品Bard等。一时间,这盘蛋糕上,突出一个百花齐放,但似乎,唯独少了中国公司的入局。不过现在,百度的文心一言,宣告了中国科技的突围成功。从这次百度的新闻发布会来看,文心一言显然填补了国内大语言模型的空白。它的出现也和“飞机梦”、“芯片梦”一样,都是积累和坚持换来的厚积薄发。3月15日GPT-4发布,对比ChatGPT-3的成长,很多人感叹于它的迭代能力。
事实上这次的AI学习和迭代技术,ChatGPT 有的,百度都有。文心一言和ChatGPT一样,都使用了SFT、RLHF、Prompt等业内方法。可以说,底层逻辑是一样的。后续通过人的参与,用互动数据理解人的意图,生成符合人的价值观、表达习惯的回复。而作为在AI领域深耕数十年的中国企业,百度拥有产业级知识增强文心大模型 ERNIE,具备跨模态、跨语言的深度语义理解与生成能力。如果说,2022年11月的ChatGPT和现在的ChatGPT相比进步明显。那么,作为运用同款技术的文心一言,坐拥更大的数据模型下,未来更值得期待。AI技术得以发展,必然需要资金支持,在这点上,百度堪称大手笔。近10年累计研发投入超过1000亿元。2022年仅第三季度,百度研发就投入了58亿元之多。其中核心研发投入占核心收入的比例,更是连续8个季度超过20%。要知道,AI的研发和运算是相当烧钱的,一般公司无法承受。跑通一次100亿以上参数量的模型,算力至少需要1000张GPU卡,按照1张GPU5万元的市场均价计算,1000张意味着单月至少要烧掉5000万的成本。这得需要多大的决心,才会愿意在无法快速看到收益的领域,投入如此多资金。其实,百度在AI上的投入和布局,和李彦宏的坚持是分不开的。2013年,百度建立了深度学习实验室,是国内率先布局人工智能领域的企业。2014年,智能机器人小度上线,可以通过语言处理、对话系统等技术,实现简单的人机交流,已经有了如今ChatGPT的影子。2015年,人工智能核心体系“百度大脑”上线,成为之后构建出完整的AI生态的基石。到了2023年的今天,百度的AI技术已经运用在生活的方方面面。AI助农、AI医疗、AI自动驾驶等,都已经融入强大的技术力,在这些领域惠及中国老百姓。十年间,在百度全栈布局下,从芯片层、框架层、模型层再到应用层,人工智能开发和应用的全链条得以贯通。不仅是技术层面,AI的人才培养,也在李彦宏的规划之内。百度曾面向全球顶级高校人工智能专业的中国学生,发布了奖学金激励计划“百度奖学金”。自设立以来,百度奖学金累计投入近2000万元培养中国AI顶尖人才。按他自己的话说,就是目前已培养了超过300万人才,未来,百度会投入更多资源,为中国AI的发展尽我们最大的努力。一方面有经营压力要活下去,另一方面还得拿出大笔资金,投入到存在不确定性的创新研发中,一不小心就容易打水漂。但即便如此,李彦宏也义无反顾选择All in AI。也许正因有如此魄力,我们才能在AI这个全球科技竞赛的兵家必争之地中,占有一席之地。其实,有些评价一针见血:“2017年,美国公司在做阿尔法狗,中国公司在送外卖;2023年,美国公司在做ChatGPT,中国公司还在送外卖。”为什么中国的互联网公司专注送外卖?而不去做更高精尖的项目呢?是技术不过关吗?但是,智能聊天机器人的技术模型,ChatGPT都是公开的。是资金不够吗?中国互联网大厂每年的收益能有多少亿,大家也都有目共睹。那么原因是什么呢?无非是懒得创新,外加热衷高频次的流量,和短平快的营收。但有时候,对于有技术、有资金的中国企业来说,还是需要有点情怀和责任在身上的。当有更多人愿意在高精尖领域所有创新和投入时,国家和企业才能真正站稳脚跟。否则,一旦形成“别人都有,而我没有”的局面,就会陷入被“卡脖子”的困境中。其实,年初关于AI的质疑和探讨,也引出一个老生常谈的问题:科技应该给人类带来什么?
一是科技向善。对社会而言,技术可以解决人类社会方方面面的问题,惠及更多人群。二是科技强国。对国家而言,技术就是引领国家前进的关键,在海啸来临时,拥有应对的方法和竞争的底气。文心一言的推出,或许就是百度在面对全球科技竞赛时表现出来的魄力和决心。让更多中国老百姓能体验人工智能的便利的同时,也让中国在这一领域开启国产替代的新征程。