2023年11月29日-12月1日,“国潮起·万物生”良渚2023科技国潮产业大会在良渚洲际酒店成功举行。大会由中国品牌建设促进会指导,杭州市余杭区人民政府主办,杭州良渚新城管理委员会、中国国家品牌网、观潮新消费承办,盛邀专家学者、企业家、投资人、产业服务商等百位嘉宾共创科技国潮。在“国潮起·万物生”良渚2023科技国潮产业大会《消费+AI,技术赋能全产业》专场论坛上,达观数据首席战略官刘江贤在主题演讲《AI商业化样本:垂直行业大模型迎来发展黄金期》中表示:“在未来的行业生态中,如果以大模型的研制方作为核心产业,上游就是算力数据等生产资料供应商,下游是各行业落地方案开发方,只有上中下游合作起来,才能够推动AGI、推动大模型的发展,一花独放不是春。”以下为演讲实录,经观潮新消费(ID:TideSight)编辑整理,有删减:谢谢大家!我来自一家AI算法企业——达观数据,现在AI正在不停地向人类学习,而且在不同的角度展开对话和互动,最近一段时间提得比较多的是AI Agent,即人工智能智能体的发展和发生。那么AGI时代到了吗?AGI时代到来之前我们要做哪些准备呢?来到这里之前,我对良渚了解甚少。当我了解到良渚文明的重要性,它使我们对人类文明的认知提前了2000多年。西方社会传统上认为人类文明始于3000多年前,但良渚文明为我们提供了更为久远的历史记录。并且,国潮这个词汇也令我印象深刻。它表达了国货的兴起和澎湃涌动的趋势,用词极其贴切而生动。我对这个词汇的构词方式感到非常欣赏。从文字到知识到智能
达观数据是一家以智能文本处理算法为核心的人工智能企业,自2015年成立以来,始终坚持自主可控的国产路线,并在智能文本处理行业中取得了显著的成就。
公司市占率和专利数量在行业中名列前茅,部分指标甚至已跃居行业首位。达观数据并未因此而停下脚步,而是始终秉持着不断学习、不断进步的态度。正如公司所言,与AI共同推动人类发展进步是他们的目标。在这个时代,不学习就意味着寸步难行。
谈到人类文明,我们通常认为它已经存在了五千年。这一时间跨度的起点是文字的发明。自文字出现以来,人类有了记录自己历史和传承知识的能力,从而推动了人类文明的进步。中国的甲骨文经过漫长的演变,成为我们今天所熟知的形式,这也标志着人类文明史的起点。右上这条线如果要一直画下去,横轴要标一个ChatGPT出现的时代,即将迎来AGI时代的到来,这个时代我们将和全球一起迎来另外一条陡峭直线的上升。《本草纲目》和《天工开物》是最古老的工业文明的几本书籍,且都是明朝时期的,为什么那个时期还能够留存下来近代科技的要学著作?因为宋代毕昇发明了活字印刷,有了很多传统的文化,直接促进了明清时代小说的繁荣,留存下了人类科学记载的文明的书籍。人类认知的冰山就是这样,一方面我们要有知识,另外一方面要有认知,现在正是机器向人类学习认知的时代。我们看冰上看到的一点是在水平面之上,而水平面之下蕴藏大量的知识,比如基本常识、人类常识、情感常识、专业常识、推理归纳能力等等。我们从一个字来理解,比如“狗”,动物、犬科、宠物、四条腿等一系列特征组成了狗的基本概念,有了狗的基本概念,有了一些情感的知识,有明显的概括和定义,还有一些专业的知识出现了,然后歇后语出现了,狗本身具体的构造和产生的功能也出现了。就看这一个字,如果让人工智能来理解这个字,它背后的含义都要让AI读懂,它才能够理解这一个字背后所潜藏的含义。所以从文字到知识到智能,将经历一个漫长的过程,但是还好,现在GPT出现了。进化的GPT大模型GPT是大模型当中的一种,另外一个和它并行的叫BertGPT,也是谷歌发明了Transformer技术之后才有了GPT的技术。准确地来说,GPT是三个英文单词构成的,T是Transformer,G是预训练生成式Transformer,有了预训练生成式的Transformer以后就有了对话式的GPT叫ChatGPT。ChatGPT就是人机互动,但是GPT不只是停留在人机和互动,因为让它产生智能,GPT还可以做更多的训练,比如让人工智能写一些长文本,写一些专业的报告,达观数据也一直在研究和学习。GPT参加了各类考试,其中有意思的是参加了2022年北京市的高考,高考的成绩出来了。考得不错的是什么呢?历史、生物、英语;但是GPT也有考试成绩特别差的,是物理和化学,因为物理和化学背后有很多公式,这个公式背后所蕴藏的含义和原理,GPT还要继续学习。参加这次考试的GPT的成绩,基本上可以达到考一个天津中医药大学的水平,这是GPT-3参加的考试。如果今年让GPT-4参加一下2023年北京市或者浙江省的高考,成绩还会突飞猛进。在人机对话当中,最重要的是要学会提示词,因为不同的提示词,机器产生的智能不一样。比如从事翻译的提示词,写数据报告的提示词,写广告方案的提示词,写历史研究报告的提示词,都是不同的。OpenAI曾经全球招聘了一个提示词的工程师,年薪达到35万美金,要用机器所熟悉的语言来跟机器进行对话。尽管人工智能通用化(AGI)时代尚未完全到来,但我们离这个时代越来越近。AGI将开启一个全新的智能体时代,届时人工智能将拥有自己的思维和提问方式。达观数据的科学家们正致力于使用自然语言的方式,模拟我们日常的说话逻辑来与GPT进行对话和交互,从而与大模型进行更为高效的交流。不过,我们的研发工程师们认为,要实现这一目标还需要经过漫长的探索和发展。GPT的应用可以从文本到多模态拓展,我们曾在课本中看到的杜甫的二维画像,现在可以由GPT进行绘画创作。我们不仅需要机器学习常识,还需要通过提出问题和验证其可能性与不可能性的方式,来矫正其生成的内容。跨时代机遇从落地应用开始目前,AGI已被广泛应用于许多设计领域,例如潮牌设计。淘宝的人体模特也大量使用AIGC进行生成,大大减少了人工工作量。我们已经通过HeyGen的方式让机器自动学习并表达语音。AIGC为我们提供了各种可能性,甚至能够准确地复制音准、音色和音调,只是将原本的声音转化为英语翻译。在未来的行业生态当中,如果以大模型的研制方作为核心产业,我们的上游就是算力数据等生产资料的供应商,下游就是各行业落地方案的开发方,只有上中下游合作起来,才能够推动AGI、推动大模型的发展。独乐乐不如与众乐乐,一花独放绝对构不成春天。曹植大模型专注于长文本、多语言以及垂直化的应用,目前主要应用于智能写作领域的长文本处理。为了配合曹植大语言模型的应用,我们推出了达观智能知识管理系统。许多人都曾疑问,企业的知识库究竟在哪里?很少有人能准确地说出它的具体位置。当我们询问企业或机构是否有知识库时,通常会得到肯定的回答,但具体的知识库在哪里,却鲜有人能准确描述。实际上,这些知识库往往分散在各种文件和日常结构中。为了将这些知识库统一起来,并使其成为可落地的数据资产,我们推出了智能知识管理系统。系统利用知识图谱、搜索和比对等技术,将企业的所有知识连接起来,从而形成可落地的企业数据资产。从明年开始,数据资产将可以正式纳入企业的并表资产负债表中,成为企业资产的重要组成部分。如果连数据资产在哪里都不知道,又如何对其进行定价呢?我们用知识图谱的方式,让知识的逻辑变得更清晰;用专属知识库的方式开发专用的智能写作功能;我们用自动阅读和自动写作来把企业的知识库里面的文件挖掘出来,让它自动地能够生成报告和文件,形成办公场景。让我们共同探讨智能化比对与人工比对的巨大差异。通过对比,我们可以发现机器处理更为高效、持久、精准且成本更低。如今,我们需要积极拥抱AI agent的时代,它涵盖了RPA技术、OCR技术以及我们自主研发的文本处理技术。进行对比后,结果一目了然。达观数据是一家专注于智能文本处理的公司。它具备机器阅读文本的能力,可以理解文本的结构,并能高精度地识别文字。通过形成语义模型,达观数据能够一键区分文档的种类。我们经常提到大模型和小模型,但模型的“大”并不意味着参数大就能解决更多问题。相反,我们应该从小模型开始,逐步发展。达观数据的OCR系统可以扫描文字,自动识别并转换对比,进而进行知识问答,提供答案的推理过程。目前系统已广泛应用于财税系统,特别是大型国有企业。此外,它还支持知识段落的写作,未来将用于许多商业企业和品牌企业的实际应用中,例如品牌报告的生成等。达观数据就是智能文本处理专家。现在,我们回过头来探讨人工智能向前发展所必须具备的三种关键元素。对于大模型而言,它们同样需要具备强大的计算能力。这包括GPU、芯片和能源,我们经常提到英伟达对我们的制约,实际上,现在国产的GPU芯片已经取得了进展,达观数据已经与几家国产GPU芯片在推理端完成了联调联试,例如与华为的昇腾等。其次,实现人工智能还需要庞大的高质量数据,以及适应人工智能演进速度的算法。这正是我们目前正在研发的大模型背后所蕴含的科学家和工程师们在工程工艺领域的结晶。最重要的是,这三点聚焦在人才方面。昨天,我来到杭州,来到良渚,参加国潮大会的现场,感受到人才的涌动和青春的气息。这是一种两面的体验,动如脱兔般充满活力,同时又能静如处子般专注。他们能够全身心投入学习,也能享受生活。这些特质正符合我们现在对人才的需求。我们都比较熟悉现在的办公形态是什么样的,那未来的办公形态是什么样的呢?也许人都没有了,也许只需要一个检验检测巡检的工程师,看看电脑是不是宕机,看看电路是不是合适。前一周碰到中海地产的一个工程师,他们在设计的时候讲到,可能巡检工程师都不用了,因为有巡检机器人就够了。人类培养了自身的分析能力,也要把自身的分析能力给到AI,未来就如一千年前宋代的毕昇发明活字印刷一样,当人类进入到AGI时代的时候,当我们有了ChatGPT的时候,我们觉得跨时代的机遇来了。非常感谢国潮品牌给我们这样的机会,在未来推动国潮品牌,推动各位的自动化办公工作进程当中,达观愿意助上一臂之力。