访谈实录•对话AIGC创业家•Jina AI 肖涵博士 | 国海“AI+”战队
ChatGPT / AIGC,正在爆发的趋势
公司介绍:
Jina AI 是一家专注基于深度学习多模态搜索和生成式 AI 的开源初创公司。累计获得来自 GGV、云启资本、SAP 等中美投资机构的 3750 万美元融资。公司自 2020 年成立以来连续两年登榜 CB Insights 全球 Al 百强榜单,荣登 Forbes DACH AI 30 2020。Jina Al 推崇工程师文化,拥抱开源。公司总部位于德国柏林,在中国和美国均设有办公室。团队成员来自于微软、谷歌、腾讯、Adobe 等顶尖科技公司,覆盖超全球 10+ 国家。
Jina AI 创始人 & CEO 肖涵博士
大厂AI技术出身,AIGC亲历者、实践者
对话时间:2023年2月15日
对话主持:国海传媒教育组/国海全球科技组/国海全球产业组
国海“AI+”战队:生成式、感知式、决策式的AI的核心关系?未来AI的发展趋势?
肖涵博士:AI范式主要分为决策式AI和生成式AI,感知式AI目前不常用。2010年开始国内的互联网企业开始布局相关产业,推出了简单的模型:推荐系统、搜索优化、垃圾邮件的分类等;2018年出现了生成式对抗网络(Generative Adversal Network, GAN),即 Deepfake,随后遇到疫情行业进入低迷;ChatGPT的出现意味着语言生成模型、多模态的生成式模型将会越来越多,今年C端会出现很多新品、B端也会出现二次开发平台,在学术圈以及OpenAI的推动下,生成式AI势必进一步发展。
决策式AI更多是基于已有内容、利用AI规则进行内容分类、推荐、过滤、提取等,其范围非常广。从2010-2020年决策式AI在语音识别、人脸识别等领域广泛运用,
生成式AI恰好相反,可基于文字生产图片、音乐、视频等,自2020年后逐步兴起。早年(2014年)的生成式AI较为简单,生产16×16像素的黑白照片;2018年逐渐有所发展,2020年OpenAI推出第一代DALL·E;2021年推出第二代DALL·E,实现文本到图片的跨模态;2022年Stability AI推出Stable Diffusion,融资1亿美元;2022年11月30号ChatGPT发布,使得较多博士论文直接失去作用(过于简单)。
国海“AI+”战队:如何看待AIGC产业爆发?其核心驱动因素包括哪些?
肖涵博士:2022年4月本人在做 DALL·E 2。其真正地迎来爆发是其作为类似APP一般可进行下载,2022年10月时已经能够直接在iPhone中进行生产,无需依靠服务器。本人曾在Stable Diffusion的社区中潜水,认为该社区的价值很高,不同于其他ToD的高端开发者社区,该社区囊括了大量的用户(不同职业),包括艺术家、游戏开发者、导演等,用户可在其中分享生成的图片、视频等,此时使用OpenAI的DALL·E 2仍然会遇到伦理filter问题(包括商标、历史人物等),用户可能认为其限制了创作自由,因此用户使用少。
在LAION社区中,用户爬取了约50亿的文本、图片数据,最早的Stable Diffusion版本是基于该数据打造的,其销售迎来了大爆发。当时OpenAI不仅在DALL·E上运用了邀请制,并且限制了用户每月能够生成图片的数量;此时Stable Diffusion已实现用户能够在单卡上运行且图片的生成速度快、质量高。我司作为OpenAI的下游企业,使用OpenAI的产品主要考虑其能够持续、稳定地向用户输出。
国海“AI+”战队:单模态和多模态AI优劣势对比?多模态发展的核心驱动因素?
肖涵博士:以2020年为分界点,存在部分跨模态的运用(语音识别等),但更多为单模态的运用。所谓的单模态AI,即其输入和输出处于同一模态,如图片分类、人脸识别等;所谓多模态,即输入和输出为不同的模态。2020年之前AI的商业化约95%以上是依托单模态实现,原因为单模态的运用场景较多。ChatGPT同样属于单模态。
多模态发展的核心因素:第一,互联网上的数据类型、数据体量的不断丰富,目前数据模态已实现了从文本到视频的转变;搜索、索引、产生数据的需求日益增加。第二,技术的不断发展。从2014年的贝叶斯到2015年深度学习逐渐成为主导,2016年TensorFlow推出,是第一个大规模开发者使用的深度学习框架,不断普及,同时参数规模、计算能力、模型容量不断精进。
国海“AI+”战队:对于国内企业AIGC三个核心要素(数据、算力、算法)的壁垒?数据依赖问题是否能够解决?数据标注是否存在困难?
肖涵博士:一方面,数据发展是重要的条件,数据的质量与标注十分关键,标注的作用为确保数据准确性的关键步骤;另一方面,技术方面的规则和技巧需要一定的摸索和积累时间。LAION社区中会不断根据OpenAI推出的产品开源其架构,但其效果不一定好,后续优化后会有所提升。
国海“AI+”战队:如何看待互联网头部公司与高校中大模型的优劣势?
肖涵博士:国内的技术路线本身不会有较大的差异。大规模语言模型相当于一个数据库,问题在于如何有效地储存海量的数据,ChatGPT并未专门针对中国用户进行优化,其数据相对均衡。这对于汉语环境中的未来的商业化落地是一种利好,因为只需往模型中灌输中文,因此其质量可能更高。未来大厂推出产品时,其将会聚焦于仅中文,将大模型变为专项垂直领域的小模型。
大规模语言模型的特点是庞大。2023年“Reinforcement learning,增强学习”将成为遍地开花的技术,而“in-context learning (ICL)”上下文学习技术是机器学习中顶尖技术,当模型大到一定程度的时,模型自然而然地会具备一定的推理、新任务调教等技能;模型越大,该能力越强。另外,谷歌的BERT模型并未运用Prompt engineering。
国海“AI+”战队:国内的大模型与国外的技术差异?是否能够追赶上海外?
肖涵博士:2020年有了较大的变化。2020年之前中美的AI发展水平似乎相近;近两年来OpenAI推出的文本生成产品时,中国互联网大厂似乎处于缺席状态,生成式AI在过去两年的积累,中国暂未赶上。国外很多技术的发明能看到较多的应用,如OpenAI的DALL·E等,DALL·E甚至还存在一定的代数无法区分、空间把握不足问题。
开发者社区对于生成式AI的发展十分重要,头部企业的创造力是有限的。若能够在社区中集思广益、结合大厂的资源,更有利于实现技术突破。AI的发展本质是不断追赶的过程,需要抱有开放性的心态。
国海“AI+”战队:中美博弈的大环境下,中国企业研发大模型是否可能受到芯片断供的影响?
肖涵博士:Stable Diffusion存在一定的滥用资源问题。数据层面,个人认为数据质量、数量是限制大规模语言模型进一步发展重要因素。从人才、数据、算力来看,我国大厂追平甚至反超ChatGPT、实现产业化发展,未来三五年存在一定的机会。
个人认为算力对于大规模语言模型而言其重要性稍弱,以目前大厂的算力能够做ChatGPT的竞品,更值得担心的是:目前已消耗掉人类70%的数据,若未来没用新数据给到大规模语言模型时,该如何应对?
ChatGPT产品形态更优的原因:第一,产品为聊天形态;第二,引入了上下文学习技术与增强学习技术,提供了重要支撑。
国海“AI+”战队:当前国内AIGC相关企业的商业化模式相对模糊,如何看待其发展?
肖涵博士:2022年Stable Diffusion诞生后出现大量的AIGC企业。Jina AI基于 ChatGPT 研发的一个具有批判性思维的 AI 辅助决策工具 Rationale.jina.ai。仅一个月MAU已达10万,并且已有付费用户和稳定订阅。因此个人认为2023年To C将会有较快的发展。
AIGC领域的创业并非需要人数庞大的团队,对于汉语圈而言最大的障碍是否是能有一个稳定的高质量中文GPT,其将会激活一大批下游的产研。
国海“AI+”战队:如何看待未来下游应用的广泛性?会从哪些角度颠覆内容产出?
肖涵博士:大规模语言模型是金子,而ChatGPT像铲子。很多东西是能够直接切入,可直接将该技术运用进来,直接提高用户生产力。部分产品已经在准备商业化,个人认为第一个consumer product可以是类似Notion等。
用户注重的是ChatGPT能够带来效率的提升,并且关注于解决日常生活工作中的痛点。目前ChatGPT还需大量的前期沟通来生成最优解,若能够固定前期的prompt,有望将其逐渐演化为产品。国内C端的效率办公产品很大可能会最先引入,否则可能将被淘汰。
我们也基于此推出了一款用 AI 全面优化 Prompt 的新产品「最美提示词」,用魔法来打败魔法。当你输入提示词后,它就会输出优化后的「最美提示词」,并让你预览优化前后的模型输出。不仅支持 ChatGPT 提示词优化,还支持 GPT 3、Stable Diffusion、DALL·E 等多个 LLMs,能够给各种大语言模型找到最好的提示词。
产品体验链接:promptperfect.jina.ai
国海“AI+”战队:ChatGPT未来创造超额收益是否是可预见性的?大概需要的时间?
肖涵博士:是否能够把ChatGPT创造的东西进行变现。个人认为:第一,短期来看ChatGPT大规模语言模型创造力较为有限;第二,基于差值产生的内容有一定的价值,能够取代很多人工输出的内容。会根据人类历史而不断地做平均,随后返回平均的结果。
日常生活中的内容是能够被ChatGPT取代的,其涉及到内容变现,此时无需创作者,仅需进一步依托于ChatGPT进行降本即可,提升其边际收益。从2022年开始,应学会如何同时接受人类产生的信息和机器产生的信息。
推荐阅读•国海证券“AI+”研究团队研究报告
推荐回听•国海证券“AI+”研究团队论坛活动
▶国海“AI+”研究战队 | AIGC创始人高端论坛•(2023年2月23日)
嘉宾:阿里巴巴达摩院AIGC产品专家、构赛博CEO、熵简科技创始人、倒映有声联合创始人等
▶对话创业家•第2期•魏博,来画CEO(2023年2月5日)
▶对话创业家•第3期•肖涵,Jina AI CEO(2023年2月15日)
回听链接:https://s.comein.cn/ANM4G
▶对话创业家•第4期•何培成,倒映有声联合创始人(2023年2月17日)
回听链接:https://s.comein.cn/ANjFE
▶对话创业家•第5期•成维忠,中科深智创始人兼CEO(2023年3月21日)
回听链接:https://s.comein.cn/ANAdj
微信扫码关注该文公众号作者