访谈实录•对话AIGC创业家•Jina AI 肖涵博士 | 国海“AI+”战队

2023-03-15 14:03

访谈实录•对话AIGC创业家•Jina AI 肖涵博士 | 国海“AI+”战队

ChatGPT / AIGC，正在爆发的趋势

公司介绍：

Jina AI 是一家专注基于深度学习多模态搜索和生成式 AI 的开源初创公司。累计获得来自 GGV、云启资本、SAP 等中美投资机构的 3750 万美元融资。公司自 2020 年成立以来连续两年登榜 CB Insights 全球 Al 百强榜单，荣登 Forbes DACH AI 30 2020。Jina Al 推崇工程师文化，拥抱开源。公司总部位于德国柏林，在中国和美国均设有办公室。团队成员来自于微软、谷歌、腾讯、Adobe 等顶尖科技公司，覆盖超全球 10+ 国家。

Jina AI 创始人 & CEO 肖涵博士

大厂AI技术出身，AIGC亲历者、实践者

对话时间：2023年2月15日

对话主持：国海传媒教育组/国海全球科技组/国海全球产业组

国海“AI+”战队：生成式、感知式、决策式的AI的核心关系？未来AI的发展趋势？

肖涵博士：AI范式主要分为决策式AI和生成式AI，感知式AI目前不常用。2010年开始国内的互联网企业开始布局相关产业，推出了简单的模型：推荐系统、搜索优化、垃圾邮件的分类等；2018年出现了生成式对抗网络(Generative Adversal Network, GAN)，即 Deepfake，随后遇到疫情行业进入低迷；ChatGPT的出现意味着语言生成模型、多模态的生成式模型将会越来越多，今年C端会出现很多新品、B端也会出现二次开发平台，在学术圈以及OpenAI的推动下，生成式AI势必进一步发展。

决策式AI更多是基于已有内容、利用AI规则进行内容分类、推荐、过滤、提取等，其范围非常广。从2010-2020年决策式AI在语音识别、人脸识别等领域广泛运用，

生成式AI恰好相反，可基于文字生产图片、音乐、视频等，自2020年后逐步兴起。早年(2014年)的生成式AI较为简单，生产16×16像素的黑白照片；2018年逐渐有所发展，2020年OpenAI推出第一代DALL·E；2021年推出第二代DALL·E，实现文本到图片的跨模态；2022年Stability AI推出Stable Diffusion，融资1亿美元；2022年11月30号ChatGPT发布，使得较多博士论文直接失去作用(过于简单)。

国海“AI+”战队：如何看待AIGC产业爆发？其核心驱动因素包括哪些？

肖涵博士：2022年4月本人在做 DALL·E 2。其真正地迎来爆发是其作为类似APP一般可进行下载，2022年10月时已经能够直接在iPhone中进行生产，无需依靠服务器。本人曾在Stable Diffusion的社区中潜水，认为该社区的价值很高，不同于其他ToD的高端开发者社区，该社区囊括了大量的用户(不同职业)，包括艺术家、游戏开发者、导演等，用户可在其中分享生成的图片、视频等，此时使用OpenAI的DALL·E 2仍然会遇到伦理filter问题(包括商标、历史人物等)，用户可能认为其限制了创作自由，因此用户使用少。

在LAION社区中，用户爬取了约50亿的文本、图片数据，最早的Stable Diffusion版本是基于该数据打造的，其销售迎来了大爆发。当时OpenAI不仅在DALL·E上运用了邀请制，并且限制了用户每月能够生成图片的数量；此时Stable Diffusion已实现用户能够在单卡上运行且图片的生成速度快、质量高。我司作为OpenAI的下游企业，使用OpenAI的产品主要考虑其能够持续、稳定地向用户输出。

国海“AI+”战队：单模态和多模态AI优劣势对比？多模态发展的核心驱动因素？

肖涵博士：以2020年为分界点，存在部分跨模态的运用（语音识别等），但更多为单模态的运用。所谓的单模态AI，即其输入和输出处于同一模态，如图片分类、人脸识别等；所谓多模态，即输入和输出为不同的模态。2020年之前AI的商业化约95%以上是依托单模态实现，原因为单模态的运用场景较多。ChatGPT同样属于单模态。

多模态发展的核心因素：第一，互联网上的数据类型、数据体量的不断丰富，目前数据模态已实现了从文本到视频的转变；搜索、索引、产生数据的需求日益增加。第二，技术的不断发展。从2014年的贝叶斯到2015年深度学习逐渐成为主导，2016年TensorFlow推出，是第一个大规模开发者使用的深度学习框架，不断普及，同时参数规模、计算能力、模型容量不断精进。

国海“AI+”战队：对于国内企业AIGC三个核心要素（数据、算力、算法）的壁垒？数据依赖问题是否能够解决？数据标注是否存在困难？

肖涵博士：一方面，数据发展是重要的条件，数据的质量与标注十分关键，标注的作用为确保数据准确性的关键步骤；另一方面，技术方面的规则和技巧需要一定的摸索和积累时间。LAION社区中会不断根据OpenAI推出的产品开源其架构，但其效果不一定好，后续优化后会有所提升。

国海“AI+”战队：如何看待互联网头部公司与高校中大模型的优劣势？

肖涵博士：国内的技术路线本身不会有较大的差异。大规模语言模型相当于一个数据库，问题在于如何有效地储存海量的数据，ChatGPT并未专门针对中国用户进行优化，其数据相对均衡。这对于汉语环境中的未来的商业化落地是一种利好，因为只需往模型中灌输中文，因此其质量可能更高。未来大厂推出产品时，其将会聚焦于仅中文，将大模型变为专项垂直领域的小模型。

大规模语言模型的特点是庞大。2023年“Reinforcement learning，增强学习”将成为遍地开花的技术，而“in-context learning (ICL)”上下文学习技术是机器学习中顶尖技术，当模型大到一定程度的时，模型自然而然地会具备一定的推理、新任务调教等技能；模型越大，该能力越强。另外，谷歌的BERT模型并未运用Prompt engineering。

国海“AI+”战队：国内的大模型与国外的技术差异？是否能够追赶上海外？

肖涵博士：2020年有了较大的变化。2020年之前中美的AI发展水平似乎相近；近两年来OpenAI推出的文本生成产品时，中国互联网大厂似乎处于缺席状态，生成式AI在过去两年的积累，中国暂未赶上。国外很多技术的发明能看到较多的应用，如OpenAI的DALL·E等，DALL·E甚至还存在一定的代数无法区分、空间把握不足问题。

开发者社区对于生成式AI的发展十分重要，头部企业的创造力是有限的。若能够在社区中集思广益、结合大厂的资源，更有利于实现技术突破。AI的发展本质是不断追赶的过程，需要抱有开放性的心态。

国海“AI+”战队：中美博弈的大环境下，中国企业研发大模型是否可能受到芯片断供的影响？

肖涵博士：Stable Diffusion存在一定的滥用资源问题。数据层面，个人认为数据质量、数量是限制大规模语言模型进一步发展重要因素。从人才、数据、算力来看，我国大厂追平甚至反超ChatGPT、实现产业化发展，未来三五年存在一定的机会。

个人认为算力对于大规模语言模型而言其重要性稍弱，以目前大厂的算力能够做ChatGPT的竞品，更值得担心的是：目前已消耗掉人类70%的数据，若未来没用新数据给到大规模语言模型时，该如何应对？

ChatGPT产品形态更优的原因：第一，产品为聊天形态；第二，引入了上下文学习技术与增强学习技术，提供了重要支撑。

国海“AI+”战队：当前国内AIGC相关企业的商业化模式相对模糊，如何看待其发展？

肖涵博士：2022年Stable Diffusion诞生后出现大量的AIGC企业。Jina AI基于 ChatGPT 研发的一个具有批判性思维的 AI 辅助决策工具 Rationale.jina.ai。仅一个月MAU已达10万，并且已有付费用户和稳定订阅。因此个人认为2023年To C将会有较快的发展。

AIGC领域的创业并非需要人数庞大的团队，对于汉语圈而言最大的障碍是否是能有一个稳定的高质量中文GPT，其将会激活一大批下游的产研。

国海“AI+”战队：如何看待未来下游应用的广泛性？会从哪些角度颠覆内容产出？

肖涵博士：大规模语言模型是金子，而ChatGPT像铲子。很多东西是能够直接切入，可直接将该技术运用进来，直接提高用户生产力。部分产品已经在准备商业化，个人认为第一个consumer product可以是类似Notion等。

用户注重的是ChatGPT能够带来效率的提升，并且关注于解决日常生活工作中的痛点。目前ChatGPT还需大量的前期沟通来生成最优解，若能够固定前期的prompt，有望将其逐渐演化为产品。国内C端的效率办公产品很大可能会最先引入，否则可能将被淘汰。

我们也基于此推出了一款用 AI 全面优化 Prompt 的新产品「最美提示词」，用魔法来打败魔法。当你输入提示词后，它就会输出优化后的「最美提示词」，并让你预览优化前后的模型输出。不仅支持 ChatGPT 提示词优化，还支持 GPT 3、Stable Diffusion、DALL·E 等多个 LLMs，能够给各种大语言模型找到最好的提示词。

产品体验链接：promptperfect.jina.ai

国海“AI+”战队：ChatGPT未来创造超额收益是否是可预见性的？大概需要的时间？

肖涵博士：是否能够把ChatGPT创造的东西进行变现。个人认为：第一，短期来看ChatGPT大规模语言模型创造力较为有限；第二，基于差值产生的内容有一定的价值，能够取代很多人工输出的内容。会根据人类历史而不断地做平均，随后返回平均的结果。

日常生活中的内容是能够被ChatGPT取代的，其涉及到内容变现，此时无需创作者，仅需进一步依托于ChatGPT进行降本即可，提升其边际收益。从2022年开始，应学会如何同时接受人类产生的信息和机器产生的信息。

免责声明：以上内容仅代表专家个人观点，不代表国海证券研究所的观点，不对任何人构成投资建议。投资者据此做出的任何投资决策与本公司及员工无关，市场有风险，投资需谨慎！

推荐阅读•国海证券“AI+”研究团队研究报告

▶AIGC：内容生产力的革命—Web3.0系列专题研究之一 | 国海产业•深度报告（2022年12月22日）

▶国海证券杨仁文：人工智能又一新兴赛道，AIGC或成为数字经济与Web3.0的新能量 | 国海产业•媒体文章（2023年1月23日）

▶AIGC深度报告：新一轮内容生产力革命的起点 | 国海传媒·深度报告（2023年3月2日）

推荐回听•国海证券“AI+”研究团队论坛活动

▶国海“AI+”研究战队 | AIGC创始人高端论坛•（2023年2月23日）

嘉宾：阿里巴巴达摩院AIGC产品专家、构赛博CEO、熵简科技创始人、倒映有声联合创始人等