从提示词开发到图像内容解析，全球用户都在用他们的产品 | 专访 Jina AI 何烜彬

公众号新闻

2023-09-29 12:09

文 / James

在大模型 AI 时代，如何通过精确的提示词，让大型语言模型给出更理想的答案，已经成为了一个热门话题。特别是，随着各种免费的提示词优化课程和指南的涌现，这似乎是未来每个人都应该掌握的一个技能。

在这样一个环境下，为什么仍然有人选择购买收费的提示词优化工具呢？

Jina AI，一家由开源业务起家的跨国公司，在此提供了独特的答案。拥有北京、深圳和德国柏林的办公室，员工遍布全球，这家公司如何设计出受到全球用户欢迎的 AIGC 系列产品？

其联合创始人兼 COO 何烜彬，在娱乐资本论·视智未来的采访中为我们揭示了这背后的策略，以及一些意想不到的用户使用场景。

花钱优化给 AI 提的问题，值得吗？

三年前，Jina AI 成立时的初衷是为多模态 AI 驱动的神经搜索服务。但随着大模型的崛起，现在的用户对于 AI 的期待发生转变，公司的产品线经历了迅速的创新和演变，来满足日益变化的用户期待。

公司所有 C 端产品的用户加起来有 35 万，其中以 PromptPerfect 和 SceneXPlain 两款产品为主。何烜彬强调，他们的产品尽管用户群体看起来不大，但用户粘性很高。他们有一定体量的每月订阅用户，付费形式有一次性购买和按月订阅两种。

Jina AI 目前最受欢迎的产品 PromptPerfect，可以自动化帮助用户优化喂给大模型的提示词（prompt），使得对大语言模型提问时，可以获得更理想的输出。该产品的目标是帮助降低用户在使用大模型时的时间和金钱成本。

对于今年初风靡一时的 Prompt Engineering（提示词工程）这个职位，何烜彬有自己的看法。他提到，提示词优化实际上是很早开始崭露头角的，当时 GPT-3 推出了 Playground，这是一个模拟的交互界面，用户可以通过类似编程的方式给它一个提示。但它已经不再是编程语言，已经转向自然语言交互。这其实就是提示词工程的一个初始状态。

但值得注意的是，不是每个人都具备高效编写提示词的能力，甚至也不是每个人都能学会。为了解决这一挑战，Jina AI 投入到了提示词工程相关的生成式 AI 应用中，未来的大模型交互有可能不再需要用户专门去学习提示词的编写。

PromptPerfect 的优化原则和方向是，通过 AI 将简单的输入扩充成包含提示词背景、目的等具象信息。在用户输入后，会有一个 Agent（生成智能体）去判断输入的意图，并通过算法调用合适的大语言模型来生成相关信息。

比如我希望得到 5 个国庆期间游客较少的中国旅游地点，优化提示词之前，ChatGPT 返回的结果比较粗糙，没有多少有效信息。优化之后，通过把需求更加细化明确，设定了回答的格式和标准，大模型的回答也就更有用，更具洞察力了。

尽管大众可能觉得各种工具的提示词格式或语法各异，但对于大型语言模型，感觉上差异并不明显。但实际上，其实文字类模型之间也是存在区别的，这可能与垂直行业的信息或通用信息间的差异有关。在使用 PromptPerfect 时，用户可以首先选择目标大模型。在 Arena（竞技场）模式中，可以对比同一提示词在不同大模型下的表现，直观进行测评，从而选择最适合执行的模型。

比如我们将上面优化好的提示词，放在竞技场里，让不同大模型来推荐国庆期间的旅游地点。

人类在面对模糊需求时，往往通过不断追问来理解和满足需求，那 AI 是否具备这种主动追问的能力？

在一键优化提示词之上，PromptPerfect 也支持了逐步优化提示词的功能。当我想要绘制一幅“一个穿着旗袍的漂亮女人，身边有一只老虎”时，它会反问我，希望这幅画呈现的氛围，特定的色调，和是否需要反映特定的时期。并且将中文提示词自动优化成了适应于 Midjourney 的英文及格式。

通过和 AI 的协作编写提示词，可以获得一个更加符合预期的 Prompt。

他们也提供了一些小样本的优化功能，并为开发者提供了 API 和 SDK 方便批量处理。

众所周知，围绕提示词的研发和分享，最先出现的是大量免费或收费的提示词商店和社区。既然免费的资源也不少，那么谁会使用 PromptPerfect？何烜彬对娱乐资本论·视智未来表示，该产品的用户使用场景非常多，比如开发人员将 PromptPerfect API 嵌入到他们自己的 AI 服务中。

PromptPerfect 有一些个人用户，不过主要是高级和专业用户为主，这是一种介于普通 ToC 和 ToB 之间的形态，主要是为其职业场景去使用。为了不断完善产品，Jina 很重视用户的反馈，尤其是来自其官方 Discord 社群的热心反馈。尽管有人担忧大模型热度降温，但目前这款产品的增长潜力仍然巨大。

各具趣味的 C 端产品

Jina AI 还有一些产品是同样针对 C 端消费者和小微 B 端客户的，它们都各具趣味。

SceneXplain 是一个由多模态大模型驱动的视觉理解产品，首先是能够为图像和视频提供自动标注解决方案，根据用户特定需求提供图片内容的准确解析，比如为残障人士生成图片的内容描述，帮助网站做无障碍适配等。

另外，他们最新发布的算法还能根据图像创作一个故事，并以人物的对话进行配音，这方面已经和某些绘本出版企业达成了合作。

SceneXPlain 还具备多模态的视觉问答能力，能够抓取出图片中的信息，并结构化的输出。它还已经和一些消费型企业开启了合作，进行社交媒体内容分析。该工具可以做到批量地为社交网络的发帖标注图片内容，并提供进一步的见解分析，且准确度相当高。这可以用来进一步对内容做归档、检索和解析。对消费品来说，社交帖子可能反映出消费者当前的情绪，意向，或挖掘潜在的产品开发可能。

娱乐资本论·视智未来不久前刚做过一个数据标注的行业观察，就此，何烜彬肯定了 AI 识图在自动标注方面的可行性。

和市面上需要写好提示词才能出图的 AI 绘画工具不同， BestBanner 可以直接根据用户提供的一段文案、一段博客文章、一个短篇小说，生成相关的、可以使用的、不涉及版权问题的图像。这是由 Jina AI 自身的需求出发的产品，他们有高产的技术博客需要配图，但使用设计师有些大材小用，而选图可能贴合度不高。

Rationale 是 Jina 最早推出的一款实验性 AI 生成产品。尽管它目前并非 Jina AI 主要研发的关注点，但它满足了用户对决策分析的需求，并发挥了 GPT 在生成决策分析方面的能力。这使得 Rationale 曾在日本引起了一些舆论浪潮。与 ChatGPT 提供泛泛的回答相比，Rationale 有着更具体的问题和回答模板。

在进行利弊分析、SWOT 分析时，人们往往难以从原始资料中推导出最终结论。许多情况下，我们会先得出结论，然后再找寻原始资料来支持这个结论。或许 AI 可以使这个过程更加合乎逻辑，减少对经验和直觉的依赖。有一家日本游戏公司直接采购了这款服务，并应用到他们的游戏线路设计等过程。

最后，JinaChat 目前还是单独开发的一个对话界面，可以支持一些读图、语音等多模态操作。但在 Jina AI 未来的规划中，它将是用自然语言调用其它 Jina AI 产品和功能的一个大的入口。

用户可以综合使用他们的工具箱，比如在 PromptPerfect 中优化的提示词再带到 SceneXplain 解释图片内容，或者用 SceneXplain 对图片信息进行抽取，再在 JinaChat 里生成进一步的信息扩充等等... 并且 Jina AI 目前已经打通了各个产品之间的账户和积分等信息。

基于开源的 B 端生态

在过去的一两年里，Jina AI 一直在 GitHub 上贡献他们的开源多模态 AI 框架 Jina、DocArray 等，业已成为开源领域应用相当广泛的底层框架，这也是他们设立公司的初心。

他们的开发框架解决的是多模态 AI 搜索的问题，这可以看作是多模态 AI 应用在不同类型数据的匹配问题。这个框架不仅可以应用于搜索引擎，还可以作为解决各种问题的通道，例如人机对话。他们过去三年在开发者社区积累的口碑，以及大模型的 finetuning（微调）等经验，使他们能够顺利地转型到适配大模型时代的 AI 服务。

大模型本地部署和调优的参与者众多，但并不需要特别高的技术能力。然而，由于所有的公司都较小且不知名，没有成功案例，这使得技术含量和信誉成为问题。何烜彬也发现，企业项目的合作和业务上的交流，都存在从 AI 到应用场景中间的鸿沟。

他认为在真正做模型调优的过程中，有一个很大的知识储备是必要的，这是无法标准化的能力。他们需要提供这个知识储备，教会客户“怎样才是好的”，如何去做一个“裁判”。这是一个与用户共建的过程。尽管一开始可能是“项目制的”，但随着经验积累，以及有目的地选择行业客户，最终还是可以形成可复用的经验。

不论公司大小，当它们选择将商业开发项目开源时，它们在思考什么？

何烜彬说，越往底层走，产品越需要用开源形式，而越往上层走，比如像 PromptPerfect 这种应用层产品，实际上并不需要做太多开源的事情。对于偏底层的代码型的产品，用户的行为是无法感知的，这时开源就能帮助他们建立与用户之间交流的通道，快速的帮助他们迭代产品的发展。

但他同时认为，企业开源项目需要在公司的长期发展，和过于严苛的许可协议导致用户流失之间做平衡。Jina 使用的是“核心部分开源，但生态系统收费”的 OpenCore 模式，相当于他们提供了一座金矿，大家来挖矿，而他们则卖工具，也提供了挖矿的方式和路径。

或许是得益于开源框架的社区贡献，Jina 以一个 55 人小公司的体量，频繁入选福布斯、CB Insights 等机构和媒体评选的全球 AI 头部公司名录当中，也有多个奖项在身。何烜彬表示，他们在商业组织上努力争取市场认可，包括社区活动构建，影响开发者生态，与客户的互动，投资者关系，以及品牌建设等都有关系。

跨越中德两国的全球化团队

Jina 在全球范围内拥有 50 余名员工，其中欧洲有 30 余人，国内有 20 余人。他们一直以来都保持着精兵强将的策略，而不是大规模招聘。从最初的产品原型开始，他们就致力于打造全球服务。尽管员工分布在全球的三个办公室，但这并不意味着他们的工作有任何区块划分。

团队在柏林设立海外办公室，理由有三：

两位合伙人之前在德国工作，并熟悉柏林；
柏林是技术人才的聚集地，且具有高度的国际化氛围。受英国脱欧的影响，一些原本在伦敦的技术人才可能选择迁移到柏林；
柏林的文化与公司十分相近。公司起初是做开源的，柏林有很多开源软件的支持者，这使得公司更容易在柏林市场上吸引到人才。

跨越时差进行协同工作确实带来了一定的挑战，但 Jina AI 为团队提供了一种灵活弹性的办公机制，让员工可以选择最高效的工作方式。

在 AI 相关监管法规方面，不同国家之间存在差异。中国的数据安全保护法在某些方面可能更为严格，而欧洲的 GDPR 则是全球公认的标准。

针对合规等考虑，Jina AI 的所有服务主要面向海外市场，但同时也设计了一个国内版本，进行独立结算。目前的一个区别是，中国版本只提供积分购买，而没有按月订阅的选项。这是因为中国用户更习惯按需付费，对订阅制度的偏好似乎不太高。尽管面向全球市场的产品可能会面临中国市场使用习惯等方面的差异，但 Jina AI 的产品始终拥有稳定的国内用户群。

目前，Jina AI 将大量精力投入到提示词相关的产品上。然而，是否有可能 GPT 的某一代将会取代了他们的提示词优化业务？

对此，何烜彬认为 PromptPerfect 工具不会被大模型完全取代。该工具适配了更多的多模态大型模型，并提供 API 服务，能够在私有化部署的模型里使用。他强调，优秀的商业产品并不仅仅依赖于技术上的强大，一个好的产品并不仅仅取决于其技术能力的优越性。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章