嘉宾畅谈：未来的5~10年，其他技术领域的重要性要往AI之后排

公众号新闻

2023-05-20 11:05

大家期待已久的 GOTC 2023 召开在即

组委会广邀各个论坛嘉宾讲师

畅谈开源与各技术领域的发展趋势

让小伙伴们先睹为快

本期聚焦技术领域： AI

出场嘉宾介绍：

一：过去一年 / 几年，你所关注的开源与技术领域发生了哪些重大变化？

王家军：

人工智能训练数据领域，近几年来，计算机视觉、NLP 等领域的模型训练似乎已经达到了一定成熟度，然而多模态、跨模态等新名词的出现，为这些领域带来了新的挑战。但是随着 ChatGPT 惊艳亮相，大型模型成为了热门话题，仿佛解开了 AI 模型的禁锢，完全觉醒了。

这样的发展背后有着不可忽视的开源力量推动大规模创新。而近期，谷歌内部一名员工泄露的文件中称：由于开源技术的迅猛扩张，谷歌已经失去了技术壁垒，同时，“OpenAI 也面临同样的问题”。在开源发展的大潮中，商业企业开始反思如何在这个新的格局下找到自己的竞争优势。

在这个新范式下，技术领域涌现出越来越多的开源大模型，例如 LLaMA、Alpaca、Vicuna、Koala 等大语言模型，以及 Meta 最近发布的 SAM 图像分割大模型。过去，识别类模型通常针对特定目标进行训练，识别能力有限。然而，在当前的大模型时代，模型已经具备了 “分割一切” 的能力，呈现出类似 AGI 的特征。得益于开源的力量，任何人都可以使用、训练、甚至发展这些模型。

尽管大模型具有强大的能力，但并非万能。我们看到，以 GPT4 为代表的大模型在各种人类专业资格考试中取得高分，人们开始借助大模型进行文艺创作，甚至制定经济决策。然而在更专业的领域，仍然需要传统的训练方法来构建专业化的模型。比如医学领域和自动驾驶等细分市场，对数据质量的要求较高，不允许 AI 给出 “看似合理” 的解决方案。

因此，面对开源社区的迅速发展，商业企业的竞争壁垒仍然存在于数据、算法和算力。高质量的数据是企业最有价值的资产之一，而优秀的算法以及足够的算力则决定了进行大规模训练的可能性。在这个不断变化的领域，商业企业需要紧密关注开源社区的动态，与之合作共赢，同时不断创新，以保持自身的竞争优势。

王闻宇：

过去几年，LLM 大语言模型领域，越来越多的公司和组织开始开源他们的 LLM 模型，以便更多的人可以使用和改进这些模型。例如，OpenAI 的 GPT-3 模型，Google 的 Switch Transformer，Facebook 的 BERT/RoBERTa，除了大公司外，高校学术届也在发展开源大语言模型，如斯坦福大学的 Alpaca，中国也有清华系的 ChatGLM, 复旦系也有 MOSS。

与此同时，在 AIGC 图片生成领域，越来越多的公司和组织开始开源他们的 AIGC 模型，如 Stability AI 的 Stable Diffusion, OpenAI 的 DALL-E 模型，以及 DeepMind 的 GQN 等。

就在前几天，Stability AI 发布 Stable Animation SDK，允许用户使用稳定的扩散模型创建动画。

王志涛：

区块链 + AIGC 领域，区块链技术与 AI 技术正在进一步融合，从而带来了一些新的变化，包括对传统知识产权规则的挑战、数字资产的崛起、商业智能型互联网平台的快速发展，等等。以 ChatGPT 为代表的 AIGC 模式的重大突破，将与区块链技术产生更多更深刻的化学反应，很多行业将被结构性重组。AIGC 的革命性发展，将带来前所未有的创新知识产权的快速增长，另一方面，对这些知识产权的保护和确权也带来了大量的挑战。一定程度上，区块链技术则将扮演 “解决方案” 的角色。作为知识产权聚合运营的一种创新模式，专利池也将成为 “解决方案” 的一个重要组成部分。专利池的构建与运营以及其带来的许可交易将影响多个层面的市场竞合关系。IPwe 创造性地颠覆了传统专利池的商业模式，其 “智能专利池” 旨在推动新兴技术的大规模采用，并在短短 1 年时间内将 “区块链专利池” 和 “元宇宙专利池” 的会员数量发展到了 1200 多家，覆盖全球 50 多个国家和地区，证明了其新一代专利池的市场需求和生命力。更多围绕数字化创新技术的专利池将陆续诞生，并将快速发展为全球性的、开放的许可市场，围绕研发能力和创新市场的竞争将进入一个新的历史阶段。

庄表伟：

AI 领域，最近也是最热的技术圈大事件，自然是 OpenAI 推出的 ChatGPT，Bing with Chat 以及后续 GPT-4，还有各种插件等等主线剧情。还有围绕 ChatGPT 的 API，诞生的众多开源项目与创业项目，令人应接不暇。这可能是最近 30 年来，技术领域发生的最大程度的变化。堪比互联网的诞生与移动互联网的兴起。从此以后，一切都将会变得不同了。在我前段时间写的一篇博客《如何评价一个新技术 —— 以 ChatGPT 为例》（ http://zhuangbiaowei.github.io/thinking/it/2023/02/11/how-to-evaluate-a-new-technology-like-chatgpt.html）中，我写道：ChatGPT 的出现，是一个远比 Docker 的出现重要的事件。也许是 “新工业革命” 级别的信号！下一个节点，也许就是 AI 能够找到方法：自我训练，自我调优，自行进化。由于 GPT 4，甚至 GPT 5 也并非 AI 技术发展的天花板，因此在未来的 5~10 年，我们需要非常非常关注这个领域，其他所有的技术领域的重要性，都必须往后排了。

二：预测该领域将会有什么样的发展趋势？

王家军：

在第一个问题所说的背景下，细分领域会对模型有着更高的要求，预测将会在各行各业以大模型作为基础，训练出不同领域的小模型，来产出更精确、更可靠的工作成果。而在这个过程中，高质量数据仍然是优质模型的关键，这就要求 MLOps 数据相关软件提供完整的 Data Pipeline，以维持模型对新环境的适应能力。

第二点，从数据训练的角度来说，模型也将更普遍地应用到训练过程中。拿其中的图像 + 点云融合数据标注来举例，曾经可能每分钟可以完成 20 个立方体框的标注，而像 Xtreme1 这样的开源平台结合模型的能力，甚至可以完成数百个框的建立，极大地提高了训练效率。

第三点，如今模型的迅速发展可能即将淘汰基础的数据标注。举个例子，为了实现更好的聊天效果，ChatGPT 雇佣了大量的 Al Trainers 来进行有监督的模型训练，公开的 InstructGPT 雇佣了 40 个工人，其中 80% 具有本科以上学历。在未来，标注猫猫狗狗的 “标注员” 也将逐渐被标注癌症、肿瘤等更专业数据的 “AI / 模型训练师” 所取代。这样的背景下，标注工具除了需要具有灵活的模型对接、可视化、高效的交互能力，还需要有精细化的编辑能力，从而可以向模型反馈最准确的正负信息。

人类文明的发展就是一个不断自我进化的过程，每一次工业革命都会带来新的技术，以提升各行各业的生产效率，这必然会导致陈旧生产工艺的淘汰，老的职业消失，新的职业兴起。对于 AI 来讲，也是类似，我们见证了 AI 的快速发展，在某些领域已经实现了接近甚至超越人类的能力。无论是 AI 从业者，还是传统行业的人们，都需要保持不断的学习，不同于以前的学习，这里的学习新增加了如何让 AI 为我所用，因为 AI 现在已然成为了一种新的生产工具。

张健：

大语言模型领域，因为达观数据所在的文本智能处理赛道恰恰就是当前大语言模型所在的赛道，所以我们很早就非常关注大模型技术的演进和发展。在我们看来大语言模型是一个划时代的技术，是需要全力投入的一件事情。所以在今年上半年，我们在北京、上海、成都联合中国人工智能学会、上海人工智能技术协会、数据科学重点实验室等权威组织开展了多次围绕 AI 生成和大语言模型的专题研讨会。研讨会上就宣布了达观在自研国产、垂直、专用的大模型 — 曹植。

我觉得大模型从根本上解决了很多困扰已久的难题，能够让自然语言处理领域焕然一新。目前的市场确实很热，我们对此的响应速度也是比较快的，应该在国内的创业公司中是第一批宣布自研大模型。虽然现在百度发布了文心一言，但我认为整体来说在中国的市场才刚开始，国内要真正研发出非常优秀的可用的系统，还是需要摸索一段时间的。

达观数据积极研发国产版 GPT “曹植” 大语言模型 LLM 系统，作为垂直、专用、自主可控的国产版 ChatGPT 模型，该系统结合先进的自然语言处理（NLP)、智能文档处理（IDP）、光学字符识别（OCR）、机器人流程自动化（RPA）、知识图谱等技术，为大型企业和政府机构提供文档智能审阅、文档智能写作、知识搜索与问答、办公流程自动化等智能文本机器人产品。达观数据通过持续投入研发和创新，不断提升产品和服务的质量与效率，为金融企业提供更好的文本智能化解决方案，让计算机协助人工完成业务流程自动化，大幅度提高企业效率与智能化水平。

“垂直”：针对金融等垂直行业来开发特定应用

“专用”：系统可以为每个客户量身定制、私有化部署，确保数据安全私密

“国产”：坚持原创自主，训练数据和算法模型自主可控

作为垂直、专用、自主可控的国产版 ChatGPT 模型，不仅能实现专业领域的 AIGC 智能化应用，且可内置在客户各类业务系统中提供专用服务，目前已获得重要技术突破，以大量通用数据和领域数据自监督训练的 LLM 为基座模型，通过大量通用任务数据和领域任务数据进行 Prompt Learning 微调，在垂直领域内的理解和生成的任务上都达到了很好的效果。

王志涛：

区块链 + AI + web3.0 领域，无形资产已经崛起并正在进一步崛起成为企业的主要资产类别，在产品市场、技术市场和创新市场三个市场并存的格局中，技术市场和创新市场的比重将显著提高，企业家将不得不更加重视无形资产。无形资产的布局、运用以及对于无形资产的智能管理，将成为企业家的一门必修课。

与此相关，国际会计准则也将不得不做出修改，以适应时代的发展和真实世界的企业资产结构变化。

王闻宇：

AIGC 领域，我看到的大型语言模型的发展趋势走向两极化，

一方面，头部科技巨头公司在不断增加模型的复杂度和规模，以及提高创造力，将会出现上亿甚至上十亿参数的大语言模型。未来的搜索引擎将逐步被类似产品替代。
另一方面，开源技术领域发展，大语言模型会在效果差不多的情况下，模式参数越来越小，以便于更低配的显卡中运行。在开源领域，基于公开开源大模型的 Fine-Tune 会越来越普遍，并用于多个垂直行业。基于私有数据级的行业大语言模型会逐步走向这个方向。

除此之外，AIGC 领域除了文字，图片，代码外，还会发展视频生成，音频生成，3D 模型生成等新的领域。并且陆续会有开源的产品出现。

PPIO 边缘云主要发展利用边缘成本优势，发展边缘节点，闲置共享节点，西部算力节点，拥抱开源模式，建设最具性价比的算力平台底座，赋能 AIGC 发展。

三：开源或你所关注的技术领域当前亟待解决的问题是什么？whatever.

王家军：

人工智能训练数据方面，目前急需解决的问题我认为还是安全问题。就在 4 月，三星员工由于使用 ChatGPT 优化代码、整理会议纪要，企业敏感信息遭到了泄漏。隐私泄漏长久以来一直是专家们关心的话题，也正是因为安全问题，意大利数据监管机构禁止了 ChatGPT 的使用，成为了第一个禁止 AI 聊天机器人的欧洲国家。在使用开源 AI 大模型时，公众很容易在无意识中泄露个人或商业隐私信息。当信息交由大模型处理时，数据很可能在背后被吞没，成为模式匹配或其他复杂计算的基础材料。然而，现有的监管法律条款并未跟上技术的快速发展，使得用户与大模型之间的隐私边界依然模糊不清。高速发展且公开的大模型也可能存在许多潜在的漏洞，进而使用户在交互过程中的隐私面临泄露或遭受恶意攻击的风险。此外，开源软件的普及使得恶意软件和攻击者更易于利用其中的漏洞。例如勒索软件和 DDoS 等已成为常见的网络威胁。因此，开源社区亟需加强安全审计，防范类似事件的发生。为应对数据安全问题，从源头出发，首先要在开发过程中从一开始就将安全视为核心考虑因素。实施 SDLC 等方法，确保在需求分析、设计、编码、测试和部署等各个阶段都充分考虑安全因素。同时，可积极鼓励用户和安全研究人员报告潜在的安全漏洞，并推广漏洞奖励计划，以提升整体安全防护能力。

王闻宇：

AIGC 领域，随着 LLM 大语言模型的不断发展，面临着几个问题：

LLM 大语言模型如何平衡模型的参数大小和创造力。一方面希望结果更丰富更具创造力，希望参数更大；但一方面希望控制算力成本和性能，希望参数变小，以便于更低端显卡可以流畅推理。如何平衡这个问题，需要更多技术层面的突破。
如何提高 LLM 的可解释性。由于 LLM 的复杂性，很难理解它们如何做出决策。因此，如何提高 LLM 的可解释性也是一个重要的问题。
模型安全和隐私计算，随着 AIGC 的发展，越来越多的行业会用私有数据来 Fine-tune 或者训练专用模型，然后大规模部署模型用于推理；但是在推理的时候需要考虑，如何低成本部署在廉价的节点上，且又能保证模型的安全，不被泄漏，不被外盗，就是非常关键的需求，这里就需要突破模型的隐私计算技术。

“AI is Everywhere” 分论坛将在 5 月 28 日与大家见面，届时多位大咖将到现场分享自己项目经验，欢迎感兴趣的小伙伴点击下文链接，报名参会！

参会报名，请访问：https://www.bagevent.com/event/8387611

全球开源技术峰会（Global Open-source Technology Conference），简称 GOTC，是由开放原子开源基金会、上海浦东软件园、Linux 基金会亚太区和开源中国联合发起的，面向全球开发者的一场盛大开源技术盛宴。5 月 27 日至 28 日，GOTC 2023 将于上海举办为期 2 天的开源行业盛会。大会将以行业展览、主题发言、专题论坛、开源市集的形式展现，与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题，以及开源社区、AIGC、汽车软件、AI 编程、开源教育培训、云原生等热门话题，探讨开源未来，助力开源发展。

GOTC 2023 报名通道现已开启，诚邀全球各技术领域开源爱好者共襄盛举！

进入官网了解更多信息，请访问： https://gotc.oschina.net/

立即报名大会

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章