上海站源创会精彩回顾

2024-01-02 11:01

12 月 23 日，由开源中国、VMware、上海浦东软件园联合主办的 OSC 源创会・上海站・第 100 期在上海浦东软件园郭守敬园 1 号楼二楼报告厅成功举办。本期源创会以 “LLM 基础设施” 为主题，邀请到来自 VMware、中兴、百度、Zilliz、容大数字的多位业内专家将带来精彩分享。接下来就一起看看活动现场的精彩瞬间吧！

据说开会这天是上海近几年最冷的一天，但再寒冷的天气也挡不住小伙伴们满满的热情！

一起给源创会第 100 期过个生日呀！

茶歇礼物不能少～

交流学习 ing……

当然，还要感谢合作伙伴的大力支持❤️

接下来，进入主题演讲的内容回顾环节。本期我们邀请到 VMware 创新与生态部门新媒体负责人王哲担任活动主持人🎉

梅俊杰：深度学习 + 大模型，夯实产业智能化基座

百度 AI 技术生态华东区域企业负责人梅俊杰带来《深度学习 + 大模型，夯实产业智能化基座》主题演讲。梅俊杰介绍了当下大模型产业化面临的挑战，整体上研发门槛高、难度大，依赖算法、算力和数据的综合支撑，具体如模型体积大训练难度高、算力规模大性能要求高、数据规模大质量参差不齐的挑战。

而当下大模型的产业模式，整体可分为芯片需求公司与 AI 需求方。芯片需求公司会与芯片代工厂之间合作，但芯片代工厂则需要成本高昂的设备和产线，具备数百道精密工艺流程，以及自动化、标准化生产能力。AI 需求方的 AI 能力与模型生产则需要与大模型平台交互，而大模型平台则需要有价格昂贵的大算力，具备 PB 级大数据、千亿级参数，自动化、标准化生产能力。基于此，大模型的产业化路径就需要封装复杂的模型生产，以支撑千行百业的应用。

梅俊杰介绍了飞桨支撑大模型。在开发训练环节，飞桨支持动静统一开发范式、硬件感知自动调优、自适应分布式架构、异构设备负载均衡、多维混合并行策略、弹性容错训练机制。在推理部署环节，飞桨支持高并发弹性服务化部署、自动混合并行推理、精细化显存管理、深度计算融合优化、软硬协同稀疏量化加速、模型自适应蒸馏裁剪。此外，百度还打造了新一代知识增强大语言模型生成式 AI 产品文心一言，并在 2023 年 8 月 31 日全面开放。截至 2023 年 12 月底，文心一言用户规模已突破 1 亿，已经完成了 37 亿字的文本创作，输出了 3 亿行代码。

孟伟：星云研发大模型，开启编程新范

中兴通讯标准与开源战略总监、Linux 基金会 AI&Data 董事会主席孟伟带来《星云研发大模型，开启编程新范》主题演讲。孟伟主要谈到了当下的 AI 开源趋势与大模型编程实践。根据中国开源软件推进联盟《2023 中国开源蓝皮书》数据显示，开发者最感兴趣的技术为 AI，当时有 45% 的得票率，第二个是编程语言，之后依次是大数据、云原生、操作系统等。孟伟认为，开源项目中，开发者是最重要的生态要素，而调研结果说明 AI 是最受开发者欢迎的，那么当下做 AI 项目成功的几率要高很多。

在今年参与的 Linux 基金会的工作中，孟伟总结出一句话 ——AI 天生为开源，以及两个重要趋势。第一个趋势是从 AI 框架到 AI 工具，“我们认为目前框架的数量上已经相较充裕，可能不需要再引入新的框架做同质化竞争，在现有的基础上不断演进就能满足研发需求，但我们现在越来越需要 AI 工具，包括大模型工具帮我们把 AI 落地。”

第二个是从开源代码到开源模型的趋势转变。孟伟指出，二者之间存在很大的不同 —— 开源代码是工程师智慧的结晶，从发布到实用以及商业化都有比较明确成熟的模式；而开源模型就不一样了，还存在许多问题，比如大模型有数据、算力、算法三大基本要素，个人开发者没有数据和算力资源，实际上很难参与贡献大模型的开源社区。在 “社区大于代码” 的开源观念之下，这就是一个非常大的问题。此外，开源模型本身也面临三方面的挑战：大模型方应该开源的内容是什么，算法还是数据；商业模式是什么，如何通过开源模型获得商业价值；许可协议问题，当下的许可证是否适用大模型？这些都是需要我们去思考的问题。孟伟也透露了他正在做的部分工作以解决当下的难题：正参与起草大模型领域开源许可证。

除了 AI 开源趋势，孟伟还介绍了中兴的大模型实践与 AI 编程。中兴通讯的大模型路线中，以一系列基座大模型 —— 中兴星云系列大模型为基座，其上构建多个领域大模型。首先便是研发领域的大模型，孟伟指出，用大模型的第一步是把研发人员的工作量降下来，这样提升研发效能，便可以去探索更多新的领域。目前中兴的编程大模型在 HumanEval 评估的编码类模型能力方面处于第一梯队，已经可以在 AI 开发助手、文档翻译生成等多个场景中应用。

陈将：向量数据库 -AI 时代的信息检索引擎

来自 Zilliz 的 AI 云平台负责人陈将发表了《向量数据库 - AI 时代的信息检索引擎》主题演讲。陈将介绍，今年随着大模型的火爆，向量数据库也开始出圈了。很多人对向量数据库的认知都是从 AI 大模型开始的，因为大模型虽然很强大但往往缺乏领域知识，所以业界流行用向量数据库打造大模型的记忆体。除此之外，向量数据库在信息检索领域还有非常多的应用。
关于向量数据库为何会成为新一代的信息检索引擎，陈将解释，传统的检索基于关键词匹配的思想来实现，但仅靠关键词匹配往往难以达成我们想要的语义的相近。近年来深度学习的研究发现，可以先通过大量的语料学习来找到词和词之间的关系，句与句之间的关系，通过深度神经网络提取海量语料中的概率信息，再以一个系统的方式去高效地把词句之间的关系 “压缩” 放进一个模型里面，那么理论上就能通过深度学习来达到 “理解” 语义的能力。这个方法叫做 embedding。采用这种思想，通过各种 embedding 模型可以对所有非结构化信息进行编码。我们可以将图片、文本转化成数字表示，这个数字表示我们将其称为向量。将向量放到一个高维空间中去看，会发现，向量距离上的相似度可以表征语义相似度。找到这个方法之后，便是找到了一个系统的模式，可以把非结构化信息通过向量的方式进行检索。这个方法的好处就是跳开了关键词匹配的限制，可以查询到关键词匹配不到但是语义相近的信息。那么向量数据库就是为这种查询模式而生的数据库 —— 存储并索引向量，进行高效检索。目前向量数据库已经可以应用到 NLP、图像和视频、多模态等多种检索场景中。
陈将所在的 Zilliz 从向量数据库开始做起，目前也为 AI 应用开发者提供了非结构化数据检索产品 Zilliz Cloud Pipelines。Zilliz 坚持以非结构化数据为中心，坚持开源开放和云原生，推出了世界上第一款开源向量数据库 Milvus，同时也提供云上的托管版本。

宗升亚：大模型的前世今生

上海容大数字技术有限公司研发部副总监宗升亚发布《大模型的前世今生》主题演讲。宗升亚专注 NLP 算法技术领域，因此他从大型预训练模型如 BERT、GPT 的发展历程切入，探讨大模型发展的前世今生。

宗升亚介绍，对于任何的 NLP 模型来说，第一步的操作都是怎么把文本处理成计算机能识别的数学语言。早期的词表示方法为 onehot，是把文本信息转换成了数学符号，计算机可以处理和运算字或者词，然后再做后续的机器学习任务。但缺点是矩阵稀疏，维度爆炸，以及词直接距离都是一样，无法获得词语直接的关联性。此后，共现矩阵、词嵌入、CNN 卷积神经网络、RNN 循环神经网络等技术逐渐出现，不断实现技术上的优化与迭代。直到 2017 年，划时代的 Transformer 技术论文出现，打开了新的思路。

Transformer 是 2017 年的一篇论文《Attention is All YouNeed》提出的一种模型架构，这篇论文里只针对机器翻译这一种场景做了实验，全面击败了当时的 SOTA，并且由于 encoder 端是并行计算的，训练的时间被大大缩短了。目前在 NLP 各业务全面开花的语言模型如 GPT,BERT 等，都是基于 Transformer 模型。因此弄清楚 Transformer 模型内部的每一个细节就显得尤为重要。

Transformer 之后便是 LLM 时代。2022 年 11 月底 OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮，它面对多种多样的问题对答如流，似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型 (Large Language Model，LLM) 生成领域的新训练范式：RLHF (Reinforcement Learning from Human Feedback) ，即以强化学习方式依据人类反馈优化语言模型。当下，LLM 生成经常会出现幻觉的现象，外挂知识库的形式能一定程度上解决这类问题。

目前容大已经基于大模型技术推出了客服机器人产品，其实现智能应答的核心便是知识库，借助容大数字的容思 AIGC 大模型的能力，可极大提升知识库的建立和维护效率。此外，容大的大模型相关产品和解决方案也可以在智能培训、智能助手、智能质检等场景落地应用。

李杨：百度 CloudIDE 及智能化代码开发实践

iCoding 技术负责人、Baidu Comate 商业化负责人李杨发表《百度 CloudIDE 及智能化代码开发实践》主题演讲。李杨介绍了一些 IDE 工具普遍面临的问题，包括开发环境搭建困难，平台众多，切换成本高，如开发环境搭建比较耗时、开发常用平台多等等；问题发现较晚，修复问题成本高，如编码规范检查在准入阶段发现，在打回修改，效率低；编程现场数据难以收集，单兵效率数据难以衡量，如编码现场数据具有瞬时性，数据量较大，本地开发的话难以收集等问题。相比之下，云端 IDE 工具具备更多的优势，包括中心化 - 打通研发工具链，如 N 个工具 x 1 个中台统一研发入口；Devops 能力左移，如增量代码扫描能力前置、单元测试前置等；编程现场数据实时上报，如连续编码时长数据、开发者在 IDE 内的操作数据等能力。

在此背景之下，李杨介绍了百度 iCoding 的产品设计思路以及一些关键技术方案。如研发工具链的集成，由于开发者工作台中需要集成大量插件，所以 iCoding 在整体设计之初就以高性能、可插拔的底层技术目标。可插拔架构对程序架构设计的要求非常高，需要将各个模块相互独立，互不感知，并且通过一个可插拔内核，以叠加的方式将各种功能组合使用。

研发环境一直在发展，随之编程方式也在改变。李杨回溯了编码方式的变化：最早在 1991 年之期，程序员使用纸带纯文本编写代码，效率低下、要求高、成本高；到了 1991 年 IDE 出现，开发、编译集成到一个环境中；1996 ~ 2021 年，基于语法树、特定触发符号提供部分补全；2021 ~ 2030 年，基于 AI 大模型学习，支持多种形式补全触发；预计到 2030 年之后，90% 的代码将由 AI 产生。

李杨介绍了智能编码助理 Baidu Comate，目前可实现前期调研设计环节的需求澄清、任务分解等功能；编写代码阶段的实时续写、注释生成代码、描述生成代码、借口生成代码等功能；代码调试阶段的代码 Debug、缺陷自动修复等功能。

本期活动回顾就到这里啦。感谢各位在过去一年的参与和支持，让我们的技术沙龙更加精彩、更有意义。在这一年里，我们一起学习了很多新的知识和技能，也结识了很多志同道合的朋友。希望大家在新的一年里，继续保持对技术的热情和好奇心，不断探索和创新，实现自己的梦想和目标。各位 OSCer 们我们明年不见不散！

往期推荐

30年前的IDE：只有TUI、背景颜色亮瞎眼……

17+ 项目停更，到了该说“再见”的时候了

冥场面！速来围观2023十大生产事故“名场面”

《2023 大语言模型 LLM 技术报告》

这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得关注✔ 标星⭐ 哦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章