Redian新闻
>
成都站源创会落幕,10月苏州精彩继续!

成都站源创会落幕,10月苏州精彩继续!

公众号新闻
出品 | OSC开源社区(ID:oschina2013)

9 月 23 日,开源中国联合腾讯云 TVP 主办的第 95 期 OSC 源创会暨 Techo TVP 技术沙龙在成都圆满举行。本次活动以“数据与前沿技术”为主题,聚集 5 位数据领域的技术大佬,呈现了业界围绕数据存储、分析,数据挖掘等所做的技术创新,共同探讨数据技术的未来发展。

先上大合照,编程从娃娃抓起

活动延续了源创会的优良传统——披萨环节

玩得开心!

捕捉到好多认真学习、记录的小伙伴们!

不会吧,现场不会有人没中奖吧?!

看完精彩的现场照片,下面进入主题演讲回顾环节。

腾讯云向量数据库产品负责人邹鹏发表了《向量数据库在大模型场景的应用实践》主题演讲。邹鹏介绍,大模型拉开了通用人工智能的序幕,接下来一个较大的改变将是应用范式上的变化。当下人与计算机的交流方式还是代码,但下一个十年的交互方式或将是自然语言、音视频,甚至是肢体动作,而“大模型+向量数据库+提示词”正在成为当今 AI 应用的标准开发范式。

大模型学习知识有 3 个途径:预训练、微调、知识库。相较而言,知识库是大模型应用的成本最优解。大模型应用主要是两个方向,一个是 RAG,即搜索增强的生成,可以简单理解为知识问答的场景,另一个方向是 Auto Agent,可以处理一些连续的任务,调用企业接口。其中现在主要在做的 RAG 场景是一个典型的开发范式,比如企业要做内部的知识库、智能客服问答等等,便需要将企业现有的知识素材接入到大模型中,第一步将素材做文本拆分;由于文本无法直接计算,第二步便是转向量;第三步是通过向量数据库建向量索引,实现知识的可查找,完成知识库的建设。应用端则会有一个大模型的 APP,可以查询知识库,结合 Prompt 实现大模型的调用。

以 RAG 调优路径为例,邹鹏介绍了其中一些关键的技术节点,以提升向量数据搜索的准确度。首先在文本解析环节,Markdown 格式的文本是首选;Embedding 层决定检索的效果,维度越高效果越好,可以尽可能选取高维度的如 1536、1024 维的;Index 层,初期做 AI 应用时,一个简单粗暴的方式是避免有任何丢失;Query 层可以加入 Query 增强,保证大部分的提问都能得到高质量的回答;Prompt 层,注重角色、背景、目的这三个关键信息;LLM 层,行业模型将是未来的趋势,可以使用开放模型预训练。

最后,邹鹏介绍了腾讯云向量数据库 Tencent Cloud VectorDB。Tencent Cloud VectorDB 于今年 8 月 1 日上线,目前正处在邀请测试阶段,有需要的企业可以到官网申请免费开通,这款向量数据库源自腾讯集团积累多年的分布式向量检索引擎 OLAMA,提供高吞吐、低延迟、低成本、高可用、弹性扩展的全托管向量检索数据库服务。

非凸科技成都分公司研发总监赵海峰发表了《量化交易的数据驱动》主题演讲。赵海峰介绍,量化交易主要通过行情数据进行交易决策,那么如何通过券商获取行情,进行行情低延迟接收的软硬件方案呢?

交易所发布的行情会经过券商的处理再转发给交易机构,其转发途径主要有 TCP、UDP、FPGA 加速的 UDP 和 ASIC 加速的 UDP 行情等。然而,券商通过 TCP 连接将处理后的行情数据转发给交易机构,会存在延迟大、应用层丢包(非 TCP 协议丢包)、发送端负载大等问题。为了解决这些问题,券商又通过 UDP 组播或广播的方式,将处理后的行情或交易所原始行情转发给交易机构。为了达到极致的低延迟,券商端将会通过多种方式来解决,其中一个特别有效的方式是使用 L1 交换机,在一层转发光或电信号给客户,其转发延迟可以低至 4ns。需要注意的是,虽然 UDP 不是一个可靠传输协议,但在同一个交换机连接的服务器之间使用 UDP 进行通信,正常情况下在网络上几乎不会丢包。然而,在客户端程序和服务器的网卡上可能会丢包。因此,客户在接收行情时,可以使用无锁的 ring buffer 转发数据到处理线程,以并行处理不同股票的行情,然后将处理结果写入共享内存,以供交易系统读取。

收到行情后,如何将行情数据转发给内部的其他消费者呢?如果对延迟要求没有太高,可以使用 TCP 转发行情,能够自己控制丢包率,为了降低延迟和增加吞吐,也可以使用 UDP 转发行情。由于逐笔行情不允许丢包,所以在使用 UDP 转发行情时,可以搭配 TCP 行情重传服务,通过多路行情汇聚、Rocksdb 持久化等方式对 UDP 转发行情进行补充。如果转发行情前进行数据压缩,那么延迟和吞吐量可能会更优秀。行情压缩主要有两种方式:行情消息的压缩、消息内部字段的压缩(股票代码、价格)。

行情转发之后,如何使用行情数据分析交易执行情况,又该如何训练模型呢?收取到行情后,其中一种应用场景是训练量化交易模型,将收取到的行情数据进行特征处理,提取因子,并利用 AI 进行模型训练,然后将训练好的模型解析出来以备高效地计算实时信号,在接收到实时信号值之后,再极速推送到交易系统,就可以根据不同的策略配置触发交易;另一种场景应用是把收取到的行情数据与 ClickHouse 集成,这不仅能提供高效的聚合和分析查询功能,还能使用流式聚合表自动计算交易数据,如实时交易盈亏,风险指标等。

PostgreSQL ACE/MVP 熊灿灿发表了《云程发轫,万里可期——PostgreSQL 与向量数据库》主题演讲。熊灿灿认为,如果说 LLM 是容易失忆的大脑,向量数据库就是海马体,记忆的缺失让每一次和 LLM 的交互像是一次次不断重头再来的闭卷考。

而向量数据库的存在让这一过程能变成开卷考:一方面,LLM 能浏览专用数据与知识,解决 Hallucination 的问题使回答更精准;另一方面,LLM 能回忆自己过往的经验与历史,更了解用户的需求,通过反思实现更好的个性化。因此,向量数据库是一种专门用于存储和查询向量数据的数据库系统,与传统数据库相比,向量数据库使用向量化计算,能够高速地处理大规模的复杂数据;并可以处理高维数据,例如图像、音频和视频等,解决传统关系型数据库中的痛点;同时,向量数据库支持复杂的查询操作,也可以轻松地扩展到多个节点,以处理更大规模的数据。

目前市面上的向量数据库百花齐放,除了选择专业的向量数据库,使用传统数据库进行扩展也是一种方法,如 pgvector / pg_embedding / pgvecto.rs 等就是以插件的形式存在,站在 PostgreSQL 的肩膀上。

以 pgvector 为例,它在 PostgreSQL 上以插件的形式添砖加瓦,继承了 PostgreSQL 生态的超能力集合。此外,pgvector 提供了多种索引算法,如采用 ivfflat 算法以近似搜索,它的工作原理是将相似的向量聚类为区域,并建立一个倒排索引,将每个区域映射到其向量,这使得查询可以集中在数据的一个子集上,从而实现快速搜索。pgvector  还采用了 HNSW 索引,可以与 Product Quantization 结合使用,提高搜索速度和内存效率。

G7 易流技术副总裁、腾讯云 TVP 赵云涛发表了《G7 易流 AIoT 数据实践》主题分享。赵云涛首先为大家介绍了 AIoT 数据场景的特点,包括:设备触发不间断数据流入,对实时监控、实时计算、多维查询的需求较高,具备明显的时空型数据特点,需要进行时空大数据分析。

而作为全球领先的物联网软件服务公司,G7易流在面临各种复杂的数据场景,其选择倾向有两点,一是空间换时间,多样性数据存储给客户提供最好的体验,二是在此基础上尽可能采用创新的方案控制成本。赵云涛分享了三个成本控制方案:冷热分治,控制低频存储成本;存算分离,减少计算资源浪费;压缩算法+副本算法升级,整体控制存储成本。

最后,赵云涛也表达了对未来数据库的期待,希望作为企业数据底座的数据库可以具备更多样的复合能力,更好的安全控制,同时在成本上有更优秀的表现。在AI新时代下,可以与AI更有机地结合,打造下一代数据存储技术体系。

Apache SeaTunnel PMC member 范佳发表了《Apache SeaTunnel 和 ClickHouse 的数据集成》主题演讲。范佳介绍,Apache SeaTunnel 是一个用于开发数据集成应用程序的框架,支持多引擎、多数据源、多种能力、多种同步模式等等。范佳着重介绍了在 Apache SeaTunnel 中集成 ClickHouse 数据库。Apache SeaTunnel 是一个集成工具,而非计算工具,因此,Apache SeaTunnel 的目标是希望能够更快地将数据写入到 ClickHouse。

Apache SeaTunnel 会在写入数据到 ClickHouse 之前,获取表的特征。分布式表的情况下,会通过计算将数据分发到对应的 local table 上,从而提高写入的性能。CDC 适配方面,任意支持的 CDC 数据源;通过 ClickHouse 轻量删除(Lightweight Delete)特性降低删除成本;以  MySQL 为例,对应的数据变化转换为 ClickHouse 对应的 SQL 语句执行数据操作针对非主键模型的增量数据写入。未来,针对 Apache SeaTunnel 和 ClickHouse 的数据集成,将会优化写入速度,实现针对更多引擎的优化,实现读取的优化,支持读取本地表。

感谢以下合作伙伴对本次活动的大力支持!

本次活动到此就要告一段落了,源创会的朋友们 10 月苏州见!

如有合作意向,或想提前了解更多源创会信息欢迎添加微信:18655807197

最后再送上一大波现场精彩照片!

往期推荐



中国程序员在国内为海外软件公司工作,被没收违法所得100多万
Vue.js尤雨溪:论高质量中文文档的重要性
Apache OpenOffice是事实上的 “无人维护” 项目




这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《财富》ESG峰会圆满落幕,精彩观点出炉关于开源创业的15件小事中国中文信息学会《前沿技术讲习班》-大模型系列专题·成都站 开放注册!奥克兰第34届夏季街会落幕“AI-Future科技之旅“圆满落幕 | 硅谷高创会第70期&中美创投第六期美国科技创新考察营精彩回顾下周举办!“自由与梦想”中国巡讲成都站最后名额等你来抢!2023年《财富》世界500强峰会圆满落幕,精彩观点出炉多伦多华裔女子爆红!全网被骂后发了段中文视频,现在网友都站她!圆满落幕 | 第11届“自由与梦想”中国巡讲苏州站顺利结束!倒计时3天!“自由与梦想”中国巡讲成都站最后名额等你来抢!旧金山列治文区第7届中秋街会落幕杭州亚运会落幕,央视频央友圈以强互动、深社交、趣话题 “圈粉”36氪WISE2023新时代人力大会落幕:风险社会,韧者才能行远推进新时代教育高质量发展,用思想与行动助力中国教育进步 | 中国教育明德论坛2023年年会落幕《灵魂的哀伤吟游·伯恩-琼斯篇之三》2023进博会落幕,中国大市场有哪些吸引力?精彩聚焦 | 第11届“自由与梦想”中国巡讲成都站圆满结束!2023 TERA-Award“碳汭未来”智慧能源创新大赛正式启动!格灵深瞳遭策源创投真格基金及澳林春天减持:累计套现超3亿《灵魂的哀伤吟游·伯恩-琼斯篇之四》【乐游】地肤上线、南戏经典文化周、国风集市……本周文旅活动精彩继续→纽约州莫霍克山屋(Mohonk Mountain House),清澈倒影别掉队!美国黑五继续福利继续!COACH、Ecco、羊绒衫今天都来了!旧金山中国城中秋街会落幕【酷玩派对】森林湖狂欢万圣节,减压派对再继续!前10人可享特惠价!知识原来这么有趣!童行宝藏老师们继续给大家带来精彩直播!(附精彩直播预告)UPDATE|[川航] 成都往返悉尼,10月30日起航啦!1028 苏州站源创会,一起寻宝 AI 时代硬科技企业同台“秀肌肉”,2023 DEMO CHINA城市巡回赛·成都站圆满落幕7problems把原子弹运往日本的舰长2023年《财富》40U40创想会圆满落幕,精彩观点出炉!亚运会落下帷幕,复盘伊利如何领跑体育营销第五届中阿工商峰会落幕,达成逾300亿元新合作项目今天,奥克兰发生了这件大事,现场嗨翻天了!明天精彩继续!还有重磅好礼等着你!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。