Redian新闻
>
智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新

智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新

公众号新闻

机器之心专栏

机器之心编辑部


伴随着大模型开发和应用的火热发展,作为大模型核心基础组件的 Embedding 重要性愈发凸显。智源于一月前发布的开源可商用中英文语义向量模型 BGE(BAAI General Embedding)在社区收获颇高关注度,Hugging Face 累计下载量达到数十万。当前,BGE 快速迭代推出 1.5 版本并公布多项更新,其中,BGE 首次开源 3 亿条大规模训练数据,帮助社区训练同类模型,推动该领域技术发展。


  • MTP数据集链接:https://data.baai.ac.cn/details/BAAI-MTP

  • BGE 模型链接:https://huggingface.co/BAAI

  • BGE 代码仓库:https://github.com/FlagOpen/FlagEmbedding


3 亿中英向量模型训练数据开放


业界语义向量模型训练数据首次开源,达 3 亿中英文数据。


BGE 的出色能力很大程度上源于其大规模、多样化的训练数据。此前,业界同行鲜有发布同类数据集。在本次更新中,智源首次将 BGE 的训练数据向社区予以开放,为推动此类技术进一步发展打下了基础。


此次发布的数据集 MTP 由总计 3 亿条中英文关联文本对构成;其中,中文记录达 1 亿条,英文数据达 2 亿条。数据收集自 Wudao Corpora、Pile、DuReader、Sentence Transformer 等语料,经过必要的采样、抽取、清洗获得。


详细细节请参考 Data Hub:https://data.baai.ac.cn


MTP 为迄今开源的最大规模中英文关联文本对数据集,为训练中英文语义向量模型提供重要基础。


响应开发者社区,BGE 功能升级


基于社区反馈,BGE 在其 1.0 的版本之上进行了进一步优化,其表现更加稳健、出色。具体升级如下:


  • 模型更新。BGE-*-zh-v1.5 缓解了相似度分布问题,通过对训练数据进行过滤,删除低质量数据,提高训练时温度系数 temperature 至 0.02,使得相似度数值更加平稳 。

  • 新增模型。开源 BGE-reranker 交叉编码器模型,可更加精准找到相关文本,支持中英双语。不同于向量模型需要输出向量,BGE-reranker 直接文本对输出相似度,排序准确度更高,可用于对向量召回结果的重新排序,提升最终结果的相关性。

  • 新增功能。BGE1.1 增加难负样本挖掘脚本,难负样本可有效提升微调后检索的效果;在微调代码中增加在微调中增加指令的功能;模型保存也将自动转成 sentence transformer 格式,更方便模型加载。


值得一提的是,日前,智源联合 Hugging Face 发布了一篇技术报告,报告提出用 C-Pack 增强中文通用语义向量模型。


《C-Pack: Packaged Resources To Advance General Chinese Embedding》

链接:https://arxiv.org/pdf/2309.07597.pdf


在开发者社区收获高热度


BGE 发布自以来受到大模型开发者社区关注,目前 Hugging Face 累计下载量达到数十万,且已被 LangChain、LangChain-Chatchat、llama_index 等知名开源项目集成。


Langchain 官方、LangChain 联合创始人兼首席执行官 Harrison Chase、Deep trading 创始人 Yam Peleg 等社区大 V 对 BGE 表示关注。









坚持开源开放,促进协同创新,智源大模型技术开体系 FlagOpen BGE 新增 FlagEmbedding 新版块,聚焦于 Embedding 技术和模型,BGE 是其中明星开源项目之一。FlagOpen 致力于打造大模型时代的 AI 技术基础设施,未来将持续向学术界和产业界开源更为完整的大模型全栈技术。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌大模型研究陷重大争议:训练数据之外完全无法泛化?网友:AGI奇点推迟了32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了AI赋能电商调查:20亿条数据,500亿市场,3个人的转行首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据东瀛气象鹧鸪天(2)ChatGPT 都推荐的向量数据库,不仅仅是向量索引大语言模型(LLM)预训练数据集调研分析DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑并非所有向量数据库都生来平等 - 找到属于你的向量数据库AI大模型训练背后,一条数据产业链正在形成LoRA继任者ReLoRA登场,通过叠加多个低秩更新矩阵实现更高效大模型训练效果7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023让大模型自主探索开放世界,北大&智源提出训练框架LLaMA-Rider历史小说《黄裳元吉》第一百一十六章 流星《春天你在哪里》&《缘份》谷歌DeepMind力证:Transformer模型无法超越训练数据进行泛化!GPT-4终局是人类智慧总和!智源开源最强语义向量模型BGE!中英文测评全面超过OpenAI、Meta爱之魂智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对Jina AI 推出全球首款开源 8K 向量模型,比肩 OpenAI我们调研了5454家中小微企业:经营状况略有好转,市场预期分化,数字化转型持续科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新字节对话类AI产品内测;GPT-5或需5万张H100;智源最强开源语义向量模型上线丨AIGC大事日报AutoGPT 宣布不再使用向量数据库!向量数据库是小题大作的方案?谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化个人的行为法则(第一章摘要)昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源马斯克:将开放 Grok;OpenAI 将建立「安全」的 AI 训练数据集;传腾讯将代理 Meta VR | 极客早知道斯坦福博士独作!大模型训练速度再翻倍,还官宣加入明星创业公司当首席科学家训练大模型之前,你要了解下向量数据库、算力集群、高性能网络技术底座吗?减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器实锤!村上春树、史蒂芬·金盗版书成训练数据,AI 巨头无一幸免大模型持续技术升级,你需要这样一场干货满满的技术论坛持续数据开源,智源发布超3亿对面向中英文语义向量模型训练数据集大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。