Redian新闻
>
中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU

中文多模态模型问世!IDPChat生成图像文字,只需5步+单GPU

公众号新闻



  新智元报道  

编辑:桃子 拉燕
【新智元导读】中文多模态模型IDPChat来了,快速上手教程在此。

中文多模态模型IDPChat和大家见面了。

随着GPT4、文心一言等的发布,预训练大模型正式开启由单模态向多模态模型演进。多模态的特性为语言模型带来更加丰富的应用场景。

我们认为,未来的AI应用将主要以大模型为核心基石。

而在大模型的领域,基于基础模型(Foundation model)构建领域或企业自有的大模型,会是近中期的重要发展趋势。

但在私有化大模型微调和应用方面,企业和机构仍面临着微调复杂、部署困难、成本较高等种种工程化挑战。

白海作为AI基础软件服务商,我们希望能够从AI Infra层面,提供端到端的大模型微调、部署和应用工具,降低大模型微调和应用的门槛。白海科技IDP平台目前提供了从大模型数据源接入到大模型微调训练、模型发布的全流程功能。

我们以IDP平台为工具支撑,以预训练大语言模型LLaMA和开源文生图预训练模型Stable Diffusion为基础,快速构建了多模态大模型应用IDPChat。开发者们可根据场景需求,便捷地对其进行微调优化。

项目地址:https://github.com/BaihaiAI/IDPChat

IDPChat 能做什么


IDPChat目前可以同时支持文字对话和图片生成。

首先是图像生成,我们可以让模型根据文字描述画一幅画。


基础的文字对话聊天示例,可支持中文。


IDPChat 快速上手


仅需简单的5步和单GPU,即可快速启用IDPChat。

操作步骤如下:

1.  修改 ./backend/app/stable_diffusion/generate_image.py 文件,设置 diffusion_path 的值为本地 stable-diffusion 模型存储路径,设置 trans_path 的值为本地中文翻译模型的存储路径

2.  修改 ./backend/app/llama/generate_text.py 文件,设置 load_model 的 base 参数值为本地 llama 模型的存储路径

3.  执行 build.sh 脚本进行编译

4.  编译成功后执行 run.sh 脚本启动服务

5.  服务启动成功后,在浏览器中打开http://127.0.0.1:8000

在应用之前,需要下载准备所需的模型,LLaMA、Stable diffusion和相应的翻译模型。

具体所需的环境、模型、和操作步骤可以参考https://github.com/BaihaiAI/IDPChat

目前发布IDPChat初步版本,打通模型微调的全流程。

后续我们会继续对模型进行优化和丰富,如多模态部分增加图像描述功能。

当然要实现特定领域更高质量、针对性的表现,还需要基于领域数据的finetune和优化。

对 IDPChat 和 IDP 平台感兴趣的开发者小伙伴、场景应用伙伴等欢迎关注Github并联系我们。我们相信 IDP 平台和 IDPChat 将成为您探索多模态大模型应用和私有化大模型构建的得力助手。





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-3计划开源!Sam Altman自曝急缺GPU,GPT-4多模态能力明年开放GPT-3 计划开源!Sam Altman 自曝急缺 GPU,GPT-4 多模态能力明年开放【游记】第三个夏威夷(1):异境OFA-Chinese:中文多模态统一预训练模型ChatGPT平替「小羊驼」Mac可跑!2行代码单GPU,UC伯克利再发70亿参数开源模型怎么开始学佛(六)屠龙之技LLaMa被玩坏,网友做「无限制版」BasedGPT,直言灭绝人类只需5步!【城事】巴黎市长将重修Châtelet 广场以方便行人Meta发布全新大语言模型,号称比ChatGPT更强,单GPU上就能跑,后续或将开源达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3TPAMI 2023 | 无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型辟谷十四天,记录一下。巴黎市长将重修Châtelet 广场以方便行人哈工大讯飞联合实验室发布图文多模态预训练模型VLE《炸北溪》电影中所有人物介绍微软必应再进化!接入DALL·E模型,文字生成图像功能来了!多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4国内首个医疗大语言模型问世!多模态打通诊疗全流程,别再叫我做题家为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPTGPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl单GPU实现99%ChatGPT性能,「原驼」火了:手机也能微调大模型【庭院养蜂】蜜蜂买回家了,怎样安装?中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作​EACL 2023 | 图像文本检索:自适应特征聚合与训练目标BLIP-2:下一代多模态模型的雏形中国人民大学卢志武:ChatGPT对多模态通用生成模型的重要启发GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?讲座|数字图像文件的备份策略和数据恢复让ChatGPT调用10万+开源AI模型!HuggingFace新功能爆火:大模型可随取随用多模态AI工具微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出5620亿参数,最大多模态模型控制机器人,谷歌把具身智能玩出新高度
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。