Redian新闻
>
3个令人兴奋的AI项目,已开源!

3个令人兴奋的AI项目,已开源!

科技

大家好,今天继续聊聊科技圈发生的那些事。

一、manga-image-translator

当你作为一名资深二次元,跑遍了论坛,求遍了群友,终于,找到了一份期待已久的漫画资源。

嗯,画面和之前看到的切片差不多,可就是哪不对..

生肉?!可没人说看个漫画还得精通语言啊!看不懂,咋办?

于是,manga-image-translator来了。

正如其名,manga 即日语的漫画, manga-image-translator 是一款开源的图像翻译器,上传图片,它能够识别图像中的文本部分,并将其翻译成你想要的语种。

OCR(Optical Character Recognition),光学字符识别技术。基于这项技术, manga-image-translator 可以通过亮-暗检测的模式,精准的提取出图片中的文字,将其转换成可处理的数据。

manga-image-translator 接入了很多翻译器,将OCR提取出的文字进行翻译。

此外,manga-image-translator 还有去除文本气泡里面内容的功能,方便后续进行编辑美化。当然,在进行文本去除后,manga-image-translator 还会对余下的气泡部分进行修复,保证了视图的美观和完整。

去除气泡内文字

项目地址:

https://github.com/zyddnys/manga-image-translator

目前项目已经开源,支持命令行执行Web服务器执行两种模式。感兴趣的小伙伴可以自己试一试。

想必,开发团队中难免少不了几个绅士吧。

二、screenshot-to-code

一款将屏幕截图转换成代码的开源工具。

通过截取屏幕图像,screen-to-shot 工具可以识别出代码的页面布局,生成HTML、CSS、Javascript 等常用的代码,同时还能预览代码实现的效果。

透过这个功能,似乎就像是 screen-to-shot 帮我们戴上一副透视眼镜。仅仅根据截图,我们就能透过图像,直接看到背后的代码结构。当然,这背后的工作仍然要交给 AI 。

我们尝试将 Taylor Swift 的 Instagram 个人主页截图下来,并将其上传给 screen-to-shot。

可以看到, screen-to-shot 在很短的时间内就生成了新代码,将 Taylor  的主页以很高的还原度“复制”了下来。

对于 NYTimes 的新闻, screenshot-to-code 也有不错的表现。

单看这两个示例,我们可以发现,抛开选用的图像,只谈页面布局的话,说不上是一模一样,但 screen-to-shot 至少能给出相似且舒服的代码,实现类似的布局效果。

在项目的主页上,作者团队声明使用了以下的AI大模型:

  • GPT4-Vision
  • Claude 3 Sonnet
  • DALL-E

工具主要使用 GPT4-Vision 生成代码,而 Claude 3 Sonnet 用于辅助(在某些输入情况下,它比 GPT4-Vision 性能更好),并使用 DALL-E 生成图像。

目前 screenshot-to-code 有两种使用方式。一种是在作者团队的网站上在线使用,需要付费。

地址:https://screenshottocode.com

另一种是本地部署。

项目地址:

https://github.com/abi/screenshot-to-code

除了上传截图生成代码外,工具同样支持输入网页URL在线获取截图。项目已开源,可以自己部署进行体验。

三、OMG

国产团队开发的项目。简单来说,就是可以支持换脸生成。

OMG 支持 civitai.com 上的角色和风格 LoRA 。它还可以与 InstantID 组合用于多个 ID ,每个 ID 使用一个图像。

我们可以来看看作者团队给出的四种示例。

OMG + LoRA

LoRA 是 Stable Diffusion 模型的插件网络,在 SD 模型的基础上进行精细的微调。

OMG + InstantID

InstantID 的特点,就是可以在保持高保真度的同时,支持各种不同风格的图像生成。它能够根据一张人脸图像,生成多种风格的图像。

OMG + ControlNet

同样是 SD 模型的插件之一。可以输入一些调节图像指导图像的生成,在几种不同的方法下控制图片的布局,例如边缘图、深度图、分割图、法线图等等。

姿势示例
边缘图示例
深度图示例

OMG + style LoRAs

更换了几种不同的风格。

style LoRAs示例

项目地址:

https://github.com/kongzhecn/omg

项目已经开源,可以根据自己的需要,自由选择想要的方法进行体验。

·················END·················

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
赚钱的项目,都流向了专业但又憨憨的投资人开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE别等OpenAI了,全球首个类Sora抢先开源!所有训练细节/模型权重全公开,成本仅1万美元不是分控!实力强、性价比超高的CS项目,看看谁还不知道...Meta无限长文本大模型来了:参数仅7B,已开源重磅突发!澳总理艾博年宣布:要结婚了!新娘是她!全澳震惊!这个令无数澳人疯狂的女人,也来澳洲了…4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂云开源公司成“恶龙”?——指控Linux基金会旗下开源项目盗用代码被曝光!5大坑娃的体检项目,又贵又没用,别再花冤枉钱了!年轻人的第一个多模大模型:1080Ti轻松运行,已开源在线可玩我这么勤奋的拜年,只为你不要吃我了两轮游日本 - 我的所见,所闻和所想 冲绳理发店全体理发师一致同意我的建议开源日报 | 微软AI程序员登场,马斯克开源Grok;Open-Sora全面开源随感马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星云开源公司成“恶龙”?——指控 Linux 基金会旗下开源项目盗用代码美国惊现“尿布水疗”项目,成年人穿尿布装婴儿?遭居民疯狂抵制!创始人纷纷回归一线,暴露了一个令中国300万企业家警惕的问题不用再等 OpenAI ,全球首个 Open-Sora 全面开源!一到报税季就发癫?报税日历+退税、免税、抵税项目,你学废了吗?生物研究的社会伦理【喜报】纽约商住地产投资项目,ZHU女士全家三人绿卡同时获批!数据分析|从零开始,通过学习核心技能,演练实操项目,复盘求职真题实训,让你获取求职竞争优势!有了这个小窍门,可以做出奶白色的白菜炖豆腐汤这是一个令人啼笑皆非又温暖感人的故事美股基本面 - 2024_01_27 * 午报 * 大宗商品巨头红海遇袭!油价飙升。美国的贫富差距4个令人惊艳的开源项目,诞生了!Stable Video 3D重磅开源!3D生成迎来新突破!​249篇文献!北邮发布文本到图像Diffusion可控生成最新综述,已开源!什么开源PUA大师语录:“你想参与开源项目?不,你并不想”检索增强生成引擎 RAGFlow 正式开源!仅一天收获上千颗星4个令人兴奋的爆火AI项目,已开源!比阿里EMO抢先开源!蔡徐坤“复出”唱RAP,腾讯AniPortrait让照片变视频,鬼畜区UP狂喜!看看哪家效果好超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。