Redian新闻
>
在 30000 张照片里立刻找到“和女友牵手的夜晚”

在 30000 张照片里立刻找到“和女友牵手的夜晚”

其他

事故来得猝不及防。


有天,女友问我:“你还记得有一年去海边玩的那个夜晚吗?我们一起牵着手,吹着海⻛……”


“记得,还拍了照呢,等我找找。”半个小时过去了,任凭我怎么翻手机相册,也没找到那张照片。


“算了,找不到就别找了。”她这句话让流动的空气瞬间凝固。原本甜蜜腻歪的“故事”就这样,演变成一场“事故”。


我只有发散思路,一心想着补救。


我(以及大多数人)遇到的问题

手机上照片太多,自带相册的分类、搜索功能又过于简单,不够智能。

我的脑洞

就像《钢铁侠》里呈现的那般,主⻆利用 AI 助手“贾维斯”搜索资料并瞬间得到结果。

AI 助手“贾维斯”丨GIPHY

冷静后的想法

这两年,高高在上的 AI“下凡”了,人们拿画画 AI 批量生成二次元形象,沉迷和 ChatGPT 对话,甚至还怀疑它是不是真有意识……既然 AI 如此强大,检索个相册应该不难吧?


一番搜索后,我惊奇地发现竟没人做过这类应用。要么在互联网哭嚎诉苦“在线等”,要么……干脆自己写一个 app?


  AI 那么行,有啥能帮上忙?  


在苹果的 iOS 相册里,我们有这么一张照片:


示例照片“一条穿⻩色衣服的狗”丨编辑提供


如果直接搜“一条穿⻩色衣服的狗”,一般会显示“无结果”,你只能在“狗”这个大类里一张张滑,直到看到目标;要么只能努力回想拍摄照片的时间、地点,然后以此为线索,缩小范围,再一张张滑……


我现在的诉求很简单,搜“一条穿⻩色衣服的狗”等有具体细节的文字描述,系统能瞬间帮我找到图片。


不妨一想,Midjourney、DALL·E 等画画 AI 仅凭用户的几个提示词,就能生成不可思议的画作,它们是如何接收并“理解”人们指定啥的呢?


这要归功于 OpenAI 2021 年年初推出的一个叫 CLIP 的模型。(对,就是发布 ChatGPT 和 DALL·E 2 的那家公司。)  


用 DALL·E 2 生成的 AI 画作丨维基百科


它能实现的功能很关键:人们给 CLIP 任何一张照片,它返回对应的文本描述,反过来,你给它一段具体的文本描述,CLIP 也能给你返回一张对应的照片。请注意,这里 CLIP 返回的文本和照片都是相关性最高的


CLIP 将 4 亿组从互联网上收集的“文本-图片对”抓来训练,从而实现文本和图片的映射(mapping)。但 4 亿对哪里够!你永远不知道人类会往 AI 里输入什么奇怪的东⻄!所以这里就不得不提 CLIP 的另一强大之处了,它会模仿人的“推理”能力,对从没⻅过的输入样本分类。


CLIP 的训练过程图解丨OpenAI


举个例子,就算 CLIP 并不知道斑⻢⻓啥样,但它会依靠之前所学,拆解这个没⻅过的物种,比如“外观像⻢” + “毛发如老⻁” + “颜色似熊猫”,然后在海量图片中推测出斑⻢。


以上能力让 CLIP 非常会找图,具体到相册找图场景里,CLIP 在收到文字描述后,就会把关联度最高的照片推到面前,这非常符合我们找照片的逻辑:先想到具体细节,而非确切的时间、地点。


到时候我再搜索“和女朋友牵手的夜晚”,岂不是非常轻松?


说干就干,我在 Linux 上先做了试验,传了七十多张手机上的照片,通过 CLIP 进行批处理……果然,在英文搜索后发现得到的结果排序中,文本和图像距离更短的,确实就是相关度更高的,且丝滑程度堪比“热刀切⻩油”,我无比自信地认为这在手机上也能有类似效果。


搜图过程演示


如果将 CLIP 封装成一个 app,就能让更多人用上这个更智能,也更符合直觉的工具了,甚至,直接用它接管手机相册。


  人人都怕相册隐私被偷窥  


开发一款 app 的过程有点枯燥,我更想和大家讲讲产品设计的“取舍”——我最终让它不联网运行,只在手机本地计算。


实际上,很多第三方相册提供的服务都是联网的,这样做有很多好处,app 得以压缩体积,安装包可以做到十几兆或者几十兆,对用户友好;还能在免费提供基础功能的同时,向有进阶需求的用户提供“内购解锁”选项……


但联网会多多少少让用户感觉他们的隐私不安全。我自己就是个“隐私洁癖”,注册账号时尽量用假名,不暴露自己的信息。


大数据盯着你呢丨Unsplash


当我和其他团队聊天,他们认为像我这类用户在国内只是少数,主动选择“离线”的 app 也只能吸引和服务一小部分受众。对此我非常不认同,如果能够保护隐私,谁愿意暴露信息给别人? 这一定不是小众用户的需求,大部分人不是不在乎隐私,而是没得选择,我希望市面上能有不暴露隐私的选择。


还有一点,如果 app 做成联网,它会在用户开启联网服务时自动弹窗。我讨厌一切弹窗,坚定地把它做成离线 app。


要把 CLIP 做成离线 app,并不是直接在手机上调用这个模型的 API 就可以了。因为存储格式不同,我用 Swift 语言把它重写了一遍。


做一个工具类 app,两三百兆的占用空间基本上是极限,所以我用的是精简后的 CLIP 模型。以后如果条件允许,我会尝试用 2.5G 的模型,能够同时支持 90 种语言的输入。


就这样一番捣鼓,大功告成。当用户打开后,app 会加载相册内容并构建索引,加载时间取决于手机处理器以及照片数量。根据我的测试,在我的 iPhone 12 mini 上,构建索引的速度大概是 2000 张 / 分钟,在最新的 iPhone 上,30000 张照片 3 分多钟就能构建完成。


接着,你就可以愉快地搜图了!例如这样搜索小猫:



这样搜索瓶子:



或者这样搜索云朵:



如果你想提升搜索效果,最好用有细节的描述,可以是颜色,可以是具体的某个物品,也可以是特色鲜明的时间。


你也可以凭“和女朋友牵手的夜晚”、“头上有朵花的狗”等等好玩的描述,找到目标照片。


至于搜索速度,你感受不到什么延迟。


  AI 工具之间在连接,人和 AI 也是  


也有一些朋友反馈搜“奥特曼”、“史努比”这些形象时,往往得不到想要的结果,因为 CLIP 未必学习到了这些专有名词,同时我选取的模型也是精简版。


图源:Tenor


你可以换个思路,搜索“身穿蓝色和红色相间皮套的人”,这句话把奥特曼换成了一个具体的描述。你搜“黑色耳朵的狗”,没准就能找到“史努比”。


如果模型足够强大,并且能够不断更新,你未来没准就能搜到你相册里的“悲伤⻘蛙”。


图源:Tenor


我了解到,很多大科技公司内部拿 CLIP 当服务器上数据库中的图片、文字检索工具,但如果想把它装到手机上,还是不够直接,手机不是电脑,两者之间差别很明显。


当然,我认为这次开发能够成功,如今手机软硬件的强大是前提之一。在 iOS 16 上,苹果就对 Core ML 的性能做了优化,让跑 CLIP 模型变得更容易了。


“这次开发能够成功,如今手机软硬件的强大是前提之一”丨Unsplash


加上最近一两年,iPhone 的性能也有不小的提升,特别是普通消费者感知不强的 AI 计算能力,这些都让 app 只在本地计算成为可能。


榨干 CLIP 能力的下一步,也许就是用文字来搜索视频。其实,视频搜索和图像搜索没有本质区别,视频就是图像的连续帧,可以通过抽帧来进行搜索。


不过,假如 1 个视频抽出 10 个关键帧,那么,100 个视频就有 1000 个关键帧。这样下来,搜索 100 个视频的结果,会比搜 100 个图片的结果慢 10 倍……


另外,按照关键帧来搜索视频,可能得到的结果并不代表视频的含义,比如“A 打了 B 一巴掌”,也许这个动作只有一两帧那么短,并且抽帧过程中没有被收录,那就相当是无效搜索。


赏巴掌名场面来了丨GIPHY


所以,如果要做视频方面的搜索,纯截取帧这个方法就是简单粗暴,换作我来做的话,会倾向于做帧之间连续性的语义理解。


我去年 12 月才开始接触 Swift 开发,用一个多月时间完成了 app 的开发、调试、上线,得到了很多人的关注,很有成就感。


最近,我又有了一个新想法,就是点开搜索结果的一张照片,然后可以上划用这张照片再做进一步搜索,有点像 Google 的“以图搜图”。


很多人会替我担心,说这种用户“刚需”app 迟早会被苹果整合进 iOS 里,像此前的抠图、 OCR 识别 app,最后苹果都亲自“下场”,做成了系统级功能。我觉得利用 CLIP 更智能地搜图,用不了多久苹果也会自己做。


虽然从目前来看,苹果官方还是会保持谨慎,因为多语言模型还有“种族歧视”之类的遗留问题,比如当人们搜索“黑猩猩”时可能会出来黑人照片等等。


总结来说,我认为这款 app 的成功离不开三个方面: 


  • 第一,市面上已经有不少 AI 工具,在掌握相关原理的同时,我还积极学了 Swift 语言。多种技术的混合,是它成型的第一步;

  • 第二是 iOS 16 的发布,还有这两年手机在 AI 方面的性能提升,为类似 CLIP 这样的模型在手机上运行带来了可能性;

  • 第三,大胆尝试才能验证可行性。在这之前,并没有人尝试在手机上跑,并证明它的实用性,我做到了。这有点像ChatGPT,它验证了大模型是可以疯狂“怼”到人类理想中可能的通用人工智能(AGI)的水平,但是从理论到最终实现,需要有人验证可行性,OpenAI 就是那个大胆投入的团队。


人骑在自行⻋上,平稳的向前运动出现了,这在今天的我们看来,并不稀奇。但在骑手和自行⻋没有发生互动之前,啥都没有发生。


当 CLIP 接上艺术生成器后,它就能画画了,AI 工具之间的互动,人和 AI 工具之间的互动,可能也正在酝酿出下一场向前运动。


故事的最后,当我再和女友聊到往事时,总能第一时间找到那些老照片:


开发者供图


我希望有更多人在这款 app 的帮助下,解决类似难题。只需要最朴实的语言,便能找到相册中那些珍贵时刻。


作者:碎瓜、洛丁

编辑:biu



一个征稿启事

这里是果壳“有极客”专栏

极客们讲述自己故事的地方


如果你,苦于市面没有心仪的工具来解决恼人的难题,一气之下自己做了一个;


如果你,悬梁刺股上百小时自学了新鲜技术点,顺便还总结了一套精彩教程;


如果你,偶然发现了一个小众爱好,然后迅速变成了“高玩”;


如果你,本想像整点儿硬核的,但最终华丽地失败,憋了一肚子话想说(求助也行)……


那就投到 [email protected] 吧!

人人都能做极客


更多阅读


本文来自果壳,未经授权不得转载.

如有需要请联系 [email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
新蝙蝠侠帕丁森和女友感情升温,入手530万美元好莱坞山豪宅,满满西班牙地中海风情,浪漫温暖~“两人激情,6000万人围观”,男子直播和女友亲密过程,一句话让人不寒而栗...五一节,一张照片刺痛全网!截肢、变卖家产、被盗猎者围殴,却捡垃圾30年,我突然看懂了他的坚持…C罗和女友被曝不和传闻,原因是C罗不满富婆女友膨胀,而且婆媳关系也出问题了?!贺岁档再无冯小刚活久见!纽约男子和女友甜蜜完后“工具”被她偷走“再自己倒入”!“这合法吗?如果她怀孕了怎么办?她怀孕的机率有多大?”首发 | 小米 13 Ultra 对战苹果华为 OPPO 等旗舰,爆肝 3000+ 张照片,谁是拍照之王?一个哲学硕士送外卖的夜晚 | 谷雨“和我睡,免房租!”悉尼华男房东打广告“以性换租”!索要照片三围选女房客?!华人圈惊呆了!吴X凡要和女友回加拿大了??网友笑疯:淦出来也不说一声!能牵手的时候,请别肩并肩;能相爱的时候,请别说分别不谈中医,不谈科学,谈谈对科学的理解还在分享网易云链接?我把音乐播放器P进照片里,朋友圈都爆了!“看到这张照片妻子立刻申请了离婚”!上万网友实时追结局,鼠标都快按烂了首发 | 小米 13 Ultra 影像详解,3000+ 张照片,深度对比苹果华为 OPPO 等旗舰和女友、同学凑钱创业,三年赚近20亿:准备上市一日一诗:我要清风提半壶明月 / 一篮花香 / 在思念开始肆意生长的夜晚 | 杨孟军:栀子小镇40个人们在生活中捕捉到的最奇怪的场景6年前被清华录取的寒门状元和女友聊天曝光,网友怒赞“智性恋”天花板!亚裔都长一样?男子和女友购物时遭错误逮捕,并被反复关押澳华人教师偷拍女生裙底!警方查出300段视频,90张照片,最高可判5年是辉瑞坏,还是中国人傻?崩溃!交往半年 还为爱出国结果发现“帅气男友是女人”还有小孩和女友锋菲机场重现世纪牵手 粉碎分手谣言!锋菲才牵手 李亚鹏与妻十指紧扣日本311大地震100张照片记录,未敢忘记的一刻!C罗和女友被曝不和传闻,原因是C罗不满富婆女友"膨胀",而且婆媳关系也出问题了?!揪心!华裔知名歌唱家14岁儿子失踪数日!曾和女友吵架,父母挨家挨户敲门寻子!布鲁克林华男和女友合伙开按摩店,怀疑女友出轨后将其割喉...把音乐直接放在照片里!这样发朋友圈太赞了!生活|这位日本爸爸也太会拍了吧!3年20000张照片,每张都美成宫崎骏C罗和女友情变?!传不满乔治娜整天只会花钱,对他还高高在上?到底是什么粉色魔力让我狂拍10000张照片?这张照片将成为“世界历史上最著名的照片”!和女友模仿网红“健身”,差点打起来....飞行看世界(3):GRR - ORD
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。