Redian新闻
>
大模型+智能眼镜,让失明人士也能无障碍阅读

大模型+智能眼镜,让失明人士也能无障碍阅读

科技

夕小瑶科技说 原创
作者 | 墨墨

引言:大模型+智能眼镜,让失明人士也能无障碍阅读

你有没有想过有一天你闭上眼睛也可以进行流畅阅读呢?

不是民科,也不是量子波动速读!借助大语言模型和智能眼镜,来自维也纳工业大学、罗马第一大学和明尼苏达大学的研究者,提出了一种无需视力也能阅读的辅助系统,帮助视力受损人群进行无障碍阅读。

视力障碍是一种常见的视觉健康问题,严重影响患者的生活质量和日常活动能力。视力障碍在不同年龄段人群中普遍存在,其中老年人是主要的受影响群体。调研数据显示,超过40岁的人群中,大约有50%以上的人有不同程度的视力障碍问题。

2010年,全球50岁及以上患有视力障碍的成年人数量估计约为1.86亿。仅在美国,40 岁及以上成年人中不可矫正视力问题的患病率就超过 300 万,预计到 2050 年将增加到 700 万。包括使用视力矫正镜片的人群在内,视力受损人群的日常生活往往依赖于他人的帮助。而现代生活中的信息密度越来越高,加剧了这一问题,视障人士更难以在海量信息中寻找到自己需要的细节信息(例如阅读药物说明书以了解正确剂量)。

那么研究人员将如何利用大语言模型和智能眼镜来解决这一问题呢?

下面让我们来看看这一研究的具体内容。

论文标题:
TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model

论文链接:
https://arxiv.org/pdf/2404.09254

系统设计:基于LLM的智能眼镜

作者认为,使用可穿戴设备是辅助视障人士的基础。文章中使用 Aria 智能眼镜为基础设计了一种新颖的文本分析助手。该系统使用OCR和LLM分析用户数据,并根据上下文提供指导。提出的框架如下图所示。

围绕视障人士在餐厅点餐为例,作者对系统做出了如下设计:

(1) 图像获取

首先,实验让用户佩戴Aria智能眼镜,获取以用户视角为中心的视频资料。

为了精确定位包含菜单信息的Aria录像帧,作者使用了当前sota的逐帧对象检测算法DETIC。因此算法可以识别菜单在佩戴者视野内可见的帧。为了减轻相机镜头可能带来的失真与畸变,算法会选择菜单位于图片最中心的帧。下图中,左图是使用Aria录制的视频帧(菜单位于最中心的图被选中),右图是佩戴Aria设备的用户正在与菜单卡进行交互。

(2) 文本信息提取

获得菜单图像后,作者使用开源的OCR算法EasyOCR (https://github.com/JaidedAI/EasyOCR) 提取菜单中的文本。值得注意的是,此步骤需要确保不相关的文本被隔离开。随后,论文使用GPT4对这些文本做了进一步的处理,以构建文字版本的菜单信息。在这个步骤,LLM提高了数字化过程的速度和准确性,实现了从现实到数字领域的无缝过度。

(3) 用户界面

提取出菜单文本信息后,接下来用户就可以与眼镜进行交互了。出于演示目的,论文构建了一个简单的基于Gradio的聊天应用程序。作者提到,这个系统将在后续被改进为语音控制,让视障人士能够更方便的与智能眼镜进行交互。

这个聊天应用程序是使用GPT4开发的,并通过检索增强生成(RAG)的方法进行了增强。该方法分为两个步骤:首先,根据用户请求,从已知信息(从图像中提取的菜单,用户的口味偏好等)中检索到相关文本片段。随后,将这些相关文本片段和用户请求一起输入GPT4,以获取个性化的大模型响应。因此,系统可以轻松的处理诸如“有什么推荐菜品”一类的问题。

实验:获取真实场景下用户的评价

设计了这套基于LLM的智能眼镜交互系统后,作者希望获取来自真实场景的用户评价,确认这套系统可以为视障人士带来帮助。

还是以辅助点餐场景为例,作者设置了包括四种不同语言的菜单,包含英语、意大利语、波兰语和希腊语,来确保系统能够克服可能存在的语言障碍。在这项研究中,四名年龄在 25 岁到 35 岁之间的视力正常的参与者使用 Aria 智能眼镜与菜单进行交互。每个参与者的母语不同,并提供了他们不懂的语言的菜单。在所有场景下,系统都可以高精度的还原菜单项目(准确率96.77%)。同时,系统允许用户根据自身需求定制建议,例如事先将口味偏好、食物过敏信息录入系统。最后,每个参与者都被要求对他们与系统的交互进行评分,评分范围为 1 到 5,系统取得的平均评分为 4.87。

总结

这项研究提出了一个基于大语言模型的智能眼镜阅读助手,帮助视力受损人群阅读文本、互动和获取信息,并以此提高其生活独立性和舒适度。

研究通过使用智能眼镜中的嵌入式RGB摄像头,获取使用者视角的影像视频,再使用对象检测技术(Object Detection)和光学字符识别(OCR)对获取的视频进行处理。然后,通过大语言模型与用户进行交互,处理给定的用户请求。

最后,在真实生活场景中,研究者获取了所有参与者满意的评价,验证了系统可以作为主动辅助生活(Active Assisted Living,AAL)的一种解决方案。

研究旨在帮助视力受损人群自主生活,更少的依赖外界,从而给视障人士提供更高的生活质量。期待在未来,视力障碍将不再成为人们生活与社交的阻碍。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 2024给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力取代 iPhone 的可能是耳机、项链、眼镜,「AI手机」不是正确答案AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法“不明人士”开车直闯小学,加州警方紧急追捕,打开车门一看惊呆了美国档案--手写字母T和Y选对眼镜,颜值翻倍!这个科技财报季,人工智能无处不在清华系创业新势力!把大模型塞进AR眼镜,高铁上能用10块大屏办公讲成吉思汗后裔的故事(中)AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型360安全大模型3.0来了!垂直大模型,他们这么训开源大模型火了!(附99个大模型微调模型/数据/工具)!今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意美国药价惊人!常用药膏比国外贵数十倍,业内人士也无奈这副差点失败的智能眼镜,怎么就成了爆款?拉布拉多调皮咬走眼镜,主人吓到跪下,汪:为我臣服吧人类日本小林制药保健品致26人住院,国内电商平台紧急下架;马斯克Neuralink让失明猴子重见光明 | 环球科学要闻破案了,原来这些表现就是阅读障碍!差点「扑街」的智能眼镜,现在竟成了爆款今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象LeCun转发,AI让失语者重新说话!纽约大学发布全新「神经-语音」解码器|Nature子刊大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事飞来横祸!汽车行驶在I-5 公路上遭不明人士扔钢梁,挡风玻璃被刺穿个人感慨之113 富裕的中国人特斯拉 FSD 进入中国已扫清关键障碍;小红书内测自研大模型;曹操出行提交赴港 IPO 申请 | 极客早知道薅羊毛:17欧就能配副眼镜,还要什么自行车OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型《抬头仰望夜黑的天》&《谁懂女人花》Meta智能眼镜用上多模态Llama 3!国内AR眼镜机会来了北京内推 | 微软亚洲研究院WWE大模型团队招聘大模型研究实习生弹力带和小凳子亲测有效在图书馆领到日食眼镜!多伦多哪里可以领免费的眼镜?黑心眼镜容易致盲!加拿大天文专家:日食眼镜是否合规要看这串码
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。