Redian新闻
>
大模型+智能眼镜,让失明人士也能无障碍阅读

大模型+智能眼镜,让失明人士也能无障碍阅读

科技

夕小瑶科技说 原创
作者 | 墨墨

引言:大模型+智能眼镜,让失明人士也能无障碍阅读

你有没有想过有一天你闭上眼睛也可以进行流畅阅读呢?

不是民科,也不是量子波动速读!借助大语言模型和智能眼镜,来自维也纳工业大学、罗马第一大学和明尼苏达大学的研究者,提出了一种无需视力也能阅读的辅助系统,帮助视力受损人群进行无障碍阅读。

视力障碍是一种常见的视觉健康问题,严重影响患者的生活质量和日常活动能力。视力障碍在不同年龄段人群中普遍存在,其中老年人是主要的受影响群体。调研数据显示,超过40岁的人群中,大约有50%以上的人有不同程度的视力障碍问题。

2010年,全球50岁及以上患有视力障碍的成年人数量估计约为1.86亿。仅在美国,40 岁及以上成年人中不可矫正视力问题的患病率就超过 300 万,预计到 2050 年将增加到 700 万。包括使用视力矫正镜片的人群在内,视力受损人群的日常生活往往依赖于他人的帮助。而现代生活中的信息密度越来越高,加剧了这一问题,视障人士更难以在海量信息中寻找到自己需要的细节信息(例如阅读药物说明书以了解正确剂量)。

那么研究人员将如何利用大语言模型和智能眼镜来解决这一问题呢?

下面让我们来看看这一研究的具体内容。

论文标题:
TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model

论文链接:
https://arxiv.org/pdf/2404.09254

系统设计:基于LLM的智能眼镜

作者认为,使用可穿戴设备是辅助视障人士的基础。文章中使用 Aria 智能眼镜为基础设计了一种新颖的文本分析助手。该系统使用OCR和LLM分析用户数据,并根据上下文提供指导。提出的框架如下图所示。

围绕视障人士在餐厅点餐为例,作者对系统做出了如下设计:

(1) 图像获取

首先,实验让用户佩戴Aria智能眼镜,获取以用户视角为中心的视频资料。

为了精确定位包含菜单信息的Aria录像帧,作者使用了当前sota的逐帧对象检测算法DETIC。因此算法可以识别菜单在佩戴者视野内可见的帧。为了减轻相机镜头可能带来的失真与畸变,算法会选择菜单位于图片最中心的帧。下图中,左图是使用Aria录制的视频帧(菜单位于最中心的图被选中),右图是佩戴Aria设备的用户正在与菜单卡进行交互。

(2) 文本信息提取

获得菜单图像后,作者使用开源的OCR算法EasyOCR (https://github.com/JaidedAI/EasyOCR) 提取菜单中的文本。值得注意的是,此步骤需要确保不相关的文本被隔离开。随后,论文使用GPT4对这些文本做了进一步的处理,以构建文字版本的菜单信息。在这个步骤,LLM提高了数字化过程的速度和准确性,实现了从现实到数字领域的无缝过度。

(3) 用户界面

提取出菜单文本信息后,接下来用户就可以与眼镜进行交互了。出于演示目的,论文构建了一个简单的基于Gradio的聊天应用程序。作者提到,这个系统将在后续被改进为语音控制,让视障人士能够更方便的与智能眼镜进行交互。

这个聊天应用程序是使用GPT4开发的,并通过检索增强生成(RAG)的方法进行了增强。该方法分为两个步骤:首先,根据用户请求,从已知信息(从图像中提取的菜单,用户的口味偏好等)中检索到相关文本片段。随后,将这些相关文本片段和用户请求一起输入GPT4,以获取个性化的大模型响应。因此,系统可以轻松的处理诸如“有什么推荐菜品”一类的问题。

实验:获取真实场景下用户的评价

设计了这套基于LLM的智能眼镜交互系统后,作者希望获取来自真实场景的用户评价,确认这套系统可以为视障人士带来帮助。

还是以辅助点餐场景为例,作者设置了包括四种不同语言的菜单,包含英语、意大利语、波兰语和希腊语,来确保系统能够克服可能存在的语言障碍。在这项研究中,四名年龄在 25 岁到 35 岁之间的视力正常的参与者使用 Aria 智能眼镜与菜单进行交互。每个参与者的母语不同,并提供了他们不懂的语言的菜单。在所有场景下,系统都可以高精度的还原菜单项目(准确率96.77%)。同时,系统允许用户根据自身需求定制建议,例如事先将口味偏好、食物过敏信息录入系统。最后,每个参与者都被要求对他们与系统的交互进行评分,评分范围为 1 到 5,系统取得的平均评分为 4.87。

总结

这项研究提出了一个基于大语言模型的智能眼镜阅读助手,帮助视力受损人群阅读文本、互动和获取信息,并以此提高其生活独立性和舒适度。

研究通过使用智能眼镜中的嵌入式RGB摄像头,获取使用者视角的影像视频,再使用对象检测技术(Object Detection)和光学字符识别(OCR)对获取的视频进行处理。然后,通过大语言模型与用户进行交互,处理给定的用户请求。

最后,在真实生活场景中,研究者获取了所有参与者满意的评价,验证了系统可以作为主动辅助生活(Active Assisted Living,AAL)的一种解决方案。

研究旨在帮助视力受损人群自主生活,更少的依赖外界,从而给视障人士提供更高的生活质量。期待在未来,视力障碍将不再成为人们生活与社交的阻碍。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
开源大模型火了!(附99个大模型微调模型/数据/工具)!这副差点失败的智能眼镜,怎么就成了爆款?清华系创业新势力!把大模型塞进AR眼镜,高铁上能用10块大屏办公选对眼镜,颜值翻倍!大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事“不明人士”开车直闯小学,加州警方紧急追捕,打开车门一看惊呆了弹力带和小凳子个人感慨之113 富裕的中国人OpenAI 官宣旗舰模型 GPT-4o,完全免费、无障碍与人交谈!奥特曼:这是我们最好的模型日本小林制药保健品致26人住院,国内电商平台紧急下架;马斯克Neuralink让失明猴子重见光明 | 环球科学要闻给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力《抬头仰望夜黑的天》&《谁懂女人花》美国档案--手写字母T和YMeta智能眼镜用上多模态Llama 3!国内AR眼镜机会来了美国药价惊人!常用药膏比国外贵数十倍,业内人士也无奈飞来横祸!汽车行驶在I-5 公路上遭不明人士扔钢梁,挡风玻璃被刺穿微信上线「分期」付款功能;搭载 ChatGPT-4o 的智能眼镜出现;「被美女包围了」手机版将上线 | 极客早知道全球首款集成 GPT-4o 的智能眼镜来了,这会是下一个爆款吗?差点「扑街」的智能眼镜,现在竟成了爆款信息无障碍,光凭责任心就够了吗取代 iPhone 的可能是耳机、项链、眼镜,「AI手机」不是正确答案LeCun转发,AI让失语者重新说话!纽约大学发布全新「神经-语音」解码器|Nature子刊亲测有效在图书馆领到日食眼镜!多伦多哪里可以领免费的眼镜?讲成吉思汗后裔的故事(中)这个科技财报季,人工智能无处不在今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理薅羊毛:17欧就能配副眼镜,还要什么自行车拉布拉多调皮咬走眼镜,主人吓到跪下,汪:为我臣服吧人类特斯拉 FSD 进入中国已扫清关键障碍;小红书内测自研大模型;曹操出行提交赴港 IPO 申请 | 极客早知道今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意无障碍化身小黑子只需6枚传感器,来自清华轻量化动捕新成果|SIGGRAPH 2024AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型黑心眼镜容易致盲!加拿大天文专家:日食眼镜是否合规要看这串码心声公益:谁来照顾照顾者:中国精神障碍人士照顾者现况及需求调查报告(2024)买房也能无理由退货!这一省会城市予以支持!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。