作为产品经理,总是会在身边发现一些有趣的产品。最近有一个朋友推荐了我一个小程序,通过咳嗽声来识别自己是否得了新冠。
▲咳嗽声音识别小程序
01 咳嗽小程序的判别原理是什么?
在日常生活里使用和这个功能场景最像的就是我们在音乐软件里的听歌识曲了,而这个相应的技术原理也是采用类似。
在任何时候听到一首正在播放的音乐时,都可以拿出手机,打开听歌识曲功能进行识别,仅仅几秒钟就可以得到识别结果。
听歌识曲背后所使用的技术称之为音频指纹技术。如下是我翻查到网友在各类论文里找到的人类识别音乐的原理,人类大脑将其音乐特点(旋律、音色)进行抽象记忆,下次再听到这样的歌曲,通过对比特点相似度,就能知道这个歌曲是什么呢,方便在脑海里寻找曾经听过的记忆。
▲人类识别歌曲的步骤
而对于计算机来说,我们将其音频拆分为模拟数字信号,并且变成0、1二进制表达。
▲音频信息转化为数字信号
于是咳嗽小程序因为同样是录入咳嗽音频,所以会经过和听歌识曲一样的步骤,技术上分为4个步骤。
- 使用音频指纹进行相似度检索,得到新冠咳嗽声纹的匹配结果
因为每次匹配的结果用户都会进行勾选正确与否,通过不断大数据的训练,听歌识曲的匹配度会越来越准,说白了就是为每首歌找到与之对应的匹配音纹,就可以迅速定位了。
而这次这款咳嗽小程序的实现原理,就是通过对新冠患者们的声纹进行匹配,达到一定匹配度的,就输出为新冠患者为阳性的结果。通过前面的技术介绍,你可以发现在理论技术上是可以匹配成功的,简单查询了医学知识,也发现咳嗽声音可以作为简单判断。因此产品是可以在技术上有一定依据的。但是识别准确度,还是要取决于小程序开发者们自己所拥有的咳嗽声纹库了,要是小程序刚刚上线,纯粹只是为了新冠患者演示这样的趣味玩法,那么刚开始的用户自然结果准确率就很低。但随着录入咳嗽声音的人越来越多了,同时还对其结果打上了标签,有了数据、和训练,那么准确度会提高。
同时结果的展示准确度,也和产品经理在产品设计时候,与结果的匹配值要求大小有关。比如有的产品匹配度为了增加趣味性,会在匹配度为50%也展示为阳性。当然有的产品为了严谨的态度,要求匹配度达到90%才展示阳性,那么这样的结果势必对用户的录入声音质量和环境就提高了有要求,增加了用户的使用门槛。如下是用户操作门槛与声音匹配度规则的关系。
对于产品经理,我们往往在开始产品设计前一定会找竞品对比相似的功能,抽象出竞品功能之间相同的设计点,比如我调研了几款咳嗽小程序,都有下面的特点。录入音频-长按识别3秒-识别检测-识别结果手动标签确认-检测完成针对结果说明页面都给出相似的文案标识,比如非医学院检测,仅代表参考建议等这类。在咳嗽声音输入页面,都会有长按提示、识别中、识别结果3个状态。
而以上仅仅是前端 产品设计,如果再映射到后台设计,可以发现还会包含用户管理(管理小程序账户)、音频管理、系统设置、广告配置等后台功能。这样包含前后端的小程序,才是一个完整可运营的产品。咳嗽的声音识别已经有了开源的技术方案,所以现在市面上这类赶热点的小程序特别多,毕竟小程序的开发非常简单,如果不考虑后台设计,开发者可以快速把前端搭建起来。来源 | Kevin改变世界的点滴(ID:Kevingbsjddd)
作者 |Kevin改变世界的点滴;编辑 | 亚亚
内容仅代表作者独立观点,不代表早读课立场