OpenAI等推出AI语音翻译;百度发布首个量子领域大模型;微软或将用核电供能AI数据中心丨AIGC大事日报
近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,通过智能图像处理、智能文字识别等AI技术开展统一编码,并于近期发布了业内首个古彝文基础编码数据库(简称“数据库”)。
在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。在收集语料收集的过程中,研究人员使用了合合信息旗下扫描全能王“智能高清滤镜”功能,高效解决古彝文识别的版式检测、图像处理和文字识别等难题。对于污渍、残破的彝文古籍,收集者只需通过“智能高清滤镜”轻轻一扫,即可得到一张清晰、平整的图片。
通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章