用户名:
密码
注册
登录
首页
结构设计
信息互联
理论探究
人文求索
过往经典
社会声誉
首页
>
信息互联
>
基于深度学习的图片中文本推理问答模型
基于深度学习的图片中文本推理问答模型
作品介绍
对于涉及到图片中的文本的问题给出回答,在计算机视觉的日常应用中较为常见,例如视觉障碍用户向智能穿戴设备询问周围环境中的文本信息等。 本文针对于该任务的TextVQA数据集,选择了现有的基准模型M4C作为框架,进行了优化,包括使用新的OCR模型,引入了拼写更正、词表扩充等机制,并在多数据集上联合训练。 最终在验证集上模型准确率超出了M4C基准5个百分点,达到了比较好的效果。
作品图片
作品视频