首页 > 信息互联 > 基于深度学习的图片中文本推理问答模型
基于深度学习的图片中文本推理问答模型
作品介绍
对于涉及到图片中的文本的问题给出回答,在计算机视觉的日常应用中较为常见,例如视觉障碍用户向智能穿戴设备询问周围环境中的文本信息等。 本文针对于该任务的TextVQA数据集,选择了现有的基准模型M4C作为框架,进行了优化,包括使用新的OCR模型,引入了拼写更正、词表扩充等机制,并在多数据集上联合训练。 最终在验证集上模型准确率超出了M4C基准5个百分点,达到了比较好的效果。
作品图片
作品视频