基于深度学习的图片中文本推理问答模型

注册登录

首页

结构设计

信息互联

理论探究

人文求索

过往经典

社会声誉

首页 > 信息互联 > 基于深度学习的图片中文本推理问答模型

基于深度学习的图片中文本推理问答模型

作品介绍

对于涉及到图片中的文本的问题给出回答，在计算机视觉的日常应用中较为常见，例如视觉障碍用户向智能穿戴设备询问周围环境中的文本信息等。本文针对于该任务的TextVQA数据集，选择了现有的基准模型M4C作为框架，进行了优化，包括使用新的OCR模型，引入了拼写更正、词表扩充等机制，并在多数据集上联合训练。最终在验证集上模型准确率超出了M4C基准5个百分点，达到了比较好的效果。

作品图片

作品视频