关注文本阅读顺序,蚂蚁集团上海交通大学

机器之心专栏

作者:蚂蚁集团-大安全-机器智能

来自蚂蚁集团-大安全-机器智能和上海交通大学的研究者提出了一种多模态文档理解新模型XYLayoutLM。

近年来,多模态文档理解在各类场景得到了广泛的应用。它要求我们结合图像,文本和布局信息对扫描件或者pdf文件进行理解。在常见的表单理解的任务中,多模态数据如图1所示。

图1:多模态文档理解数据示例(来自XFUN数据集)

除此之外,多模态的模型还被应用于文档自动处理,文本关系提取和网页分类定性等等一系列应用。然而,需要强调的是,这个问题并不简单。这是因为表单的结构复杂多变,布局信息难以提取。

目前学术界中,针对多模态文档理解的模型方案,通常都需要先经过对图像进行ocr扫描,解析出图中的文本和文本框位置,再将得到的文本和文本框坐标,按照ocr解析出的默认顺序,将文本框及其对应的内容输入给模型。然而,和普通的文档图像不同,诸如票据、表单、卡证等数据,其文本位置通常无法按照传统的“从左至右“或者”从上到下“进行简单排序,而是存在丰富的层次结构。一个合理的文本框阅读顺序(properreadingorder),可以帮助模型更好得理解图像讯息。

另一个局限性是许多现有的模型使用了长度固定的位置编码(positionembeddings),这会导致模型在训练完成后无法处理更长的输入序列。当然我们可以强行使用插值算法补全缺失的部分,但还是会影响文档理解的结果。

针对上述两个缺陷,来自蚂蚁集团机器智能团队和上海交通大学的研究者做了如下两点改进,并提出了多模态文档理解模型XYLayoutLM:

1.我们提出一个创新的AugmentedXYCut算法作为augmentation策略来对文本框进行排序生成合理的阅读顺序,从而改进模型性能。

2.基于空洞卷积的思想,我们提出了可以处理变长输入序列的空洞条件位置编码DCPE生成模块。

XYLayoutLM模型通过获得合理的文本阅读顺序和提出空洞条件位置编码,取得了在FUNSD和XFUN文档理解数据集上非常具有竞争力的结果。该论文已被CVPR录用。

论文



转载请注明地址:http://www.wawayuz.com/nwfz/539208.html
  • 上一篇文章:
  • 下一篇文章: