Stockmark Tech Blog

自然言語処理テクノロジーで社会を進化させる ストックマークのテックブログです。

図表を含む文書を解読するためのAI、レイアウト解析について

はじめに

ストックマークResearcherの會田です。普段はマルチモーダルLLMや文書画像処理の研究開発に従事しています。

LLMの登場により、さまざまなデータソースを活用したチャットアプリケーションが急速に増えています。一方、企業の社内文書はWord, pptx, pdfなど多様かつ画像や文字が入り乱れているため、単純なデータ変換ではLLMによる実用的な検索、回答生成に限界があります。そこで文書の構造化技術が重要になります。このような構造化技術はAIやルールベースを組み合わせて実現しますが、この記事ではそのコア技術であるレイアウト解析について解説します。

ストックマークのRAG検証プラットフォームSAT(Stockmark A Technology)では、独自のレイアウト解析技術を搭載し、図表を含む非構造化データの整理を可能にしています。

sat.stockmark.co.jp

以前RAG文脈でレイアウト解析について発表した資料にも近い内容を記載しているので、興味がある方はこちらもご覧ください。

speakerdeck.com

このブログで話すこと

  • なぜレイアウト解析が必要か?
  • レイアウト解析の仕組み
  • 代表的なレイアウト解析モデル、データセットについて
  • ストックマークでのレイアウト解析

話さないこと

  • TransformerやCNNの仕組み、基本
  • 細かい実装について

なぜレイアウト解析が必要か

こんな感じのパワポを作ったことはありますか?

図表込みのスライド

ここから単純なツールでテキストを抜き出すと、次のようになります

一般的に空を眺めると、太陽と月は同じくらいのサイズに見えます。 太陽と月 1 実際のサイズ 太陽 月 種類 見た目 サイズ 太陽 いい感じの丸 地球より大きい 月 いい感じの丸 地球より小さい つまり、太陽と月は見かけに反してサイズが大きく異なるのです。

なんだかノイジーでわかりにくいですね。RAGの検索やLLMへの入力において、精度低下の原因になります。

レイアウト解析にかけると、資料の要素を自動で検出、分類します。

OSSのレイアウト解析の実行結果

例えば、この結果からテキストと見出しだけを抽出して、markdownにすると見やすくなります(言語モデルである、LLMが扱いやすい形になります)。

## 太陽と月 
一般的に空を眺めると、太陽と月は同じくらいのサイズに見えます。 
つまり、太陽と月は見かけに反してサイズが大きく異なるのです。 

図表の領域も検出できるので、その部分だけ切り出してマルチモーダルLLMに入力することで、VQAやキャプショニングにも繋げることができます。

分かりやすい例としてテキストのみをmarkdown化しましたが、ストックマークのSATではレイアウト解析の結果を使ってRAGを高精度化するためのさまざまな工夫を盛り込んでいます。

レイアウト解析の仕組み

本記事におけるレイアウト解析は、物体検出という技術がベースになっています。

物体検出は、主に画像処理の分野でよく使われる技術で、一般的な写真、自然画像から、人やモノの位置を検出する技術全般を指します。例えば監視カメラ、自動運転、ひび割れ検知などの分野で実際に活躍しています。

物体検出の例 (出典 : You Only Look Once: Unified, Real-Time Object Detection, https://arxiv.org/pdf/1506.02640 )

PDFやパワーポイントなどの文書は、写真とは少し違いますが、基本的に長方形の領域を持ち、ピクセル値で表現できるため、画像として扱うことができます。

通常の物体検出では写真に映る人や物の位置情報のデータを利用して学習しますが、レイアウトについても図、表、テキスト等の位置情報と、文書全体の画像があれば、殆ど同じ仕組みで学習することができます。

物体検出の構成要素

物体検出の構成要素は、(AI全般同様)大きく分けてモデルと学習データの2つに分類できます。モデルに注目すると、最近の物体検出は「入力 → 特徴抽出器 → 検出器 → 出力(物体の位置)」という処理フローを持ち、目的や要件によって特徴抽出器や検出器の組み合わせが変わります。

また、物体検出はカメラなどリアルタイム性が求められる場面が多いため、計算コストを抑えつつ高い精度を実現できる軽量なアーキテクチャが求められます。

レイアウト解析においても、文書画像を解析するための専用の学習データセットや、特徴抽出器、検出器が開発されています。次の章で代表的なものを紹介します。

レイアウト解析のモデル、データセット

データセット

主要なレイアウト解析の公開データセットをまとめました。環境さえ整えばこれらのデータを使って自前のモデルを学習できます。ドキュメントは写真と違い何らかのツールで作成されることが多いので、機械的に生成されたデータも多いです。

PubLayNet

https://arxiv.org/abs/1908.07836

  • 構築方法: PubMedのPDFとXMLを自動で照合し、レイアウト要素(テキスト、図表など)を抽出して機械的に生成。
  • データ: 約36万枚のドキュメント画像
  • クラス定義: 5種類(テキスト、タイトル、リスト、図、表など)。
  • 特徴: 自動生成により大規模なデータセットを実現し、科学論文のレイアウト解析に特化

DocBank

https://arxiv.org/abs/2006.01038

  • 構築方法: arXivのLaTeXソースを基にルールベースの自動アノテーション。
  • データ: 約50万枚のドキュメント画像
  • クラス定義: 12種類(Abstract、Author、Caption、Equation、Figure、Footerなど)
  • 特徴: テキストと画像を合わせたマルチモーダル対応、多様な科学分野の文書

DocLayNet

https://arxiv.org/abs/2206.01062

  • 構築方法: 専門家により手動でアノテーション。
  • データ: 約8万枚のドキュメント画像
  • クラス定義: 11種類(例:ヘッダー、フッター、タイトルなど)。
  • 特徴: 手動アノテーションにより高い多様性、頑健性が担保されている。

SciPostLayout

https://arxiv.org/abs/2407.19787

  • 構築方法: 専門家による手動アノテーション。
  • データ: 7,855枚の科学ポスター画像
  • クラス定義: 9種類(タイトル、著者情報、セクション、テキストなど)。
  • 特徴: 科学ポスター特有の多様で複雑なレイアウトをカバー。レイアウト解析と生成の両方に利用可能。

モデル

写真などの画像とは特徴が異なることから、様々なドキュメント特化のモデルが提案されています。

DiT : Document Image Transformer

https://arxiv.org/abs/2203.02378

最近のドキュメント特化の画像モデルの元祖的な存在です。BERTに似たVision TransformerのモデルBEiTをベースに、大量のドキュメント画像で事前学習したエンコーダモデルで、役割としては特徴抽出器に相当します。Cascade R-CNNなどの検出器と組み合わせることで高精度なレイアウト解析が可能になります。

LayoutLMv3

https://arxiv.org/abs/2204.08387

画像とテキストのマルチモーダルな入力が可能なモデルです。DiTの派生モデル①で、特徴抽出器に相当します。レイアウト解析でDiTの性能を上回りながら、テキスト系の情報抽出タスクも高精度でこなすこともできる汎用的なモデルです。最近ではLLMと直接接続してドキュメント特化のLLMを構築する手法も多数提案されています。

VGT : Vision Grid Transformer

https://arxiv.org/abs/2308.14978

画像とテキストのマルチモーダルな入力が可能で、DiT派生の特徴抽出器②です。ドキュメント画像中のテキスト情報を画像に近い形に変換することで、レイアウト解析などの画像タスクに特化し、一部データセットで最高性能を達成しています。

RoDLA

https://arxiv.org/abs/2403.14442

ドキュメントに特化した検出器で、ベースは物体検出に特化したTransformerモデルのDETRです。TransformerのAttention機構に改良を加え、ドキュメント画像特有のノイズに強い検出器を提案しています。

DocLayout-YOLO

https://arxiv.org/abs/2410.12628

物体検出で有名なYOLOをレイアウト解析に特化させたモデルです。アーキテクチャをドキュメント画像に特化するために改善しつつ、大量の合成レイアウトデータで学習することで、軽量ながら高精度を達成しています。

ストックマークの取り組み紹介

ストックマークでは上記のような公開データセットに加え、日本のビジネス文書に特化した独自のレイアウト解析データセットを構築しています。日本語のレポート、マニュアル、スライドなどにフォーカスし、モデルを学習しました。この工夫により、図表や脚注が複雑なレイアウトにおいては、他社の文書解析APIよりも高い性能を確認しています。例えば以下のような例において、他社APIではグラフ中のテキストと通常のテキストの区別が不安定ですが、ストックマークのモデルでは図の領域を認識しつつ、それに紐づくcaptionも正しく認識しています。

画像出典:https://www.jisf.or.jp/

まとめ

レイアウト解析技術のざっくりとした仕組み、代表的な手法についてお話ししました。

ハードウェア搭載される場面が少ないことから、物体検出モデルとしては重めのTransformer系のモデルが多く採用されているのが特徴的ですね。要件で高速に大量のファイルを解析したい場合は、YOLO, RT-DETRなど物体検出で有名な軽量モデルを使うと面白そうです。

ストックマークではレイアウト解析だけではなく様々なAIモデルを使っており、これらを活かしたプロダクトを成長させてくれる仲間を募集しています。 カジュアル面談からお気軽にご連絡ください。