MLism

YomiToku-Pro

YomiToku-Pro

非構造な文書画像やPDFを、業務で扱える構造化データへ変換する日本語特化の文書解析AIエンジン。オンプレミス・自社クラウドで完結します。


YomiToku-Proとは

YomiToku-Proは、OCRに加えて文書レイアウト・表構造・読み順を解析し、文書の情報構造を復元するPythonライブラリです。既存の業務システム、RAG基盤、文書アーカイブへ組み込めます。

オンプレミスおよびクラウド環境で実行できます。公開版YomiTokuは検証用途としてGitHubで試用でき、商用利用や高度な機能はYomiToku-Proのライセンスで提供します。

公開版YomiToku

検証用途では、GitHubで公開されているYomiTokuを試用できます。

GitHubを見る

Overview

文書を、業務で使える構造化データへ

OCRだけでなく、レイアウト・表・読み順までまとめて解析します。

入力
紙書類PDF帳票画像手書き文書
YomiToku-Pro

Document Understanding Engine

1文字検出・OCR
2レイアウト解析
3表構造解析
4読み順推定

出力

JSON

構造を保持した機械処理用データ

CSV

表データの集計・DB投入

Markdown

RAG・ナレッジ化

HTML

可視化・レビュー

Searchable PDF

検索可能なアーカイブ


選ばれる理由

外部OCRサービスに文書データを送信しにくい業務でも、自社環境内で解析を完結できます。日本語文書に必要な構造理解と、実運用に耐える処理性能を両立します。

データを外に出さない

オンプレミスまたは自社クラウド内で処理が完結。機密文書や個人情報を含む文書にも導入しやすい構成です。

日本語文書に最適化

縦書き・横書き混在、右綴じ文書、複雑な帳票、手書き文字など、日本語文書特有の課題に対応します。

構造まで高精度に解析

OCR、レイアウト解析、表構造解析、読み順推定を統合し、文書全体を後工程で扱いやすい形に変換します。

システムへ組み込みやすい

Python API、CLI、REST API、Dockerに対応。検証から本番運用まで同じエンジンを利用できます。


解析結果の例

解析結果の例

AI-OCRとレイアウト解析の結果を文書上で確認できます。

AI-OCRによる文書画像の読み取り結果
AI-OCR
レイアウト解析による文書構造の解析結果
レイアウト解析

対応できる解析

導入検討で特に重要な機能を中心に整理しています。OCRだけでなく、文書を業務データとして扱うための構造化まで支援します。

向き補正・OCR

回転した文書を補正し、活字・手書き・縦書きなどを読み取ります。

レイアウト分類

見出し、段落、図、写真、グラフ、QR/バーコード、表などの領域を分類します。

読み順推定

段組みや縦書きが混在する文書でも、人が読む順序に沿って構造化します。

表構造・複数形式出力

セル結合や罫線の少ない表を解析し、JSON、Markdown、HTML、CSV、Searchable PDFなどへ出力します。


Document Understanding Pipeline

複数の専用AIモデルが、文書を段階的に解析します。各ステップを分けることで、文字だけでなくレイアウトや表構造まで復元します。

文字位置検知

AI

文書画像内の文字領域を検出

Text Detector

文字列認識

AI

活字・手書きテキストを認識

Text Recognizer

レイアウト解析

AI

見出し、本文、図表などを分類

Layout Parser

表構造認識

AI

セル結合を含む表の行列構造を認識

Table Structure Recognizer

構造化データ生成

解析結果を統合して各形式へ出力


コア機能

Document Analyzer

文書画像からOCR、レイアウト解析、表構造認識、読み順推定を一括実行します。検索、RAG、DB登録、文書アーカイブの前処理に利用できます。

Document Analyzer

OCR結果を、文書構造まで含めて復元

文字だけでなく、段落・図表・表・読み順をまとめて解析し、後工程で扱いやすい形式へ変換します。

入力
文書画像
PDF / 画像 / スキャン
文書解析
1文字認識
OCR
2レイアウト解析
段落・図表領域検出
3表構造解析
セル・行列構造の推定
4読み順推定
文書全体の順序復元
出力
JSON
構造化出力
CSV
表形式データ
Markdown
ドキュメント化
HTML
レポート生成
Searchable PDF
全文検索可能

Extractor

Document Analyzerの解析結果をもとに、スキーマ定義に沿って必要な項目やテーブルデータを抽出します。請求書、申請書、契約書などの業務データ化に向いています。

Extractor

必要な項目だけを、業務システムへ渡せる形に抽出

Document Analyzerの解析結果にスキーマ定義を重ね、Key-Value・表・正規化済みデータとして出力します。

入力
文書データ
PDF / 画像 / スキャン
スキーマ定義
抽出項目 / 型 / 正規化ルール
文書解析
1文字認識
OCR
2レイアウト解析
段落・図表領域検出
3表構造解析
セル・行列構造
4読み順解析
順序復元
スキーマベース抽出
5情報抽出
Key-Value / テーブル
6データ正規化
表記ゆれ補正
出力
JSON
構造化出力
CSV
表形式
構造化データ
LLM連携

インストール / 利用方法

Pythonパッケージとして提供され、GPU、CPU、Apple Silicon(MPS)で動作します。Dockerfile / Docker Composeも標準提供されているため、検証環境から本番環境まで段階的に導入できます。

Python 3.10+
pip でインストール・管理
GPU / CPU / MPS
推奨 VRAM 8GB+
Docker 対応
Dockerfile / Compose 標準提供

利用インターフェース

Python API

DocumentAnalyzer・OCR・LayoutAnalyzer などのクラスを直接呼び出し、データ処理パイプラインや業務システムへ柔軟に組み込めます。

システム組み込みパイプライン統合カスタムワークフロー
CLI

画像・PDFを指定するだけで解析を実行。出力形式の選択やモデル切り替え、ページ指定など豊富なオプションでバッチ処理に対応します。

バッチ処理定期実行大量文書の一括変換
REST API サーバー

ワンコマンドでHTTPサーバーを起動し、文書解析をサービスとして公開。Swagger UIによるAPIドキュメントも自動生成されます。

Webアプリ連携マイクロサービススケーラブル運用

導入フロー / ライセンス形態

PoC、閉域環境での本番運用、自社プロダクトへの組み込みまで、利用形態に応じたライセンスを選択できます。

PoC / 技術検証開発・評価ライセンス
精度検証やユースケース適合性の確認など、短期間での技術評価を想定。リスクを抑えながら導入可否を判断できます。
本番運用サブスクリプションライセンス
年間契約・処理量に応じたプラン設計で、利用規模に合わせて柔軟にスケール。継続運用に最適です。
閉域環境運用買い切りライセンス
オンプレミスや閉域ネットワークなど外部通信が制限された環境に対応。オフラインで動作します。
プロダクト組み込みOEMライセンス
自社プロダクトへの統合・再販を前提としたライセンス。文書解析機能を付加価値として提供できます。

導入のご相談・お問い合わせ

YomiToku-Proの導入検討、技術的なご質問、ライセンスに関するお問い合わせなど、お気軽にご連絡ください。