YomiToku-Pro
YomiToku-Pro
非構造な文書画像やPDFを、業務で扱える構造化データへ変換する日本語特化の文書解析AIエンジン。オンプレミス・自社クラウドで完結します。
YomiToku-Proとは
YomiToku-Proは、OCRに加えて文書レイアウト・表構造・読み順を解析し、文書の情報構造を復元するPythonライブラリです。既存の業務システム、RAG基盤、文書アーカイブへ組み込めます。
オンプレミスおよびクラウド環境で実行できます。公開版YomiTokuは検証用途としてGitHubで試用でき、商用利用や高度な機能はYomiToku-Proのライセンスで提供します。
公開版YomiToku
検証用途では、GitHubで公開されているYomiTokuを試用できます。
Overview
文書を、業務で使える構造化データへ
OCRだけでなく、レイアウト・表・読み順までまとめて解析します。

Document Understanding Engine
出力
JSON
構造を保持した機械処理用データ
CSV
表データの集計・DB投入
Markdown
RAG・ナレッジ化
HTML
可視化・レビュー
Searchable PDF
検索可能なアーカイブ
選ばれる理由
外部OCRサービスに文書データを送信しにくい業務でも、自社環境内で解析を完結できます。日本語文書に必要な構造理解と、実運用に耐える処理性能を両立します。
データを外に出さない
オンプレミスまたは自社クラウド内で処理が完結。機密文書や個人情報を含む文書にも導入しやすい構成です。
日本語文書に最適化
縦書き・横書き混在、右綴じ文書、複雑な帳票、手書き文字など、日本語文書特有の課題に対応します。
構造まで高精度に解析
OCR、レイアウト解析、表構造解析、読み順推定を統合し、文書全体を後工程で扱いやすい形に変換します。
システムへ組み込みやすい
Python API、CLI、REST API、Dockerに対応。検証から本番運用まで同じエンジンを利用できます。
解析結果の例
解析結果の例
AI-OCRとレイアウト解析の結果を文書上で確認できます。


対応できる解析
導入検討で特に重要な機能を中心に整理しています。OCRだけでなく、文書を業務データとして扱うための構造化まで支援します。
向き補正・OCR
回転した文書を補正し、活字・手書き・縦書きなどを読み取ります。
レイアウト分類
見出し、段落、図、写真、グラフ、QR/バーコード、表などの領域を分類します。
読み順推定
段組みや縦書きが混在する文書でも、人が読む順序に沿って構造化します。
表構造・複数形式出力
セル結合や罫線の少ない表を解析し、JSON、Markdown、HTML、CSV、Searchable PDFなどへ出力します。
Document Understanding Pipeline
複数の専用AIモデルが、文書を段階的に解析します。各ステップを分けることで、文字だけでなくレイアウトや表構造まで復元します。
文字位置検知
AI文書画像内の文字領域を検出
Text Detector
文字列認識
AI活字・手書きテキストを認識
Text Recognizer
レイアウト解析
AI見出し、本文、図表などを分類
Layout Parser
表構造認識
AIセル結合を含む表の行列構造を認識
Table Structure Recognizer
構造化データ生成
解析結果を統合して各形式へ出力
コア機能
Document Analyzer
文書画像からOCR、レイアウト解析、表構造認識、読み順推定を一括実行します。検索、RAG、DB登録、文書アーカイブの前処理に利用できます。
Document Analyzer
OCR結果を、文書構造まで含めて復元
文字だけでなく、段落・図表・表・読み順をまとめて解析し、後工程で扱いやすい形式へ変換します。
Extractor
Document Analyzerの解析結果をもとに、スキーマ定義に沿って必要な項目やテーブルデータを抽出します。請求書、申請書、契約書などの業務データ化に向いています。
Extractor
必要な項目だけを、業務システムへ渡せる形に抽出
Document Analyzerの解析結果にスキーマ定義を重ね、Key-Value・表・正規化済みデータとして出力します。
インストール / 利用方法
Pythonパッケージとして提供され、GPU、CPU、Apple Silicon(MPS)で動作します。Dockerfile / Docker Composeも標準提供されているため、検証環境から本番環境まで段階的に導入できます。
利用インターフェース
DocumentAnalyzer・OCR・LayoutAnalyzer などのクラスを直接呼び出し、データ処理パイプラインや業務システムへ柔軟に組み込めます。
画像・PDFを指定するだけで解析を実行。出力形式の選択やモデル切り替え、ページ指定など豊富なオプションでバッチ処理に対応します。
ワンコマンドでHTTPサーバーを起動し、文書解析をサービスとして公開。Swagger UIによるAPIドキュメントも自動生成されます。
導入フロー / ライセンス形態
PoC、閉域環境での本番運用、自社プロダクトへの組み込みまで、利用形態に応じたライセンスを選択できます。