YomiToku-Pro

Name: YomiToku-Pro
Brand: MLism株式会社

非構造な文書画像やPDFを、業務で扱える構造化データへ変換する日本語特化の文書解析AIエンジン。オンプレミス・自社クラウドで完結します。

YomiToku-Proとは

YomiToku-Proは、OCRに加えて文書レイアウト・表構造・読み順を解析し、文書の情報構造を復元するPythonライブラリです。既存の業務システム、RAG基盤、文書アーカイブへ組み込めます。

オンプレミスおよびクラウド環境で実行できます。公開版YomiTokuは検証用途としてGitHubで試用でき、商用利用や高度な機能はYomiToku-Proのライセンスで提供します。

公開版YomiToku

検証用途では、GitHubで公開されているYomiTokuを試用できます。

GitHubを見る

Overview

文書を、業務で使える構造化データへ

OCRだけでなく、レイアウト・表・読み順までまとめて解析します。

入力

紙書類PDF帳票画像手書き文書

変換

Document Understanding Engine

1文字検出・OCR

2レイアウト解析

3表構造解析

4読み順推定

変換

出力

JSON

構造を保持した機械処理用データ

CSV

表データの集計・DB投入

Markdown

RAG・ナレッジ化

HTML

可視化・レビュー

Searchable PDF

検索可能なアーカイブ

選ばれる理由

外部OCRサービスに文書データを送信しにくい業務でも、自社環境内で解析を完結できます。日本語文書に必要な構造理解と、実運用に耐える処理性能を両立します。

データを外に出さない

オンプレミスまたは自社クラウド内で処理が完結。機密文書や個人情報を含む文書にも導入しやすい構成です。

日本語文書に最適化

縦書き・横書き混在、右綴じ文書、複雑な帳票、手書き文字など、日本語文書特有の課題に対応します。

構造まで高精度に解析

OCR、レイアウト解析、表構造解析、読み順推定を統合し、文書全体を後工程で扱いやすい形に変換します。

システムへ組み込みやすい

Python API、CLI、REST API、Dockerに対応。検証から本番運用まで同じエンジンを利用できます。

解析結果の例

AI-OCRとレイアウト解析の結果を文書上で確認できます。

AI-OCR

レイアウト解析

対応できる解析

導入検討で特に重要な機能を中心に整理しています。OCRだけでなく、文書を業務データとして扱うための構造化まで支援します。

向き補正・OCR

回転した文書を補正し、活字・手書き・縦書きなどを読み取ります。

レイアウト分類

見出し、段落、図、写真、グラフ、QR/バーコード、表などの領域を分類します。

読み順推定

段組みや縦書きが混在する文書でも、人が読む順序に沿って構造化します。

表構造・複数形式出力

セル結合や罫線の少ない表を解析し、JSON、Markdown、HTML、CSV、Searchable PDFなどへ出力します。

Document Understanding Pipeline

複数の専用AIモデルが、文書を段階的に解析します。各ステップを分けることで、文字だけでなくレイアウトや表構造まで復元します。

文字位置検知

文書画像内の文字領域を検出

Text Detector

文字列認識

活字・手書きテキストを認識

Text Recognizer

レイアウト解析

見出し、本文、図表などを分類

Layout Parser

表構造認識

セル結合を含む表の行列構造を認識

Table Structure Recognizer

構造化データ生成

解析結果を統合して各形式へ出力

コア機能

Document Analyzer

文書画像からOCR、レイアウト解析、表構造認識、読み順推定を一括実行します。検索、RAG、DB登録、文書アーカイブの前処理に利用できます。

Document Analyzer

OCR結果を、文書構造まで含めて復元

文字だけでなく、段落・図表・表・読み順をまとめて解析し、後工程で扱いやすい形式へ変換します。

入力

文書画像

PDF / 画像 / スキャン

文書解析

1文字認識

OCR

2レイアウト解析

段落・図表領域検出

3表構造解析

セル・行列構造の推定

4読み順推定

文書全体の順序復元

出力

JSON

構造化出力

CSV

表形式データ

Markdown

ドキュメント化

HTML

レポート生成

Searchable PDF

全文検索可能

読み取り対象

スキャンPDF、帳票、紙資料、画像化された文書。

復元される情報

文字、ブロック、表セル、見出し、読み順、ページ構造。

活用先

検索、RAG、DB登録、アーカイブ、レビュー画面。

入力

文書画像

PDF / 画像 / スキャン

文書解析

1文字認識

OCR

2レイアウト解析

段落・図表領域検出

3表構造解析

セル・行列構造の推定

4読み順推定

文書全体の順序復元

出力

JSON

構造化出力

CSV

表形式データ

Markdown

ドキュメント化

HTML

レポート生成

Searchable PDF

全文検索可能

Extractor

Document Analyzerの解析結果をもとに、スキーマ定義に沿って必要な項目やテーブルデータを抽出します。請求書、申請書、契約書などの業務データ化に向いています。

Extractor

必要な項目だけを、業務システムへ渡せる形に抽出

Document Analyzerの解析結果にスキーマ定義を重ね、Key-Value・表・正規化済みデータとして出力します。

入力

文書データ

スキーマ定義

(YAML)

文書解析

1文字認識

OCR

2レイアウト解析

段落・図表領域検出

3表構造解析

セル・行列構造

4読み順解析

順序復元

スキーマベース抽出

5情報抽出

Key-Value / テーブル

6データ正規化

表記ゆれ補正

出力

JSON

構造化出力

CSV

表形式

構造化データ

LLM連携

入力

文書データ

PDF / 画像 / スキャン

スキーマ定義

抽出項目 / 型 / 正規化ルール

文書解析

1文字認識

OCR

2レイアウト解析

段落・図表領域検出

3表構造解析

セル・行列構造

4読み順解析

順序復元

スキーマベース抽出

5情報抽出

Key-Value / テーブル

6データ正規化

表記ゆれ補正

出力

JSON

構造化出力

CSV

表形式

構造化データ

LLM連携

インストール / 利用方法

Pythonパッケージとして提供され、GPU、CPU、Apple Silicon（MPS）で動作します。Dockerfile / Docker Composeも標準提供されているため、検証環境から本番環境まで段階的に導入できます。

Python 3.10+

pip でインストール・管理

GPU / CPU / MPS

推奨 VRAM 8GB+

Docker 対応

Dockerfile / Compose 標準提供

利用インターフェース

Python API

DocumentAnalyzer・OCR・LayoutAnalyzer などのクラスを直接呼び出し、データ処理パイプラインや業務システムへ柔軟に組み込めます。

システム組み込みパイプライン統合カスタムワークフロー

CLI

画像・PDFを指定するだけで解析を実行。出力形式の選択やモデル切り替え、ページ指定など豊富なオプションでバッチ処理に対応します。

バッチ処理定期実行大量文書の一括変換

REST API サーバー

ワンコマンドでHTTPサーバーを起動し、文書解析をサービスとして公開。Swagger UIによるAPIドキュメントも自動生成されます。

Webアプリ連携マイクロサービススケーラブル運用

導入フロー / ライセンス形態

PoC、閉域環境での本番運用、自社プロダクトへの組み込みまで、利用形態に応じたライセンスを選択できます。

PoC / 技術検証開発・評価ライセンス

精度検証やユースケース適合性の確認など、短期間での技術評価を想定。リスクを抑えながら導入可否を判断できます。

本番運用サブスクリプションライセンス

年間契約・処理量に応じたプラン設計で、利用規模に合わせて柔軟にスケール。継続運用に最適です。

閉域環境運用買い切りライセンス

オンプレミスや閉域ネットワークなど外部通信が制限された環境に対応。オフラインで動作します。

プロダクト組み込みOEMライセンス

自社プロダクトへの統合・再販を前提としたライセンス。文書解析機能を付加価値として提供できます。

導入のご相談・お問い合わせ

YomiToku-Proの導入検討、技術的なご質問、ライセンスに関するお問い合わせなど、お気軽にご連絡ください。

お問い合わせドキュメントを見る