モデルhuggingface2026-05-18
文字を読み取るAIが進化
PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend

PaddleOCR 3.5が登場し、文字認識と文書理解の精度を向上させるため、新しいAI技術であるTransformerを導入しました。
オープンソースの主要なOCRツールキットであるPaddleOCRは、最新バージョンであるPaddleOCR 3.5を正式にリリースしました。この重要なアップデートでは、OCRおよび高度な文書解析タスクの両方に堅牢なTransformerバックエンドが導入されています。Transformerモデルの統合は、従来のCNN-RNNベースのアプローチから自己注意メカニズムの力を活用する方向へと、アーキテクチャにおける極めて重要な転換を示します。この変更により、特に複雑なレイアウトや多言語文書において、認識精度が大幅に向上すると期待されています。新しいバックエンドは、テキストシーケンス内の長距離依存関係を捉え、文書内の異なる要素間の文脈的関係を理解するモデルの能力を強化します。ユーザーは、より正確なテキスト抽出、テーブル認識、およびキーバリューペア抽出の恩恵を受けることができます。PaddleOCR 3.5には、推論速度とメモリ使用量の最適化も含まれており、様々な本番環境でのデプロイメントがより効率的になります。このリリースには、更新された事前学習済みモデルと詳細なドキュメントが含まれており、開発者や研究者による容易な採用を促進します。