OpenOCR: An Open-Source Toolkit for General-OCR Research and Applications

如果您觉得本项目有帮助，请为我们点亮Star🌟

简体中文 | English

OpenOCR 是由复旦大学FVL实验室姜育刚教授、陈智能教授指导的OCR团队打造的开源平台，面向「文字检测与识别」、「公式与表格识别」、「文档解析和理解」等通用 OCR 任务。平台集成了统一的训练与评测基准、商用级 OCR 与文档解析系统，以及众多学术论文的核心代码复现。

OpenOCR 致力于构建一个为学术研究与实际应用搭建桥梁的通用 OCR 开源生态，推动 OCR 技术在研究前沿和产业场景中的协同发展与广泛落地。欢迎研究者、开发者和企业使用和提建议。

🚀 快速开始

核心特性

🔥OpenDoc-0.1B: Ultra-Lightweight Document Parsing System with 0.1B Parameters
- ⚡[快速开始] [本地Demo]
  - 仅有0.1B参数的超轻量文档解析系统
  - 两阶段：版面分析PP-DocLayoutV2 + 文本、公式和表格统一识别自研模型UniRec-0.1B
    - 在UniRec-0.1B的原始版本中，仅支持文本和公式识别。在OpenDoc-0.1B中，我们重建了UniRec-0.1B，使其支持文本、公式和表格识别
  - 支持中、英文文档解析
  - 在OmniDocBench (v1.5)上指标为90.57%，超越众多基于多模态大模型的文档解析模型
🔥UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters
- ⚡[使用文档] [本地Demo] [HuggingFace模型下载] [ModelScope模型下载] [UniRec40M Dataset]
  - 识别纯文本（单词、行、段落）、公式（单行、多行）、以及文本与公式混合的内容
  - 0.1B 参数量
  - 在 4000 万数据（UniRec40M）上从零开始训练，不使用任何预训练
  - 支持中文和英文文本/公式识别
🔥OpenOCR: A general OCR system with accuracy and efficiency
- ⚡[快速开始] [本地Demo] [模型下载] [PaddleOCR实现]
- 技术文档
  - 基于SVTRv2构建的实用OCR系统
  - 在OCR竞赛榜单上，精度超越PP-OCRv4基线4.5%，推理速度保持相近
  - 支持中英文文本检测与识别
  - 提供服务器端(Server)与移动端(mobile)模型
  - 支持自定义数据集微调: 检测模型微调, 识别模型微调
  - 支持导出ONNX模型
🔥SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition (ICCV 2025)
- [文档] [模型下载] [数据集下载] [配置/训练/推理] [基准测试]
- 技术文档
  - 基于Union14M构建的场景文本识别统一训练评估基准
  - 支持24种场景文本识别方法在大规模真实数据集Union14M-L-Filter上的训练，将持续集成前沿方法
  - 相比基于合成数据训练的模型，精度提升20-30%
  - 单一视觉模型实现任意形状文本识别与语言建模
  - 在精度与速度上全面超越基于Attention的编解码模型
  - 从零训练SOTA模型指南

自研OCR算法

UniRec-0.1B (Yongkun Du, Zhineng Chen, Yazhen Xie, Weikang Bai, Hao Feng, Wei Shi, Yuchen Su, Can Huang, Yu-Gang Jiang. UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters, Preprint. Doc, Paper)
MDiff4STR (Yongkun Du, Miaomiao Zhao, Songlin Fan, Zhineng Chen*, Caiyan Jia, Yu-Gang Jiang. MDiff4STR: Mask Diffusion Model for Scene Text Recognition, AAAI 2026 Oral. Doc, Paper)
CMER (Weikang Bai, Yongkun Du, Yuchen Su, Yazhen Xie, Zhineng Chen*. Complex Mathematical Expression Recognition: Benchmark, Large-Scale Dataset and Strong Baseline, AAAI 2026. Doc, Paper.)
TextSSR (Xingsong Ye, Yongkun Du, Yunbo Tao, Zhineng Chen*. TextSSR: Diffusion-based Data Synthesis for Scene Text Recognition, ICCV 2025. Paper, Code)
SVTRv2 (Yongkun Du, Zhineng Chen*, Hongtao Xie, Caiyan Jia, Yu-Gang Jiang. SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition, ICCV 2025. Doc, Paper)
IGTR (Yongkun Du, Zhineng Chen*, Yuchen Su, Caiyan Jia, Yu-Gang Jiang. Instruction-Guided Scene Text Recognition, TPAMI 2025. Doc, Paper)
CPPD (Yongkun Du, Zhineng Chen*, Caiyan Jia, Xiaoting Yin, Chenxia Li, Yuning Du, Yu-Gang Jiang. Context Perception Parallel Decoder for Scene Text Recognition, TPAMI 2025. PaddleOCR Doc, Paper)
SMTR&FocalSVTR (Yongkun Du, Zhineng Chen*, Caiyan Jia, Xieping Gao, Yu-Gang Jiang. Out of Length Text Recognition with Sub-String Matching, AAAI 2025. Doc, Paper)
DPTR (Shuai Zhao, Yongkun Du, Zhineng Chen*, Yu-Gang Jiang. Decoder Pre-Training with only Text for Scene Text Recognition, ACM MM 2024. Paper)
CDistNet (Tianlun Zheng, Zhineng Chen*, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang. CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition, IJCV 2024. Paper)
MRN (Tianlun Zheng, Zhineng Chen*, Bingchen Huang, Wei Zhang, Yu-Gang Jiang. MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition, ICCV 2023. Paper, Code)
TPS++ (Tianlun Zheng, Zhineng Chen*, Jinfeng Bai, Hongtao Xie, Yu-Gang Jiang. TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition, IJCAI 2023. Paper, Code)
SVTR (Yongkun Du, Zhineng Chen*, Caiyan Jia, Xiaoting Yin, Tianlun Zheng, Chenxia Li, Yuning Du, Yu-Gang Jiang. SVTR: Scene Text Recognition with a Single Visual Model, IJCAI 2022 (Long). PaddleOCR Doc, Paper)
NRTR (Fenfen Sheng, Zhineng Chen, Bo Xu. NRTR: A No-Recurrence Sequence-to-Sequence Model For Scene Text Recognition, ICDAR 2019. Paper)

近期更新

2026.02.12: 🔥 发布 openocr-python 0.1.5，支持PDF文件作为输入；文档元素并行识别；增加Agent skill，使用说明文档
2026.02.06: 🔥 发布 openocr-python 0.1.3，采用统一接口实现OpenOCR、文档解析OpenDoc-0.1B和UniRec-0.1B，使用说明文档
2026.01.13: 🔥 开源 CMER 代码和 and MER-17M 数据集.
2026.01.07: 🔥 开源 UniRec40M 数据集，包含4000万多层次文本、公式和文本公式混合内容识别数据.
2025.12.25: 🔥 新增超轻量级文档解析系统OpenDoc-0.1B
2025.11.08: MDiff4STR被AAAI 2026接收为Oral. 详见Doc
2025.11.08: CMER被AAAI 2026接收. 详见Doc
2025.08.20: 🔥 新增文本和公式识别模型UniRec-0.1B
2025.07.10: SVTRv2被ICCV 2025接收. 详见文档
2025.07.10: TextSSR 被ICCV 2025接收. 详见Code.
2025.03.24: 🔥 发布自定义数据集微调功能: 检测模型微调, 识别模型微调
2025.03.23: 🔥 新增ONNX模型导出功能
2025.02.22: CPPD论文被TPAMI录用，详见文档与PaddleOCR文档
2024.12.31: IGTR论文被TPAMI录用，详见文档
2024.12.16: SMTR论文被AAAI 2025录用，详见文档
2024.12.03: DPTR预训练代码合并
🔥 2024.11.23 重大更新:
- OpenOCR通用OCR系统发布
  - ⚡[快速开始] [模型下载] [ModelScopeDemo] [Hugging FaceDemo] [本地Demo] [PaddleOCR实现]
  - 技术文档
- SVTRv2论文发布
  - [论文] [文档] [模型] [数据集] [配置/训练/推理] [基准测试]
  - 技术文档
  - 从零训练SOTA模型指南

算法复现计划

场景文本识别(STR)

方法	会议/期刊	训练支持	评估支持	贡献者
CRNN	TPAMI 2016	✅	✅
ASTER	TPAMI 2019	✅	✅	pretto0
NRTR	ICDAR 2019	✅	✅
SAR	AAAI 2019	✅	✅	pretto0
MORAN	PR 2019	✅	✅
DAN	AAAI 2020	✅	✅
RobustScanner	ECCV 2020	✅	✅	pretto0
AutoSTR	ECCV 2020	✅	✅
SRN	CVPR 2020	✅	✅	pretto0
SEED	CVPR 2020	✅	✅
ABINet	CVPR 2021	✅	✅	YesianRohn
VisionLAN	ICCV 2021	✅	✅	YesianRohn
PIMNet	ACM MM 2021			TODO
SVTR	IJCAI 2022	✅	✅
PARSeq	ECCV 2022	✅	✅
MATRN	ECCV 2022	✅	✅
MGP-STR	ECCV 2022	✅	✅
LPV	IJCAI 2023	✅	✅
MAERec(Union14M)	ICCV 2023	✅	✅
LISTER	ICCV 2023	✅	✅
CDistNet	IJCV 2024	✅	✅	YesianRohn
BUSNet	AAAI 2024	✅	✅
DCTC	AAAI 2024			TODO
CAM	PR 2024	✅	✅
OTE	CVPR 2024	✅	✅
CFF	IJCAI 2024			TODO
DPTR	ACM MM 2024			fd-zs
VIPTR	ACM CIKM 2024			TODO
IGTR	TPAMI 2025	✅	✅
SMTR	AAAI 2025	✅	✅
CPPD	TPAMI 2025	✅	✅
FocalSVTR-CTC	AAAI 2025	✅	✅
SVTRv2	ICCV 2025	✅	✅
ResNet+Trans-CTC		✅	✅
ViT-CTC		✅	✅
MDiff4STR	AAAI 2025 Oral	✅	✅

场景文本检测(STD)

开发中

端到端文本识别(Text Spotting)

开发中

引用

如果我们的工作对您的研究有所帮助，请引用：

@inproceedings{Du2025SVTRv2,
  title={SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition},
  author={Yongkun Du and Zhineng Chen and Hongtao Xie and Caiyan Jia and Yu-Gang Jiang},
  booktitle={ICCV},
  year={2025},
  pages={20147-20156}
}

@article{du2025unirec,
  title={UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters},
  author={Yongkun Du and Zhineng Chen and Yazhen Xie and Weikang Bai and Hao Feng and Wei Shi and Yuchen Su and Can Huang and Yu-Gang Jiang},
  journal={arXiv preprint arXiv:2512.21095},
  year={2025}
}

致谢

本代码库基于PaddleOCR、PytorchOCR和MMOCR构建，感谢他们的出色工作！

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

OpenOCR: An Open-Source Toolkit for General-OCR Research and Applications

如果您觉得本项目有帮助，请为我们点亮Star🌟

🚀 快速开始

核心特性

自研OCR算法

近期更新

算法复现计划

场景文本识别(STR)

场景文本检测(STD)

端到端文本识别(Text Spotting)

引用

致谢

FilesExpand file tree

README_ch.md

Latest commit

History

README_ch.md

File metadata and controls

OpenOCR: An Open-Source Toolkit for General-OCR Research and Applications

如果您觉得本项目有帮助，请为我们点亮Star🌟

🚀 快速开始

核心特性

自研OCR算法

近期更新

算法复现计划

场景文本识别(STR)

场景文本检测(STD)

端到端文本识别(Text Spotting)

引用

致谢