简体中文 | English
OpenOCR 是由复旦大学FVL实验室姜育刚教授、陈智能教授指导的OCR团队打造的开源平台,面向「文字检测与识别」、「公式与表格识别」、「文档解析和理解」等通用 OCR 任务。平台集成了统一的训练与评测基准、商用级 OCR 与文档解析系统,以及众多学术论文的核心代码复现。
OpenOCR 致力于构建一个为学术研究与实际应用搭建桥梁的通用 OCR 开源生态,推动 OCR 技术在研究前沿和产业场景中的协同发展与广泛落地。欢迎研究者、开发者和企业使用和提建议。
🚀 快速开始
-
🔥OpenDoc-0.1B: Ultra-Lightweight Document Parsing System with 0.1B Parameters
- ⚡[快速开始]
[本地Demo]
- 仅有0.1B参数的超轻量文档解析系统
- 两阶段:版面分析PP-DocLayoutV2 + 文本、公式和表格统一识别自研模型UniRec-0.1B
- 在UniRec-0.1B的原始版本中,仅支持文本和公式识别。在OpenDoc-0.1B中,我们重建了UniRec-0.1B,使其支持文本、公式和表格识别
- 支持中、英文文档解析
- 在OmniDocBench (v1.5)上指标为90.57%,超越众多基于多模态大模型的文档解析模型
- ⚡[快速开始]
-
🔥UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters
- ⚡[使用文档]
[本地Demo] [HuggingFace模型下载] [ModelScope模型下载] [UniRec40M Dataset]
- 识别纯文本(单词、行、段落)、公式(单行、多行)、以及文本与公式混合的内容
- 0.1B 参数量
- 在 4000 万数据(UniRec40M)上从零开始训练,不使用任何预训练
- 支持中文和英文文本/公式识别
- ⚡[使用文档]
-
🔥OpenOCR: A general OCR system with accuracy and efficiency
- ⚡[快速开始]
[本地Demo] [模型下载] [PaddleOCR实现]
- 技术文档
- 基于SVTRv2构建的实用OCR系统
- 在OCR竞赛榜单上,精度超越PP-OCRv4基线4.5%,推理速度保持相近
- 支持中英文文本检测与识别
- 提供服务器端(Server)与移动端(mobile)模型
- 支持自定义数据集微调: 检测模型微调, 识别模型微调
- 支持导出ONNX模型
- ⚡[快速开始]
-
🔥SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition (ICCV 2025)
- [文档]
[模型下载] [数据集下载] [配置/训练/推理] [基准测试]
- 技术文档
- 基于Union14M构建的场景文本识别统一训练评估基准
- 支持24种场景文本识别方法在大规模真实数据集Union14M-L-Filter上的训练,将持续集成前沿方法
- 相比基于合成数据训练的模型,精度提升20-30%
- 单一视觉模型实现任意形状文本识别与语言建模
- 在精度与速度上全面超越基于Attention的编解码模型
- 从零训练SOTA模型指南
- [文档]
- UniRec-0.1B (Yongkun Du, Zhineng Chen, Yazhen Xie, Weikang Bai, Hao Feng, Wei Shi, Yuchen Su, Can Huang, Yu-Gang Jiang. UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters, Preprint. Doc, Paper)
- MDiff4STR (Yongkun Du, Miaomiao Zhao, Songlin Fan, Zhineng Chen*, Caiyan Jia, Yu-Gang Jiang. MDiff4STR: Mask Diffusion Model for Scene Text Recognition, AAAI 2026 Oral. Doc, Paper)
- CMER (Weikang Bai, Yongkun Du, Yuchen Su, Yazhen Xie, Zhineng Chen*. Complex Mathematical Expression Recognition: Benchmark, Large-Scale Dataset and Strong Baseline, AAAI 2026. Doc, Paper.)
- TextSSR (Xingsong Ye, Yongkun Du, Yunbo Tao, Zhineng Chen*. TextSSR: Diffusion-based Data Synthesis for Scene Text Recognition, ICCV 2025. Paper, Code)
- SVTRv2 (Yongkun Du, Zhineng Chen*, Hongtao Xie, Caiyan Jia, Yu-Gang Jiang. SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition, ICCV 2025. Doc, Paper)
- IGTR (Yongkun Du, Zhineng Chen*, Yuchen Su, Caiyan Jia, Yu-Gang Jiang. Instruction-Guided Scene Text Recognition, TPAMI 2025. Doc, Paper)
- CPPD (Yongkun Du, Zhineng Chen*, Caiyan Jia, Xiaoting Yin, Chenxia Li, Yuning Du, Yu-Gang Jiang. Context Perception Parallel Decoder for Scene Text Recognition, TPAMI 2025. PaddleOCR Doc, Paper)
- SMTR&FocalSVTR (Yongkun Du, Zhineng Chen*, Caiyan Jia, Xieping Gao, Yu-Gang Jiang. Out of Length Text Recognition with Sub-String Matching, AAAI 2025. Doc, Paper)
- DPTR (Shuai Zhao, Yongkun Du, Zhineng Chen*, Yu-Gang Jiang. Decoder Pre-Training with only Text for Scene Text Recognition, ACM MM 2024. Paper)
- CDistNet (Tianlun Zheng, Zhineng Chen*, Shancheng Fang, Hongtao Xie, Yu-Gang Jiang. CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition, IJCV 2024. Paper)
- MRN (Tianlun Zheng, Zhineng Chen*, Bingchen Huang, Wei Zhang, Yu-Gang Jiang. MRN: Multiplexed Routing Network for Incremental Multilingual Text Recognition, ICCV 2023. Paper, Code)
- TPS++ (Tianlun Zheng, Zhineng Chen*, Jinfeng Bai, Hongtao Xie, Yu-Gang Jiang. TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition, IJCAI 2023. Paper, Code)
- SVTR (Yongkun Du, Zhineng Chen*, Caiyan Jia, Xiaoting Yin, Tianlun Zheng, Chenxia Li, Yuning Du, Yu-Gang Jiang. SVTR: Scene Text Recognition with a Single Visual Model, IJCAI 2022 (Long). PaddleOCR Doc, Paper)
- NRTR (Fenfen Sheng, Zhineng Chen, Bo Xu. NRTR: A No-Recurrence Sequence-to-Sequence Model For Scene Text Recognition, ICDAR 2019. Paper)
- 2026.02.12: 🔥 发布 openocr-python 0.1.5,支持PDF文件作为输入;文档元素并行识别;增加Agent skill,使用说明文档
- 2026.02.06: 🔥 发布 openocr-python 0.1.3,采用统一接口实现OpenOCR、文档解析OpenDoc-0.1B和UniRec-0.1B,使用说明文档
- 2026.01.13: 🔥 开源 CMER 代码和 and MER-17M 数据集.
- 2026.01.07: 🔥 开源 UniRec40M 数据集,包含4000万多层次文本、公式和文本公式混合内容识别数据.
- 2025.12.25: 🔥 新增超轻量级文档解析系统OpenDoc-0.1B
- 2025.11.08: MDiff4STR被AAAI 2026接收为Oral. 详见Doc
- 2025.11.08: CMER被AAAI 2026接收. 详见Doc
- 2025.08.20: 🔥 新增文本和公式识别模型UniRec-0.1B
- 2025.07.10: SVTRv2被ICCV 2025接收. 详见文档
- 2025.07.10: TextSSR 被ICCV 2025接收. 详见Code.
- 2025.03.24: 🔥 发布自定义数据集微调功能: 检测模型微调, 识别模型微调
- 2025.03.23: 🔥 新增ONNX模型导出功能
- 2025.02.22: CPPD论文被TPAMI录用,详见文档与PaddleOCR文档
- 2024.12.31: IGTR论文被TPAMI录用,详见文档
- 2024.12.16: SMTR论文被AAAI 2025录用,详见文档
- 2024.12.03: DPTR预训练代码合并
- 🔥 2024.11.23 重大更新:
- OpenOCR通用OCR系统发布
- ⚡[快速开始] [模型下载] [ModelScopeDemo] [Hugging FaceDemo] [本地Demo] [PaddleOCR实现]
- 技术文档
- SVTRv2论文发布
- OpenOCR通用OCR系统发布
| 方法 | 会议/期刊 | 训练支持 | 评估支持 | 贡献者 |
|---|---|---|---|---|
| CRNN | TPAMI 2016 | ✅ | ✅ | |
| ASTER | TPAMI 2019 | ✅ | ✅ | pretto0 |
| NRTR | ICDAR 2019 | ✅ | ✅ | |
| SAR | AAAI 2019 | ✅ | ✅ | pretto0 |
| MORAN | PR 2019 | ✅ | ✅ | |
| DAN | AAAI 2020 | ✅ | ✅ | |
| RobustScanner | ECCV 2020 | ✅ | ✅ | pretto0 |
| AutoSTR | ECCV 2020 | ✅ | ✅ | |
| SRN | CVPR 2020 | ✅ | ✅ | pretto0 |
| SEED | CVPR 2020 | ✅ | ✅ | |
| ABINet | CVPR 2021 | ✅ | ✅ | YesianRohn |
| VisionLAN | ICCV 2021 | ✅ | ✅ | YesianRohn |
| PIMNet | ACM MM 2021 | TODO | ||
| SVTR | IJCAI 2022 | ✅ | ✅ | |
| PARSeq | ECCV 2022 | ✅ | ✅ | |
| MATRN | ECCV 2022 | ✅ | ✅ | |
| MGP-STR | ECCV 2022 | ✅ | ✅ | |
| LPV | IJCAI 2023 | ✅ | ✅ | |
| MAERec(Union14M) | ICCV 2023 | ✅ | ✅ | |
| LISTER | ICCV 2023 | ✅ | ✅ | |
| CDistNet | IJCV 2024 | ✅ | ✅ | YesianRohn |
| BUSNet | AAAI 2024 | ✅ | ✅ | |
| DCTC | AAAI 2024 | TODO | ||
| CAM | PR 2024 | ✅ | ✅ | |
| OTE | CVPR 2024 | ✅ | ✅ | |
| CFF | IJCAI 2024 | TODO | ||
| DPTR | ACM MM 2024 | fd-zs | ||
| VIPTR | ACM CIKM 2024 | TODO | ||
| IGTR | TPAMI 2025 | ✅ | ✅ | |
| SMTR | AAAI 2025 | ✅ | ✅ | |
| CPPD | TPAMI 2025 | ✅ | ✅ | |
| FocalSVTR-CTC | AAAI 2025 | ✅ | ✅ | |
| SVTRv2 | ICCV 2025 | ✅ | ✅ | |
| ResNet+Trans-CTC | ✅ | ✅ | ||
| ViT-CTC | ✅ | ✅ | ||
| MDiff4STR | AAAI 2025 Oral | ✅ | ✅ |
开发中
开发中
如果我们的工作对您的研究有所帮助,请引用:
@inproceedings{Du2025SVTRv2,
title={SVTRv2: CTC Beats Encoder-Decoder Models in Scene Text Recognition},
author={Yongkun Du and Zhineng Chen and Hongtao Xie and Caiyan Jia and Yu-Gang Jiang},
booktitle={ICCV},
year={2025},
pages={20147-20156}
}
@article{du2025unirec,
title={UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters},
author={Yongkun Du and Zhineng Chen and Yazhen Xie and Weikang Bai and Hao Feng and Wei Shi and Yuchen Su and Can Huang and Yu-Gang Jiang},
journal={arXiv preprint arXiv:2512.21095},
year={2025}
}本代码库基于PaddleOCR、PytorchOCR和MMOCR构建,感谢他们的出色工作!