现有数万件PDF文件(比赛花名册/数据表),希望精确识别出文本,以供后续整合至数据库。
PDF情况为:
- 名册/比赛数据(即表格形式),为英文语言。
- 大部分为手写、其余为打字机,故可能识别困难。
- 存在多种表格形式(因版本变化)
了解到的热门OCR:
- Rednote dots.ocr
- Paddle OCR
- MinerU
- Gemini 等
由于本人为小白,想请教:
- 有何推荐的模型或解决方案?
- 针对海量PDF,使用以上OCR现实吗?在资源量有限的情况下,方便部署吗?
- 如何确保文本的准确度?可否通过不同OCR的结果之间横向对比?
- 提取到文本之后,如何将文本归到指定的变量(如姓名、得分),通过ML吗?还是说一些OCR能有坐标、表格之类的返回?
请大佬们赐教,不胜感激!
评论 (0)