现有数万件PDF文件(比赛花名册/数据表),希望精确识别出文本,以供后续整合至数据库。

PDF情况为:

  1. 名册/比赛数据(即表格形式),为英文语言。
  2. 大部分为手写、其余为打字机,故可能识别困难。
  3. 存在多种表格形式(因版本变化)

了解到的热门OCR:

  1. Rednote dots.ocr
  2. Paddle OCR
  3. MinerU
  4. Gemini 等

由于本人为小白,想请教:

  1. 有何推荐的模型或解决方案?
  2. 针对海量PDF,使用以上OCR现实吗?在资源量有限的情况下,方便部署吗?
  3. 如何确保文本的准确度?可否通过不同OCR的结果之间横向对比?
  4. 提取到文本之后,如何将文本归到指定的变量(如姓名、得分),通过ML吗?还是说一些OCR能有坐标、表格之类的返回?

请大佬们赐教,不胜感激!