帖详情页

关于OCR的解决方案求教

nodeseek v1

2025-09-26 14:02 15 0 主机测评

现有数万件PDF文件(比赛花名册/数据表)，希望精确识别出文本，以供后续整合至数据库。

PDF情况为：

名册/比赛数据（即表格形式），为英文语言。
大部分为手写、其余为打字机，故可能识别困难。
存在多种表格形式（因版本变化）

了解到的热门OCR：

Rednote dots.ocr
Paddle OCR
MinerU
Gemini 等

由于本人为小白，想请教：

有何推荐的模型或解决方案？
针对海量PDF，使用以上OCR现实吗？在资源量有限的情况下，方便部署吗？
如何确保文本的准确度？可否通过不同OCR的结果之间横向对比？
提取到文本之后，如何将文本归到指定的变量(如姓名、得分)，通过ML吗？还是说一些OCR能有坐标、表格之类的返回？

请大佬们赐教，不胜感激！

评论 (0)

推荐帖子

求推荐泰国vps

原邮1400出dmit品川

netcup账单问题

野草云188两年HK2c2g30gAMD

【收】一个阿里云t6北/上/广区剩余3年以上小鸡

OVH的新加坡独服ping值竟然450ms，还丢包，这是新加坡？我加拿大的OVH才250ms左右

英特尔ax200WiFi6无线网卡居然不能开5G热点

HostDZireLAXv4被拉回来了

200出hostdzirelax20u带foxmail原油

溢价20/台收两台临期的netcup1o机