GitHub - hrmzone/DocOCR: a OCR tool for chinese documents.一个中文文档OCR工具.

a OCR tool for chinese documents.一个中文文档OCR工具.

初衷

我是一职业培训机构edueasy的老师，经常整理、打印各科目历年真题、预测题的试卷，但试卷只有纸质文件，没有电子版，所以做个小工具将试卷识别出来，整理为电子版，有需要的可以试试。

更新（2022-3-10）

增加了对表格图片的识别功能，详细内容见更新文档

环境

Java要求:JDK7及以上；

原理

使用百度AI的OCR接口，将指定文件、指定目录的图片文件上传，并将结果解析出来，保存为同名的TXT文本文件
普通中文文档的识别率非常高，而且速度很快，比微软的Office lens正确率和速度快不少。
百度OCR接口调用有次数限制，普通文字识别是50000次/天，需求大的同学请自行修改代码的API key，修改文件为：OCRAction.java。
仅少量使用，可在release中下载DocOCR.jar，在命令行中使用。

使用方法

下载DocOCR.jar，在bash或命令行中进入该目录
识别单个文件:java -jar -f filename,-f识别单个图片文件

批量识别多个文件:java -jar -d filepath,-d识别目录下的全部图片

识别效果

错误提示

做个广告

edueasy，一所具备人社局许可的职业培训机构，专注于职业资格培训(人力资源管理师、中小学教师资格证)以及学历提升（成人教育、网络教育、自考），欢迎咨询，QQ:78049500

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.idea		.idea
META-INF		META-INF
imgs		imgs
out		out
screenshot		screenshot
src/main/java/cn/hrmzone		src/main/java/cn/hrmzone
target/classes/cn/hrmzone		target/classes/cn/hrmzone
DocOCR.iml		DocOCR.iml
README.md		README.md
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

初衷

更新（2022-3-10）

环境

原理

使用方法

做个广告

About

Uh oh!

Releases 1

Packages

Contributors 2

Uh oh!

Languages

hrmzone/DocOCR

Folders and files

Latest commit

History

Repository files navigation

初衷

更新（2022-3-10）

环境

原理

使用方法

做个广告

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Contributors 2

Uh oh!

Languages

Packages