使用JAVA进行图像识别——基于Tess4J实现

灰太狼 2023-02-17 11:16 29阅读 0赞

基于Tess4J实现的图像识别

最近在思考一个问题,如何实现用户注册的拍照验证功能,图像识别与抓取功能,但之前一直在听说使用Python,难道我大Java就没有实现吗?

果然前辈们已经帮我们集成好了Tess4J,在等待我们拿去用,感动ing

Tess4J是对Tesseract OCR API.的Java JNA 封装。使java能够通过调用Tess4J的API来使用Tesseract OCR。支持的格式:TIFF,JPEG,GIF,PNG,BMP,JPEG,and PDF
Tess4J API 提供的功能:
1、直接识别支持的文件
2、识别图片流
3、识别图片的某块区域
4、将识别结果保存为 TEXT/ HOCR/ PDF/ UNLV/ BOX
5、通过设置取词的等级,提取识别出来的文字
6、获得每一个识别区域的具体坐标范围
7、调整倾斜的图片
8、裁剪图片
9、调整图片分辨率
10、从粘贴板获得图像
11、克隆一个图像(目的:创建一份一模一样的图片,与原图在操作修改上,不相 互影响)
12、图片转换为二进制、黑白图像、灰度图像
13、反转图片颜色

首先,下载Tess4J的相关资源(一个压缩包),官网:http://tess4j.sourceforge.net/codesample.html
在这里插入图片描述
其中:
lib文件夹下放的是需要用到的Jar包
tessdata下放的是语言库,默认的有英语库,中文库需要另外下载,
新建Java项目,将lib文件夹和tessdata文件夹复制到项目的根目录下,找到dist文件夹下的tess4j.jar(名字可能有版本号),将该文件也复制到项目根目录下的lib文件夹下。
在项目中导入lib文件夹中所有的jar包(Build path —> configure build path),导入后的结果如下:

在这里插入图片描述
Tess4J的代码比较简短,如下:
Tess4JTest.java

  1. package ocr;
  2. import net.sourceforge.tess4j.ITesseract;
  3. import net.sourceforge.tess4j.Tesseract;
  4. import net.sourceforge.tess4j.TesseractException;
  5. import net.sourceforge.tess4j.util.LoadLibs;
  6. import java.io.File;
  7. import java.io.IOException;
  8. /** * Tess4J测试类 */
  9. public class Tess4JTest {
  10. public static void main(String[] args){
  11. String path = "D://Java//Tess4J"; //我的项目存放路径
  12. File file = new File(path + "//photo.jpg");
  13. ITesseract instance = new Tesseract();
  14. /** * 获取项目根路径,例如: D:\IDEAWorkSpace\tess4J */
  15. File directory = new File(path);
  16. String courseFile = null;
  17. try {
  18. courseFile = directory.getCanonicalPath();
  19. } catch (IOException e) {
  20. e.printStackTrace();
  21. }
  22. //设置训练库的位置
  23. instance.setDatapath(courseFile + "//tessdata");
  24. instance.setLanguage("eng");//chi_sim :简体中文, eng 根据需求选择语言库
  25. String result = null;
  26. try {
  27. long startTime = System.currentTimeMillis();
  28. result = instance.doOCR(file);
  29. long endTime = System.currentTimeMillis();
  30. System.out.println("Time is:" + (endTime - startTime) + " 毫秒");
  31. } catch (TesseractException e) {
  32. e.printStackTrace();
  33. }
  34. System.out.println("result: ");
  35. System.out.println(result);
  36. }
  37. }

效果如下:

原图:

在这里插入图片描述

读取结果:

在这里插入图片描述
对比而言,0和o的分辨不够准确,需要多多训练字体库。

有任何疑问和和源码需求敬请关注公众号【蜗牛资源社】

欢迎交流学习!

发表评论

表情:
评论列表 (有 0 条评论,29人围观)

还没有评论,来说两句吧...

相关阅读

    相关 java使用tess4j 小白教程

      环境:编译器是IDEA,操作系统Win7   第一步:下载Tess4J?   下载地址:点击打开链接   下载后解压,解压后的目录结构如下   ![java使用te