Tika解析文件Demo

浅浅的花香味﹌ 2022-04-13 10:27 381阅读 0赞
  1. package com.qin.testparser;
  2. import java.io.File;
  3. import java.io.FileInputStream;
  4. import org.apache.tika.metadata.Metadata;
  5. import org.apache.tika.mime.MimeType;
  6. import org.apache.tika.mime.MimeTypes;
  7. import org.apache.tika.mime.MimeTypesFactory;
  8. import org.apache.tika.parser.AutoDetectParser;
  9. import org.apache.tika.parser.ParseContext;
  10. import org.apache.tika.parser.Parser;
  11. import org.apache.tika.parser.microsoft.OfficeParser;
  12. import org.apache.tika.sax.BodyContentHandler;
  13. /**
  14. * 使用Tika解析
  15. * 各种文件
  16. *
  17. *
  18. * @author qindongliang
  19. *
  20. *
  21. * ***/
  22. public class ParseDoc {
  23. public static void main(String[] args)throws Exception {
  24. //FileInputStream f=new FileInputStream(new File("D:\\校讯通产品用户使用手册.doc"));
  25. //FileInputStream f=new FileInputStream(new File("E:\\tika\\tika in action.pdf"));
  26. FileInputStream f=new FileInputStream(new File("D:\\345.jpg"));
  27. Parser p= new AutoDetectParser();//自动获取一个合适的解析器类型
  28. //如果文件很大,那么这个值可以适当调大
  29. BodyContentHandler hand= new BodyContentHandler(10000);
  30. Metadata me=new Metadata();
  31. ParseContext pct=new ParseContext();
  32. // p.parse(f, hand ,new Metadata(), new ParseContext());
  33. p.parse(f, hand ,me, pct);
  34. //打印读取的文本
  35. System.out.println(hand.toString());
  36. }
  37. }

发表评论

表情:
评论列表 (有 0 条评论,381人围观)

还没有评论,来说两句吧...

相关阅读