文档全文搜索程序开发

现在市面上有很多文档存储管理的云服务,比如坚果云。这些服务除了提供文件存储之外,高级功能都提供文件内容的搜索服务。
那么文件内容搜索有什么用呢?当我们需要查找文件时,一般都是查找文件名,但是很多时候我们不太记得文件名,只记得几个关键字词,需要根据这些关键字词查找到对应的文档。
如果自行开发文档全文搜索程序,简单的思路如下:

  • 对于标准文档内容,比如PDF(非扫描版)、微软 Office、TXT等等,可直接使用 Apache Tika 读取文件的内容。
  • 对于非标准的文档内容,比如扫描档PDF、图片等可使用OCR工具识别出文件里的内容。将PDF转换成图片,然后使用PaddleOCR识别
  • 对于读取到的文本内容,存储到 Elasticsearch
  • 从ES中查找关键字信息即可。