虫部落»节点 › 搜索 › 问答
求助:PDF 文档中文字无法搜索,已排除是图片扫描格式
查看: 28407|回复: 14
0
0
橙子
当前离线
OP
橙子
发表于 2019-7-20 10:55:00
下面百度云盘链接中的 pdf 文档,“文字搜索查找”功能失效。为何呢?但是文字的选择,进行“加亮”等操作是正常的,说明不是图片扫描格式的。我用adobe 进行了增强扫描操作,还是无果。Google了,也还是没找到解法。
所以,特来求助诸位虫友,希望能弄明白其中的原理。谢谢!
(pdf文件为2.46M,超出2M的限制,无法上传)
pdf(源文件)百度云盘下载
链接: https://pan.baidu.com/s/1Af-oBos9Qw6i7i5MO-BEMw
提取码: xu99
1.png (161.46 KB, 下载次数: 1116)
下载附件
2019-7-20 10:51 上传
2.png (161.9 KB, 下载次数: 1033)
下载附件
2019-7-20 10:52 上传
贡水蜿蜒
当前离线
推荐
贡水蜿蜒
发表于 2019-7-20 15:26:30
用泰比光学这个软件对整篇文档进行识别之后,就能搜索了
wudunxu
当前离线
FR
wudunxu
发表于 2019-7-20 12:38:46
我帮你重新编译了一遍,你下载阅读试试。链接: https://pan.baidu.com/s/1IgibqpfJ1c1EfQ3X7A-u3g 提取码: 3b8w
whistle
当前离线
FR
whistle
发表于 2019-7-20 15:45:39
贡水蜿蜒 发表于 2019-7-20 15:26
用泰比光学这个软件对整篇文档进行识别之后,就能搜索了
这个方法不错啊
橙子
当前离线
5
楼主|
橙子
发表于 2019-7-21 08:44:39
wudunxu 发表于 2019-7-20 12:38
我帮你重新编译了一遍,你下载阅读试试。链接: https://pan.baidu.com/s/1IgibqpfJ1c1EfQ3X7A-u3g 提取码: ...
谢谢,确实可以搜索了。不如授人予渔,想请问一下你是如何解决的呢?学习一下。(我以为adobe的增强识别功能是无比强大了的)
橙子
当前离线
6
楼主|
橙子
发表于 2019-7-21 08:47:15
wudunxu 发表于 2019-7-20 12:38
我帮你重新编译了一遍,你下载阅读试试。链接: https://pan.baidu.com/s/1IgibqpfJ1c1EfQ3X7A-u3g 提取码: ...
更加疑惑的是,既然源文档是文本格式的,其是如何做到限制搜索的呢(而选择文本加亮等操作是正常的)
藤井树
当前离线
7
藤井树
发表于 2019-7-21 09:55:27
abbyy finereader可以
wudunxu
当前离线
8
wudunxu
发表于 2019-7-21 10:01:18
橙子 发表于 2019-7-21 08:47
更加疑惑的是,既然源文档是文本格式的,其是如何做到限制搜索的呢(而选择文本加亮等操作是正常的) ...
你上传的pdf中,作者已经通过技术处理,把文字做了转码处理,即便你肉眼看到的是汉字,但实际上复制出来已经是乱码,不信的话你可以复制里面的一句话,粘贴后发现是不可读的。这个过程一般是不可逆的,除非知道转码加密算法才可以还原。
我上传的pdf,实际上是重新做的文档,基于作者Github开源的内容(https://github.com/xiaolai/regular-investing-in-box),我再借助本地工具,直接转化为你想要的的pdf版本。
MediciChen
当前离线
9
MediciChen
发表于 2019-7-21 10:20:21
万兴PDF、FineReader、Transformer、福昕PDF编辑等都可以实现PDF扫描版文档经过“可搜索PDF”而被识别。
独角仙之夜
当前离线
10
独角仙之夜
发表于 2019-7-21 22:22:51
这种加密方法如何实现?值得学习啊{:5_141:},实在不行只能文字识别了{:5_144:}
李世飞
当前离线
11
李世飞
发表于 2019-7-22 09:02:10
有人知道这个是如何实现的吗,感觉很是牛逼!
橙子
当前离线
12
楼主|
橙子
发表于 2019-7-22 17:54:44
wudunxu 发表于 2019-7-21 10:01
你上传的pdf中,作者已经通过技术处理,把文字做了转码处理,即便你肉眼看到的是汉字,但实际上复制出来 ...
好厉害,谢谢!对于github,我的水平也就是仅次于纯浏览阶段。等你有空的时候,就拿我提问的pdf为例子,分享一篇帖子,专门讲解转化的过程与步骤,想必虫友们都很收益。
Lucia
当前离线
13
Lucia
发表于 2019-7-23 09:37:48
wudunxu 发表于 2019-7-21 10:01
你上传的pdf中,作者已经通过技术处理,把文字做了转码处理,即便你肉眼看到的是汉字,但实际上复制出来 ...
我同样也遇到了这个问题,点开github的链接木有找到相关内容,同请大神有空写个详细教程,十分感谢~
light__shine
当前离线
14
light__shine
发表于 2019-7-23 10:35:51
在adobe DC里,增强扫描,识别文本,就可以搜索了,
橙子
当前离线
15
楼主|
橙子
发表于 2019-7-27 17:39:00
light__shine 发表于 2019-7-23 10:35
在adobe DC里,增强扫描,识别文本,就可以搜索了,
我就是用过adobe DC试过了,无果,这个PDF可能比较特殊。所以才进一步求助的。