2010世界杯主题曲_世界杯非洲预选赛 - fsyxyy.com

求助:PDF 文档中文字无法搜索,已排除是图片扫描格式

虫部落»节点 › 搜索 › 问答

求助:PDF 文档中文字无法搜索,已排除是图片扫描格式

查看: 28407|回复: 14

0

0

橙子

当前离线

OP

橙子

发表于 2019-7-20 10:55:00

下面百度云盘链接中的 pdf 文档,“文字搜索查找”功能失效。为何呢?但是文字的选择,进行“加亮”等操作是正常的,说明不是图片扫描格式的。我用adobe 进行了增强扫描操作,还是无果。Google了,也还是没找到解法。

所以,特来求助诸位虫友,希望能弄明白其中的原理。谢谢!

(pdf文件为2.46M,超出2M的限制,无法上传)

pdf(源文件)百度云盘下载

链接: https://pan.baidu.com/s/1Af-oBos9Qw6i7i5MO-BEMw

提取码: xu99

1.png (161.46 KB, 下载次数: 1116)

下载附件

2019-7-20 10:51 上传

2.png (161.9 KB, 下载次数: 1033)

下载附件

2019-7-20 10:52 上传

贡水蜿蜒

当前离线

推荐

贡水蜿蜒

发表于 2019-7-20 15:26:30

用泰比光学这个软件对整篇文档进行识别之后,就能搜索了

wudunxu

当前离线

FR

wudunxu

发表于 2019-7-20 12:38:46

我帮你重新编译了一遍,你下载阅读试试。链接: https://pan.baidu.com/s/1IgibqpfJ1c1EfQ3X7A-u3g 提取码: 3b8w

whistle

当前离线

FR

whistle

发表于 2019-7-20 15:45:39

贡水蜿蜒 发表于 2019-7-20 15:26

用泰比光学这个软件对整篇文档进行识别之后,就能搜索了

这个方法不错啊

橙子

当前离线

5

楼主|

橙子

发表于 2019-7-21 08:44:39

wudunxu 发表于 2019-7-20 12:38

我帮你重新编译了一遍,你下载阅读试试。链接: https://pan.baidu.com/s/1IgibqpfJ1c1EfQ3X7A-u3g 提取码: ...

谢谢,确实可以搜索了。不如授人予渔,想请问一下你是如何解决的呢?学习一下。(我以为adobe的增强识别功能是无比强大了的)

橙子

当前离线

6

楼主|

橙子

发表于 2019-7-21 08:47:15

wudunxu 发表于 2019-7-20 12:38

我帮你重新编译了一遍,你下载阅读试试。链接: https://pan.baidu.com/s/1IgibqpfJ1c1EfQ3X7A-u3g 提取码: ...

更加疑惑的是,既然源文档是文本格式的,其是如何做到限制搜索的呢(而选择文本加亮等操作是正常的)

藤井树

当前离线

7

藤井树

发表于 2019-7-21 09:55:27

abbyy finereader可以

wudunxu

当前离线

8

wudunxu

发表于 2019-7-21 10:01:18

橙子 发表于 2019-7-21 08:47

更加疑惑的是,既然源文档是文本格式的,其是如何做到限制搜索的呢(而选择文本加亮等操作是正常的) ...

你上传的pdf中,作者已经通过技术处理,把文字做了转码处理,即便你肉眼看到的是汉字,但实际上复制出来已经是乱码,不信的话你可以复制里面的一句话,粘贴后发现是不可读的。这个过程一般是不可逆的,除非知道转码加密算法才可以还原。

我上传的pdf,实际上是重新做的文档,基于作者Github开源的内容(https://github.com/xiaolai/regular-investing-in-box),我再借助本地工具,直接转化为你想要的的pdf版本。

MediciChen

当前离线

9

MediciChen

发表于 2019-7-21 10:20:21

万兴PDF、FineReader、Transformer、福昕PDF编辑等都可以实现PDF扫描版文档经过“可搜索PDF”而被识别。

独角仙之夜

当前离线

10

独角仙之夜

发表于 2019-7-21 22:22:51

这种加密方法如何实现?值得学习啊{:5_141:},实在不行只能文字识别了{:5_144:}

李世飞

当前离线

11

李世飞

发表于 2019-7-22 09:02:10

有人知道这个是如何实现的吗,感觉很是牛逼!

橙子

当前离线

12

楼主|

橙子

发表于 2019-7-22 17:54:44

wudunxu 发表于 2019-7-21 10:01

你上传的pdf中,作者已经通过技术处理,把文字做了转码处理,即便你肉眼看到的是汉字,但实际上复制出来 ...

好厉害,谢谢!对于github,我的水平也就是仅次于纯浏览阶段。等你有空的时候,就拿我提问的pdf为例子,分享一篇帖子,专门讲解转化的过程与步骤,想必虫友们都很收益。

Lucia

当前离线

13

Lucia

发表于 2019-7-23 09:37:48

wudunxu 发表于 2019-7-21 10:01

你上传的pdf中,作者已经通过技术处理,把文字做了转码处理,即便你肉眼看到的是汉字,但实际上复制出来 ...

我同样也遇到了这个问题,点开github的链接木有找到相关内容,同请大神有空写个详细教程,十分感谢~

light__shine

当前离线

14

light__shine

发表于 2019-7-23 10:35:51

在adobe DC里,增强扫描,识别文本,就可以搜索了,

橙子

当前离线

15

楼主|

橙子

发表于 2019-7-27 17:39:00

light__shine 发表于 2019-7-23 10:35

在adobe DC里,增强扫描,识别文本,就可以搜索了,

我就是用过adobe DC试过了,无果,这个PDF可能比较特殊。所以才进一步求助的。

绝地求生:账号被盗及封禁后的解封攻略,专业团队帮你一键破解!
提升效率使用Redis极大提高点赞数的存储效率(使用redis保存点赞数)


最新发表

友情链接