+ -
当前位置:首页 → 问答吧 → 一个高中物理教师用xelatex出试题,所遇到的困难以及解决办法。

一个高中物理教师用xelatex出试题,所遇到的困难以及解决办法。

时间:2011-07-07

来源:互联网

请问现在Ubuntu下,有没有识别扫描中文pdf文件的软件? 谢谢!

作者: lehe   发布时间: 2011-07-07

tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。

作者: billzt   发布时间: 2011-07-07

billzt 写道:
tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。


谢谢! 我用Ubuntu 10.10 synaptic装的 tesseract-ocr,synaptic没有中文语言包。该怎么办呢?

作者: lehe   发布时间: 2011-07-07

http://code.google.com/p/tesseract-ocr

http://www.abbyy.com/ocr_sdk/?source=products

http://www.webservius.com/services/wisetrend/wiseocr

作者: luojie-dune   发布时间: 2011-07-07

有人能给出实际的中文扫描效果没?

作者: eexpress   发布时间: 2011-07-07

billzt 写道:
tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。


我在 gImageReader里装中文语言包时,先sudo apt-file update, 然后点简体字,zh-cn, install。出错如下:

引用:
Failed to install dictionary
The following error occured:
No package providing the requested file found.


请问怎么回事? 谢谢!

作者: lehe   发布时间: 2011-07-07

lehe 写道:
billzt 写道:
tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。


我在 gImageReader里装中文语言包时,先sudo apt-file update, 然后点简体字,zh-cn, install。出错如下:

引用:
Failed to install dictionary
The following error occured:
No package providing the requested file found.


请问怎么回事? 谢谢!


我说的中文语言包其实是“训练包”,在这里:
http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=
注意它只适用于3.0以上版本的 tesseract-ocr,而你在新立得里安装的 tesseract-ocr应该不是3.0版,那就很悲剧了,不妨添加这个ppa:
https://launchpad.net/~nutznboltz/+archive/tesseract
务必先把它升到3.0

然后,之前说的那个“训练包”解压后得到 chi_sim.traineddata 文件,放到 /usr/share/tessdata 里面就可以了。

然后,在 gImage Reader 里面把简体中文添加进去。

话说我平时也不怎么用这玩意儿。

作者: billzt   发布时间: 2011-07-07

请问现在Ubuntu下,有没有识别扫描中文pdf文件的软件? 谢谢!

作者: lehe   发布时间: 2011-07-07

tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。

作者: billzt   发布时间: 2011-07-07

billzt 写道:
tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。


谢谢! 我用Ubuntu 10.10 synaptic装的 tesseract-ocr,synaptic没有中文语言包。该怎么办呢?

作者: lehe   发布时间: 2011-07-07

http://code.google.com/p/tesseract-ocr

http://www.abbyy.com/ocr_sdk/?source=products

http://www.webservius.com/services/wisetrend/wiseocr

作者: luojie-dune   发布时间: 2011-07-07

有人能给出实际的中文扫描效果没?

作者: eexpress   发布时间: 2011-07-07

billzt 写道:
tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。


我在 gImageReader里装中文语言包时,先sudo apt-file update, 然后点简体字,zh-cn, install。出错如下:

引用:
Failed to install dictionary
The following error occured:
No package providing the requested file found.


请问怎么回事? 谢谢!

作者: lehe   发布时间: 2011-07-07

lehe 写道:
billzt 写道:
tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。


我在 gImageReader里装中文语言包时,先sudo apt-file update, 然后点简体字,zh-cn, install。出错如下:

引用:
Failed to install dictionary
The following error occured:
No package providing the requested file found.


请问怎么回事? 谢谢!


我说的中文语言包其实是“训练包”,在这里:
http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=
注意它只适用于3.0以上版本的 tesseract-ocr,而你在新立得里安装的 tesseract-ocr应该不是3.0版,那就很悲剧了,不妨添加这个ppa:
https://launchpad.net/~nutznboltz/+archive/tesseract
务必先把它升到3.0

然后,之前说的那个“训练包”解压后得到 chi_sim.traineddata 文件,放到 /usr/share/tessdata 里面就可以了。

然后,在 gImage Reader 里面把简体中文添加进去。

话说我平时也不怎么用这玩意儿。

作者: billzt   发布时间: 2011-07-07

请问现在Ubuntu下,有没有识别扫描中文pdf文件的软件? 谢谢!

作者: lehe   发布时间: 2011-07-07

tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。

作者: billzt   发布时间: 2011-07-07

billzt 写道:
tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。


谢谢! 我用Ubuntu 10.10 synaptic装的 tesseract-ocr,synaptic没有中文语言包。该怎么办呢?

作者: lehe   发布时间: 2011-07-07

http://code.google.com/p/tesseract-ocr

http://www.abbyy.com/ocr_sdk/?source=products

http://www.webservius.com/services/wisetrend/wiseocr

作者: luojie-dune   发布时间: 2011-07-07

有人能给出实际的中文扫描效果没?

作者: eexpress   发布时间: 2011-07-07

billzt 写道:
tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。


我在 gImageReader里装中文语言包时,先sudo apt-file update, 然后点简体字,zh-cn, install。出错如下:

引用:
Failed to install dictionary
The following error occured:
No package providing the requested file found.


请问怎么回事? 谢谢!

作者: lehe   发布时间: 2011-07-07

lehe 写道:
billzt 写道:
tesseract-ocr + 对应的中文语言包 + gImageReader ,当然前提是你的PDF要足够清晰才行。


我在 gImageReader里装中文语言包时,先sudo apt-file update, 然后点简体字,zh-cn, install。出错如下:

引用:
Failed to install dictionary
The following error occured:
No package providing the requested file found.


请问怎么回事? 谢谢!


我说的中文语言包其实是“训练包”,在这里:
http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=
注意它只适用于3.0以上版本的 tesseract-ocr,而你在新立得里安装的 tesseract-ocr应该不是3.0版,那就很悲剧了,不妨添加这个ppa:
https://launchpad.net/~nutznboltz/+archive/tesseract
务必先把它升到3.0

然后,之前说的那个“训练包”解压后得到 chi_sim.traineddata 文件,放到 /usr/share/tessdata 里面就可以了。

然后,在 gImage Reader 里面把简体中文添加进去。

话说我平时也不怎么用这玩意儿。

作者: billzt   发布时间: 2011-07-07

热门下载

更多