Ubuntu JPG 到 PDF 转换过程(包括 OCR 功能)
本教程介绍如何将 jpg 和其他图像类型转换为 PDF,包括基于 Debian 的 Linux 发行版(例如 Ubuntu)上的 OCR 功能。
阅读本教程后,您将了解如何使用 GUI 和命令行界面将图像转换为 PDF。图形化的方式可以让您实现OCR功能,从图像中提取图像生成可编辑的PDF文件。
使用 Pdf2Go 将 jpg 图像转换为 PDF 并提取字符:
本教程中介绍的第一种方法包括 Pdf2Go,该软件允许我们将图像转换为 PDF 文件并提取字符,从而输出可编辑的 PDF 文件;为此,该程序使用 tesseract。
要安装Pdf2Go,首先需要安装span;在基于 Debian 的 Linux 发行版上,您可以通过运行以下命令来获取 snapd。
通过运行以下命令为 snap 创建符号链接并安装 Pdf2Go。
sudo snap install pdf2go
注意:就我而言,我没有找到 Pdf2go 快捷方式;我需要注销并重新登录才能找到该图标。
使用应用程序搜索框查找并执行Pdf2Go,如下所示。
打开 Pdf2Go 后,如下图所示。您将看到一个栏,用于输入要转换的图像的 URL。您也可以选择单击文件夹图标来上传文件。
上传文件或复制其 URL 后,单击文件夹图标旁边的火箭图标。
将显示一个加载栏,完成后,您将看到屏幕分为左侧的图像和右侧的提取文本。
本教程中解释的过程可以应用于其他图像类型。
注意:我要感谢 Pdf2Go 开发人员 Rishabh Bhardwaj,他在安装出现问题时立即提供了支持。他的支持没有包含在本教程中,因为我意识到自己犯了一个错误。对于 Linux 的我们来说,提示包含一个能够从图像中提取文本的选项非常重要,因为关于这个主题的教程并不多。
使用 Imagemagick 将 jpg 图像从 cli 转换为 PDF(无 OCR):
本节介绍如何从命令行使用 ImageMagick 将 jpg 或其他图像类型转换为 pdf。在这种情况下,输出将不可编辑,并且此过程中不包含 OCR。
要在基于 Debian 的 Linux 发行版(例如 Ubuntu)上安装 Imagemagick,请运行以下命令。
安装 Imagemagick 后,使用转换命令,后跟要转换的图像,以及输出 pdf 文件,如下图所示。
注意:如果我在尝试执行以下命令时遇到策略问题,如果您也遇到同样的问题,请转到本节末尾查看解决方案。
如您所见,图像已正确转换。
您可以使用imagemagick将多个文件转换为PDF;语法相同;只需定义要转换的所有图像,如下所示。
修复 Imagemagick 策略错误:
如前所述,我在尝试执行 Imagemagick 时遇到了错误;错误是:“转换:尝试执行安全策略‘PDF’不允许的操作@ error/constitute.c/IsCoderAuthorized/408”。
要解决这个问题,请编辑文件/etc/ImageMagick-6/policy.xml;您可以使用以下命令使用 Nano 文本编辑器编辑该文件。
进入文件后,添加行
现在 Imagemagick 必须可以工作了。
使用 img2pdf 从 cli 将 jpg 图像转换为 PDF(无 OCR):
该方法包括软件img2pdf。要在基于 Debian 的 Linux 发行版(包括 Ubuntu)上安装它,请运行以下命令。
使用img2pdf将图像转换为pdf,语法与Imagemagick非常相似;只需添加 -o 选项来定义输出文件名,如下例所示。
与 Imagemagick 一样,您可以使用 img2pdf 转换多个图像;语法类似,如以下示例所示。
使用 jpg2pdf (GUI) 将图像转换为 pdf:
本教程中解释的最后一个工具是 jpg2pdf
与 Pdf2Go 一样,使用应用程序搜索框查找 jpg2pdf,如下图所示。
程序启动后,单击下图所示的添加图像图标,然后选择要转换的图像。
您要转换的一个或多个文件将添加到列表中。最好如下所示标记 st 列的小方块。
选择要转换的图像后,只需按“开始转换”按钮即可。转换过程结束后,将出现一个框,提示您打开 PDF 文件或包含该文件的目录。
如您所见,该过程成功了。
结论:
如您所见,Linux 用户有很多将图像转换为 pdf 的选项。上面解释的所有技术都支持其他图像扩展名,例如 .png。任何 Linux 用户级别都可以轻松使用所解释的方法。第一个选项允许将文本图像转换为可编辑的 PDF,对于提取文本非常有用。
我希望本教程解释如何在 Linux 中将图像转换为 pdf 有用。继续关注 Linux 提示以获取更多 Linux 提示和教程。