在 Ubuntu 22.04 上安装 PySpark
如果您是一名数据工程师,您会欣赏 Apache Spark 在处理大型数据集方面所发挥的作用。该开源框架支持分析大数据,并可在各种集群计算环境中使用Python等多种语言。
本文将指导您在 Ubuntu 22.04 上安装 PySpark 的步骤。我们将了解 PySpark 并提供有关安装步骤的详细教程。看一看!
如何在 Ubuntu 22.04 上安装 PySpark
Apache Spark 是一个开源引擎,支持包括 Python 在内的不同编程语言。当您想通过 Python 使用它时,您需要 PySpark。在新的 Apache Spark 版本中,PySpark 与其捆绑在一起,这意味着您无需将其作为库单独安装。但是,您的系统上必须运行 Python 3。
此外,您需要在 Ubuntu 22.04 上安装 Java 才能安装 Apache Spark。不过,您仍然需要有 Scala。但它现在附带 Apache Spark 包,无需单独安装。让我们深入了解安装步骤。
首先,首先打开终端并更新包存储库。
接下来,如果尚未安装 Java,则必须安装它。 Apache Spark 需要 Java 版本 8 或更高版本。您可以运行以下命令来快速安装Java:
安装完成后,检查安装的Java版本,确认安装成功:
我们安装了 openjdk 11,如以下输出所示:
安装 Java 后,接下来就是安装 Apache Spark。为此,我们必须从其网站获取首选套餐。包文件是一个 tar 文件。我们使用 wget 下载它。您还可以使用curl 或任何适合您情况的下载方法。
访问 Apache Spark 下载页面并获取最新或首选版本。请注意,在最新版本中,Apache Spark 与 Scala 2 或更高版本捆绑在一起。因此,您无需担心单独安装 Scala。
对于我们的例子,让我们使用以下命令安装 Spark 版本 3.3.2:
确保下载完成。您将看到“已保存”消息,以确认软件包已下载。
下载的文件已存档。使用 tar 提取它,如下所示。替换存档文件名以匹配您下载的文件名。
解压后,将在当前目录中创建一个包含所有 Spark 文件的新文件夹。我们可以列出目录内容来验证我们是否拥有新目录。
然后,您应该将创建的 Spark 文件夹移动到 /opt/spark 目录。使用移动命令来实现这一点。
在系统上使用 Apache Spark 之前,我们必须设置环境路径变量。在终端上运行以下两条命令,导出“.bashrc”文件中的环境路径:
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
使用以下命令刷新文件以保存环境变量:
现在,您已经在 Ubuntu 22.04 上安装了 Apache Spark。安装 Apache Spark 后,意味着您还安装了 PySpark。
我们首先验证Apache Spark是否安装成功。通过运行spark-shell 命令打开spark shell。
如果安装成功,它将打开一个 Apache Spark shell 窗口,您可以在其中开始与 Scala 界面进行交互。
Scala 界面不是每个人的选择,这取决于您想要完成的任务。您可以通过在终端上运行 pyspark 命令来验证 PySpark 是否也已安装。
它应该打开 PySpark shell,您可以在其中开始执行各种脚本并创建利用 PySpark 的程序。
假设您没有使用此选项安装 PySpark,您可以使用 pip 来安装它。为此,请运行以下 pip 命令:
Pip 在您的 Ubuntu 22.04 上下载并设置 PySpark。您可以开始使用它来执行数据分析任务。
打开 PySpark shell 后,您可以自由编写代码并执行它。在这里,我们通过创建一个简单的代码来测试 PySpark 是否正在运行并准备使用,该代码接受插入的字符串,检查所有字符以查找匹配的字符,并返回字符重复的总次数。
这是我们程序的代码:
通过执行它,我们得到以下输出。这证实了 PySpark 已安装在 Ubuntu 22.04 上,并且可以在创建不同的 Python 和 Apache Spark 程序时导入和使用。
结论
我们介绍了安装 Apache Spark 及其依赖项的步骤。尽管如此,我们还是了解了如何在安装 Spark 后验证 PySpark 是否已安装。此外,我们还提供了示例代码来证明我们的 PySpark 已在 Ubuntu 22.04 上安装并运行。