spark使用MLlib时pom.xml的配置
新项目要使用机器学习做一个二分类模型预测,在IDEA中使用Maven新创建了一个工程model,当我在脚本中import 相关模块的时候,提示无法加载。这是因为在maven仓库中还没有ML包,需要在POM文件中配置才行。一、POM文件配置方法第一步:在POM文件中配置spark-mllib依赖<dependency><groupId>org.apache.spark<
新项目要使用机器学习做一个二分类模型预测,在IDEA中使用Maven新创建了一个工程model,当我在脚本中import 相关模块的时候,提示无法加载。

这是因为在maven仓库中还没有ML包,需要在POM文件中配置才行。
一、POM文件配置方法
第一步:在POM文件中配置spark-mllib依赖
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-mllib_${spark.version.scala}</artifactId>
<version>${spark.version}</version>
<scope>provided</scope>
</dependency>
注意:(1)这里的 spark.version.scala跟你安装的scala版本一致;
(2)spark.version跟你使用的spark版本一致,但不要太低,最好2.4以上。
(3)mllib库总合并了ml库,所以配置依赖项只要spark-mllib就可以了。
第二步:IDEA中maven下载更新刚配置的依赖资源包
如果在maven依赖dependencies中能找到spark-mllib说明已经更新好了。如下:

第三步,导入ml模块,进行开发
![]()
完成。
二、如何确定POM文件的配置命令?
1、搜索maven仓库,检索 spark ml
https://mvnrepository.com/artifact/org.apache.spark/spark-mllib

2、 点击进来找到你想要使用的spark版本
这里就能看到mllib包所依赖的spark版本(第一列Version指的就是spark的版本)、scala版本。所以,版本不能太低也是在这里确认的。

3、根据提示的maven配置进行配置

4、转到 一、POM文件配置方法 即可
完成
更多推荐


所有评论(0)