博客
关于我
spark之MLLIB
阅读量:558 次
发布时间:2019-03-09

本文共 1655 字,大约阅读时间需要 5 分钟。

MLlib 是 Apache Spark 的机器学习库,旨在简化机器学习工作流程并提升扩展性。该库整合了多种常用算法和工具,涵盖分类、回归、聚类、协同过滤等核心任务,同时提供底层优化原语和高层管道 API,适用于大规模数据处理。

1. 算法工具

MLlib 提供了多种通用机器学习算法:

  • 分类算法:如 logistic 回归、支持向量机 (SVM) 和随机森林。
  • 回归算法:线性回归和支持向量回归。
  • 聚类算法:K-means 和高斯混合模型 (GMM)。
  • 协同过滤:基于用户- zboží矩阵的均 Appliances 意顾客推荐。

2. 特征化工具

MLlib 提供了多种特征化工具:

  • 特征提取:如文本分词(通过 Tokenizer)。
  • 特征转化:如 HashingTF,用于将文本转化为特征向量。
  • 降维:如 PCA 和 t-SNE。
  • 特征选择:如 Lasso 回归选择重要特征。

3. 工作流(PipeLine)

MLlib 的工作流是其核心功能之一。

3.1 工作流组成

  • DataFrame:作为数据处理的核心容器,类似于 SQL 中的表格,支持多种数据类型。
  • Transformer:定义转换器,将数据从一个形式转换为另一种形式,常用于预处理任务。
  • Estimator:定义估计器,用于模型训练和优化,例如随机森林算法。
  • Parameter:用于设置模型参数,统一管理参数配置。
  • PipeLine:将转换器和估计器按顺序组织,形成完整的工作流。

3.2 如何构建管道

通过代码示例可以看出工作流的构建步骤:

from pyspark.ml import Pipelinefrom pyspark.ml.classification import LogisticRegressionfrom pyspark.ml.feature import HashingTF, Tokenizer# 创建训练集 DataFramedf_train = spark.createDataFrame([    (0, "a b c d e spark", 1.0),    (1, "b d", 0.0),    (2, "spark f g h", 1.0),    (3, "hadoop mapreduce", 0.0)], ["id", "text", "label"])# 定义 PipeLine 阶段tokenizer = Tokenizer(inputCol="text", outputCol="words")hashTf = HashingTF(inputCol=tokenizer.getOutputCol(), outputCol="features")# 创建 PipeLine 实例,并训练模型pipeline = Pipeline(stages=[tokenizer, hashTf, lr])model = pipeline.fit(df_train)# 创建测试集df_test = spark.createDataFrame([    (4, "spark i j k"),    (5, "l m n"),    (6, "spark hadoop spark"),    (7, "apache hadoop")], ["id", "text"])# 进行预测predict = model.transform(df_test)predict.show()

4. 模型训练与测试

通过上述代码可以观察到模型训练和测试的完整流程:

  • 训练阶段:输入文本数据经过分词、特征提取后,输入到 logistic 回归模型中进行训练。
  • 测试阶段:利用测试集数据经过同样的预处理,最终得到预测结果。

5. 工作流优势

工作流的核心优势在于实现了多任务机器学习的自动化,用户无需手动调整各个算法之间的依赖关系。在 MLlib 中,可以轻松组合多种算法,形成复杂的工作流,充分发挥大规模数据处理能力。

转载地址:http://oubpz.baihongyu.com/

你可能感兴趣的文章
NIFI大数据进阶_离线同步MySql数据到HDFS_02_实际操作_splitjson处理器_puthdfs处理器_querydatabasetable处理器---大数据之Nifi工作笔记0030
查看>>
NIFI大数据进阶_连接与关系_设置数据流负载均衡_设置背压_设置展现弯曲_介绍以及实际操作---大数据之Nifi工作笔记0027
查看>>
NIFI数据库同步_多表_特定表同时同步_实际操作_MySqlToMysql_可推广到其他数据库_Postgresql_Hbase_SqlServer等----大数据之Nifi工作笔记0053
查看>>
NIFI汉化_替换logo_二次开发_Idea编译NIFI最新源码_详细过程记录_全解析_Maven编译NIFI避坑指南001---大数据之Nifi工作笔记0068
查看>>
NIFI集群_内存溢出_CPU占用100%修复_GC overhead limit exceeded_NIFI: out of memory error ---大数据之Nifi工作笔记0017
查看>>
NIFI集群_队列Queue中数据无法清空_清除队列数据报错_无法删除queue_解决_集群中机器交替重启删除---大数据之Nifi工作笔记0061
查看>>
NIH发布包含10600张CT图像数据库 为AI算法测试铺路
查看>>
Nim教程【十二】
查看>>
Nim游戏
查看>>
NIO ByteBuffer实现原理
查看>>
Nio ByteBuffer组件读写指针切换原理与常用方法
查看>>
NIO Selector实现原理
查看>>
nio 中channel和buffer的基本使用
查看>>
NIO基于UDP协议的网络编程
查看>>
NISP一级,NISP二级报考说明,零基础入门到精通,收藏这篇就够了
查看>>
Nitrux 3.8 发布!性能全面提升,带来非凡体验
查看>>
NI笔试——大数加法
查看>>
NLog 自定义字段 写入 oracle
查看>>
NLog类库使用探索——详解配置
查看>>
NLP 基于kashgari和BERT实现中文命名实体识别(NER)
查看>>