• 线性回归算法
    • 功能介绍
    • 参数说明
    • 脚本示例
      • 运行脚本
      • 运行结果

    线性回归算法

    功能介绍

    • 线性回归是一个回归算法
    • 线性回归组件支持稀疏、稠密两种数据格式
    • 线性回归组件支持带样本权重的训练

    参数说明

    名称 中文名称 描述 类型 是否必须? 默认值
    reservedCols 算法保留列名 算法保留列 String[] null
    predictionCol 预测结果列名 预测结果列名 String
    vectorCol 向量列名 向量列对应的列名,默认值是null String null

    脚本示例

    运行脚本

    1. data = np.array([
    2. [2, 1, 1],
    3. [3, 2, 1],
    4. [4, 3, 2],
    5. [2, 4, 1],
    6. [2, 2, 1],
    7. [4, 3, 2],
    8. [1, 2, 1],
    9. [5, 3, 3]])
    10. df = pd.DataFrame({"f0": data[:, 0],
    11. "f1": data[:, 1],
    12. "label": data[:, 2]})
    13. batchData = dataframeToOperator(df, schemaStr='f0 int, f1 int, label int', op_type='batch')
    14. streamData = dataframeToOperator(df, schemaStr='f0 int, f1 int, label int', op_type='stream')
    15. colnames = ["f0","f1"]
    16. lr = LinearRegTrainBatchOp().setFeatureCols(colnames).setLabelCol("label")
    17. model = batchData.link(lr)
    18. predictor = LinearRegPredictStreamOp(model).setPredictionCol("pred")
    19. predictor.linkFrom(streamData).print()
    20. StreamOperator.execute()

    运行结果

    f0 f1 label pred
    2 1 1 1.000014
    3 2 1 1.538474
    4 3 2 2.076934
    2 4 1 1.138446
    2 2 1 1.046158
    4 3 2 2.076934
    1 2 1 0.553842
    5 3 3 2.569250