• Ridge回归算法
    • 功能介绍
    • 参数说明
    • 脚本示例
      • 运行脚本
      • 运行结果

    Ridge回归算法

    功能介绍

    • Ridge回归是一个回归算法
    • Ridge回归组件支持稀疏、稠密两种数据格式
    • Ridge回归组件支持带样本权重的训练

    参数说明

    名称 中文名称 描述 类型 是否必须? 默认值
    reservedCols 算法保留列名 算法保留列 String[] null
    predictionCol 预测结果列名 预测结果列名 String
    vectorCol 向量列名 向量列对应的列名,默认值是null String null

    脚本示例

    运行脚本

    1. data = np.array([
    2. [2, 1, 1],
    3. [3, 2, 1],
    4. [4, 3, 2],
    5. [2, 4, 1],
    6. [2, 2, 1],
    7. [4, 3, 2],
    8. [1, 2, 1],
    9. [5, 3, 3]])
    10. df = pd.DataFrame({"f0": data[:, 0],
    11. "f1": data[:, 1],
    12. "label": data[:, 2]})
    13. batchData = dataframeToOperator(df, schemaStr='f0 int, f1 int, label int', op_type='batch')
    14. streamData = dataframeToOperator(df, schemaStr='f0 int, f1 int, label int', op_type='stream')
    15. colnames = ["f0","f1"]
    16. ridge = RidgeRegTrainBatchOp().setLambda(0.1).setFeatureCols(colnames).setLabelCol("label")
    17. model = batchData.link(ridge)
    18. predictor = LinearRegPredictStreamOp(model).setPredictionCol("pred")
    19. predictor.linkFrom(streamData).print()
    20. StreamOperator.execute()

    运行结果

    f0 f1 f2 label pred
    1.0 7.0 9.0 16.8 16.614452974656647
    1.0 3.0 3.0 6.7 6.754928617036061
    1.0 2.0 4.0 6.9 6.871072594920224
    1.0 3.0 4.0 8.0 7.787338643951784