- MultiStringIndexer训练
- 功能介绍
- 参数说明
- 脚本示例
- 脚本代码
- 脚本运行结果
MultiStringIndexer训练
功能介绍
MultiStringIndexer训练组件的作用是训练一个模型用于将多列字符串映射为整数。
参数说明
| 名称 | 中文名称 | 描述 | 类型 | 是否必须? | 默认值 | |
|---|---|---|---|---|---|---|
| selectedCols | 选择的列名 | 计算列对应的列名列表 | String[] | ✓ | ||
| stringOrderType | Token排序方法 | Token排序方法 | String | “random” |
脚本示例
脚本代码
data = np.array([["football"],["football"],["football"],["basketball"],["basketball"],["tennis"],])df_data = pd.DataFrame({"f0": data[:, 0],})data = dataframeToOperator(df_data, schemaStr='f0 string', op_type="batch")stringindexer = MultiStringIndexerTrainBatchOp() \.setSelectedCols(["f0"]) \.setStringOrderType("frequency_asc")model = stringindexer.linkFrom(data)model.print()
脚本运行结果
模型表:
column_index token token_index0 -1 {"selectedCols":"[\"f0\"]","selectedColTypes":... NaN1 0 tennis 0.02 0 basketball 1.03 0 football 2.0
