• 功能介绍
  • 参数说明
  • 脚本示例
    • 脚本代码
    • 脚本运行结果

    功能介绍

    本组件对于每行文本生成它的NGram存储。

    参数说明

    名称 中文名称 描述 类型 是否必须? 默认值
    n nGram长度 nGram长度 Integer 2
    selectedCol 选中的列名 计算列对应的列名 String
    outputCol 输出结果列 输出结果列列名,可选,默认null String null
    reservedCols 算法保留列名 算法保留列 String[] null

    脚本示例

    脚本代码

    1. import numpy as np
    2. import pandas as pd
    3. data = np.array([
    4. [0, 'That is an English Book!'],
    5. [1, 'Do you like math?'],
    6. [2, 'Have a good day!']
    7. ])
    8. df = pd.DataFrame({"id": data[:, 0], "text": data[:, 1]})
    9. inOp1 = dataframeToOperator(df, schemaStr='id long, text string', op_type='batch')
    10. op = NGram().setSelectedCol("text")
    11. op.transform(inOp1).print()

    脚本运行结果

    1. id text
    2. 0 2 Have_a a_good good_day!
    3. 1 1 Do_you you_like like_math?
    4. 2 0 That_is is_an an_English English_Book!