大家好,我是你的好朋友思创斯。今天说一说rapidminer使用教程_rapidminer下载,希望您对编程的造诣更进一步.
read csv
第一页:
regular expression:
\s :空格
use quotes:输出的数据是否要用“”框起来
最后一页:
第一行:名称
第二行:数据类型:
text:可以在后续转为文本进行处理
polynomial:多项的
第三行:
label:要学习的标签
id:序列号
loop files
将文件夹里的文件一个个导入,可以双击进入内部
data to documents:
把输入的text值转为文档,进行处理,一个记录转为一个文档。其他属性变为文档的原数据
loop collection
循环操作
勾选专家参数:
产生唯一的序号
macro:宏
双击可进入内部
后面要加append部件进行合并
append
合并数据集
tokenize
筛选出符合要求的部分为token(一块),即进行切分
extract tokens from documents
将输入的token转为一条记录
add meta information:添加原数据
generate attributes
产生新属性
引用宏属性:%{xxx}
允许覆盖原属性
generate attributes with types
可以设置产生的属性类型
generate extract
source attribute:针对某属性
eg. 提取“/”前的内容为word,“/”后的内容为pos
| attribute name | query expression |
| word | | / |
| pos | / | |
generate incremental attribute
第一次出现的字符为1,后面的值为前面的值加incremental value expression
attribute to be added:新的属性名
replace
attribute filter type:
single:单个属性进行替换
subset:几个
replace what:
.:每个字符
replace by:
$0 :原字符后添加空格
replace tokens
对文档进行替换
split text attribute
按照split expression进行分割
select attribute with order
可以用来确定输出的排列 数量
parse numbers
把属性转为数值属性
aggregate
将两个或多个对象合并为一个对象
use default aggregation:勾选可设置更详细的参数
aggregation attributes:聚类结果的字段属性
group by attributes:选择进行聚类的属性
rename
修改属性名称
multi-label text classificatiom
多标签文本分类
sentence attribute:句子属性
other seq attribute:
label separator:类表分隔符
optimization method:优化方法
rmsprop:
number of epochs:迭代次数
number of batches:批处理的数目
positive weight:正权重值,只对内部最后一个sigmoid部件有影响
number of threads:线程个数,一般是cpu核数的两倍
dropout probability:随机地删除隐藏层的单元数量,一般为0
l2 regularization:l2正则化,一般设为比较小的数字
layer data file:每次迭代后产生的模型存储位置,下一次运行时会先读取保存好的模型
sigmoid
把每个类别看做二分类,1是预测标签。0不是预测标签
set macro
设置宏属性,后续可以用%{}进行使用
generate macro
对宏属性进行操作
write excel
保存数据集
文章由思创斯整理,转载请注明出处:https://ispacesoft.com/163806.html