Skip to content

关于离散特征处理的问题 #8

@gutouyu

Description

@gutouyu

现在的代码逻辑,离散特征也会被装箱(bin) 然后就是按照连续特征来处理了。这样的处理,默认离散特征就是有序的了,所以m个特征值有m-1个箱子。但是如果离散特征是无序的,那么箱子数量应该是指数级的。这个地方是不是可以在优化下那?还是说xgboost就是按照无序来处理的?

参考Spark中决策树对于离散特征的处理会先判断离散特征是有序还是无序的,然后在进行装箱。

才疏学浅,很想把大佬的代码吃透了。。。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions