现在的代码逻辑,离散特征也会被装箱(bin) 然后就是按照连续特征来处理了。这样的处理,默认离散特征就是有序的了,所以m个特征值有m-1个箱子。但是如果离散特征是无序的,那么箱子数量应该是指数级的。这个地方是不是可以在优化下那?还是说xgboost就是按照无序来处理的? 参考Spark中决策树对于离散特征的处理会先判断离散特征是有序还是无序的,然后在进行装箱。 才疏学浅,很想把大佬的代码吃透了。。。
现在的代码逻辑,离散特征也会被装箱(bin) 然后就是按照连续特征来处理了。这样的处理,默认离散特征就是有序的了,所以m个特征值有m-1个箱子。但是如果离散特征是无序的,那么箱子数量应该是指数级的。这个地方是不是可以在优化下那?还是说xgboost就是按照无序来处理的?
参考Spark中决策树对于离散特征的处理会先判断离散特征是有序还是无序的,然后在进行装箱。
才疏学浅,很想把大佬的代码吃透了。。。