【排序】LightGBM Ranker的一些使用问题

使用： https://www.kaggle.com/code/bturan19/lightgbm-ranker-introduction/notebook。讨论label_gain的设置方法，可以单独设置，而且可以尝试以指数形式增长，如label_gain=[1, 2, 4, 8, 16]可以看出除了 Classifier 和 Regressor，就支持 Ranker，说明 Ranker 还是很

AuGuSt_81

400人浏览 · 2025-08-03 09:14:39

AuGuSt_81 · 2025-08-03 09:14:39 发布

LGBranker

官方手册：lightgbm.LGBMRanker — LightGBM 4.6.0.99 documentation

可以看出除了 Classifier 和 Regressor，就支持 Ranker，说明 Ranker 还是很重要和常用的。

使用示例

使用： https://www.kaggle.com/code/bturan19/lightgbm-ranker-introduction/notebook

常见问题

"label_gain"如何设置

label_gain 默认是30，不能超过1。原因好像是复杂度非常高。

https://github.com/microsoft/LightGBM/issues/3422#issuecomment-703920798

在参数里设置：

"label_gain": [i for i in range(max(y_train.max(), y_valid.max()) + 1)],

讨论label_gain的设置方法，可以单独设置，而且可以尝试以指数形式增长，如label_gain=[1, 2, 4, 8, 16]

不一定就是按照label_gain=[1, 2, 3, 4, 5]

https://github.com/microsoft/LightGBM/issues/4808

优化建议：

(1)我们通常会关注排名靠前的文档。因此，一种评论解决方案，将最“糟糕”的文档标记为一个标签，例如 0。

(2)如果你真的需要对所有 5000 个文档进行排名，也许使用regression或pair-wise 会更好。

https://github.com/microsoft/LightGBM/issues/2892#issuecomment-596525112

参考信息：

日本的一个比赛，基本面分析，第一。

使用 lgbranker，并且直接用 shap 来解释model


explainer = shap.TreeExplainer(estimators[-1].estimator_low_.estimator)
shap_values = explainer.shap_values(X)
shap.summary_plot(shap_values, X, max_display=X.shape[1])

https://github.com/masahiro-mochizuki/signate-fundamentals-challange-1st-place/blob/main/script/train.ipynb

2048 AI社区

有“AI”的1024 = 2048，欢迎大家加入2048 AI社区

更多推荐

DPO相比SFT，有哪些优劣？它在agent任务上效果明显吗，你怎么构造偏好对？构造逻辑时自动的还是人工的？

SFT(监督微调)和DPO(直接偏好优化)是模型优化的两个关键阶段。SFT通过模仿标准答案注入知识，但存在答案固化、无法学习相对偏好的局限；DPO则通过对比学习人类偏好，能优化思考路径、工具选择等复杂决策。在Agent任务中，DPO效果显著，可优化思考链、提升鲁棒性和效率。偏好数据构造需人机结合：初期人工确定标准，后期用模型对比、规则修改等方式自动化扩展，辅以AI裁判和人工审核。DPO是构建高质量