【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）:环球今亮点-北冰洋酒业网

首页> 动态> 详情

【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）:环球今亮点

2022-12-28 15:13:55 来源：

本文是中国大学慕课《机器学习》的“集成学习”章节的课后代码。

(资料图)
课程地址：
https://www.icourse163.org/course/WZU-1464096179
课程完整代码：
https://github.com/fengdu78/WZU-machine-learning-course
代码修改并注释：黄海广，haiguang2000@wzu.edu.cn

importwarningswarnings.filterwarnings("ignore")importpandasaspdfromsklearn.model_selectionimporttrain_test_split

生成数据

生成12000行的数据，训练集和测试集按照3:1划分

fromsklearn.datasetsimportmake_hastie_10_2data,target=make_hastie_10_2()

X_train,X_test,y_train,y_test=train_test_split(data,target,random_state=123)X_train.shape,X_test.shape

((9000, 10), (3000, 10))

模型对比

对比六大模型，都使用默认参数

fromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.ensembleimportAdaBoostClassifierfromsklearn.ensembleimportGradientBoostingClassifierfromxgboostimportXGBClassifierfromlightgbmimportLGBMClassifierfromsklearn.model_selectionimportcross_val_scoreimporttimeclf1=LogisticRegression()clf2=RandomForestClassifier()clf3=AdaBoostClassifier()clf4=GradientBoostingClassifier()clf5=XGBClassifier()clf6=LGBMClassifier()forclf,labelinzip([clf1,clf2,clf3,clf4,clf5,clf6],["LogisticRegression","RandomForest","AdaBoost","GBDT","XGBoost","LightGBM"]):start=time.time()scores=cross_val_score(clf,X_train,y_train,scoring="accuracy",cv=5)end=time.time()running_time=end-startprint("Accuracy:%0.8f (+/-%0.2f),耗时%0.2f秒。模型名称[%s]"%(scores.mean(),scores.std(),running_time,label))

Accuracy: 0.47488889 (+/- 0.00),耗时0.04秒。模型名称[Logistic Regression]Accuracy: 0.88966667 (+/- 0.01),耗时16.34秒。模型名称[Random Forest]Accuracy: 0.88311111 (+/- 0.00),耗时3.39秒。模型名称[AdaBoost]Accuracy: 0.91388889 (+/- 0.01),耗时13.14秒。模型名称[GBDT]Accuracy: 0.92977778 (+/- 0.00),耗时3.60秒。模型名称[XGBoost]Accuracy: 0.93188889 (+/- 0.01),耗时0.58秒。模型名称[LightGBM]

对比了六大模型，可以看出，逻辑回归速度最快，但准确率最低。而LightGBM，速度快，而且准确率最高，所以，现在处理结构化数据的时候，大部分都是用LightGBM算法。

XGBoost的使用 1.原生XGBoost的使用

importxgboostasxgb#记录程序运行时间importtimestart_time=time.time()#xgb矩阵赋值xgb_train=xgb.DMatrix(X_train,y_train)xgb_test=xgb.DMatrix(X_test,label=y_test)##参数params={"booster":"gbtree",#"silent":1,#设置成1则没有运行信息输出，最好是设置为0.#"nthread":7,#cpu线程数默认最大"eta":0.007,#如同学习率"min_child_weight":3,#这个参数默认是1，是每个叶子里面h的和至少是多少，对正负样本不均衡时的0-1分类而言#，假设 h 在0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100个样本。#这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。"max_depth":6,#构建树的深度，越大越容易过拟合"gamma":0.1,#树的叶子节点上作进一步分区所需的最小损失减少,越大越保守，一般0.1、0.2这样子。"subsample":0.7,#随机采样训练样本"colsample_bytree":0.7,#生成树时进行的列采样"lambda":2,#控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。#"alpha":0,#L1正则项参数#"scale_pos_weight":1, #如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛。#"objective":"multi:softmax",#多分类的问题#"num_class":10,#类别数，多分类与multisoftmax并用"seed":1000,#随机种子#"eval_metric":"auc"}plst=list(params.items())num_rounds=500#迭代次数watchlist=[(xgb_train,"train"),(xgb_test,"val")]

#训练模型并保存#early_stopping_rounds当设置的迭代次数较大时，early_stopping_rounds可在一定的迭代次数内准确率没有提升就停止训练model=xgb.train(plst,xgb_train,num_rounds,watchlist,early_stopping_rounds=100,)#model.save_model("./model/xgb.model")#用于存储训练出的模型print("bestbest_ntree_limit",model.best_ntree_limit)y_pred=model.predict(xgb_test,ntree_limit=model.best_ntree_limit)print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))#输出运行时长cost_time=time.time()-start_timeprint("xgboostsuccess!","\n","costtime:",cost_time,"(s)......")

[0]train-rmse:1.11000val-rmse:1.10422[1]train-rmse:1.10734val-rmse:1.10182[2]train-rmse:1.10465val-rmse:1.09932[3]train-rmse:1.10207val-rmse:1.09694

……

[497]train-rmse:0.62135val-rmse:0.68680[498]train-rmse:0.62096val-rmse:0.68650[499]train-rmse:0.62056val-rmse:0.68624best best_ntree_limit 500error=0.826667xgboost success!  cost time: 3.5742645263671875 (s)......

2.使用scikit-learn接口

会改变的函数名是：

eta -> learning_rate

lambda -> reg_lambda

alpha -> reg_alpha

fromsklearn.model_selectionimporttrain_test_splitfromsklearnimportmetricsfromxgboostimportXGBClassifierclf=XGBClassifier(# silent=0, #设置成1则没有运行信息输出，最好是设置为0.是否在运行升级时打印消息。#nthread=4,#cpu线程数默认最大learning_rate=0.3,#如同学习率min_child_weight=1,#这个参数默认是1，是每个叶子里面h的和至少是多少，对正负样本不均衡时的0-1分类而言#，假设 h 在0.01 附近，min_child_weight 为 1 意味着叶子节点中最少需要包含 100个样本。#这个参数非常影响结果，控制叶子节点中二阶导的和的最小值，该参数值越小，越容易 overfitting。max_depth=6,#构建树的深度，越大越容易过拟合gamma=0,#树的叶子节点上作进一步分区所需的最小损失减少,越大越保守，一般0.1、0.2这样子。subsample=1,#随机采样训练样本训练实例的子采样比max_delta_step=0,#最大增量步长，我们允许每个树的权重估计。colsample_bytree=1,#生成树时进行的列采样reg_lambda=1,#控制模型复杂度的权重值的L2正则化项参数，参数越大，模型越不容易过拟合。#reg_alpha=0,#L1正则项参数#scale_pos_weight=1, #如果取值大于0的话，在类别样本不平衡的情况下有助于快速收敛。平衡正负权重#objective="multi:softmax",#多分类的问题指定学习任务和相应的学习目标#num_class=10,#类别数，多分类与multisoftmax并用n_estimators=100,#树的个数seed=1000#随机种子#eval_metric="auc")clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.936

LIghtGBM的使用 1.原生接口

importlightgbmaslgbfromsklearn.metricsimportmean_squared_error#加载你的数据#print("Loaddata...")#df_train=pd.read_csv("../regression/regression.train",header=None,sep="\t")#df_test=pd.read_csv("../regression/regression.test",header=None,sep="\t")##y_train=df_train[0].values#y_test=df_test[0].values#X_train=df_train.drop(0,axis=1).values#X_test=df_test.drop(0,axis=1).values#创建成lgb特征的数据集格式lgb_train=lgb.Dataset(X_train,y_train)#将数据保存到LightGBM二进制文件将使加载更快lgb_eval=lgb.Dataset(X_test,y_test,reference=lgb_train)#创建验证数据#将参数写成字典下形式params={"task":"train","boosting_type":"gbdt",#设置提升类型"objective":"regression",#目标函数"metric":{"l2","auc"},#评估函数"num_leaves":31,#叶子节点数"learning_rate":0.05,#学习速率"feature_fraction":0.9,#建树的特征选择比例"bagging_fraction":0.8,#建树的样本采样比例"bagging_freq":5,#k意味着每k次迭代执行bagging"verbose":1#<0显示致命的,=0显示错误(警告),>0显示信息}print("Starttraining...")#训练cvandtraingbm=lgb.train(params,lgb_train,num_boost_round=500,valid_sets=lgb_eval,early_stopping_rounds=5)#训练数据需要参数列表和数据集print("Savemodel...")gbm.save_model("model.txt")#训练后保存模型到文件print("Startpredicting...")#预测数据集y_pred=gbm.predict(X_test,num_iteration=gbm.best_iteration)#如果在训练期间启用了早期停止，可以通过best_iteration方式从最佳迭代中获得预测#评估模型print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))

Start training...[LightGBM] [Warning] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000448 seconds.You can set `force_col_wise=true` to remove the overhead.[LightGBM] [Info] Total Bins 2550[LightGBM] [Info] Number of data points in the train set: 9000, number of used features: 10[LightGBM] [Info] Start training from score 0.012000[1]valid_0"s auc: 0.814399valid_0"s l2: 0.965563Training until validation scores don"t improve for 5 rounds[2]valid_0"s auc: 0.84729valid_0"s l2: 0.934647[3]valid_0"s auc: 0.872805valid_0"s l2: 0.905265[4]valid_0"s auc: 0.884117valid_0"s l2: 0.877875[5]valid_0"s auc: 0.895115valid_0"s l2: 0.852189

……

[191]valid_0"s auc: 0.982783valid_0"s l2: 0.319851[192]valid_0"s auc: 0.982751valid_0"s l2: 0.319971[193]valid_0"s auc: 0.982685valid_0"s l2: 0.320043Early stopping, best iteration is:[188]valid_0"s auc: 0.982794valid_0"s l2: 0.319746Save model...Start predicting...error=0.664000

2.scikit-learn接口

fromsklearnimportmetricsfromlightgbmimportLGBMClassifierclf=LGBMClassifier(boosting_type="gbdt",#提升树的类型gbdt,dart,goss,rfnum_leaves=31,#树的最大叶子数，对比xgboost一般为2^(max_depth)max_depth=-1,#最大树的深度learning_rate=0.1,#学习率n_estimators=100,#拟合的树的棵树，相当于训练轮数subsample_for_bin=200000,objective=None,class_weight=None,min_split_gain=0.0,#最小分割增益min_child_weight=0.001,#分支结点的最小权重min_child_samples=20,subsample=1.0,#训练样本采样率行subsample_freq=0,#子样本频率colsample_bytree=1.0,#训练特征采样率列reg_alpha=0.0,#L1正则化系数reg_lambda=0.0,#L2正则化系数random_state=None,n_jobs=-1,silent=True,)clf.fit(X_train,y_train,eval_metric="auc")#设置验证集合verbose=False不打印过程clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.927

参考

1.https://xgboost.readthedocs.io/

2.https://lightgbm.readthedocs.io/

3.https://blog.csdn.net/q383700092/article/details/53763328?locationNum=9&fps=1

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419，加入微信群请扫码

关键词：

【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）:环球今亮点

本文是中国大学慕课《机器学习》的“集成学习”章节的课后代码。课程地址：https: www icourse163 org course WZU-1464096

2022-12-28 15:13:55

聚焦：2023年黑龙江灵活就业人员社保缴费档次是多少？

根据黑龙江省人社厅《关于确定2023年度基本养老保险使用的全口径就业人员平均工资的通知》(黑人社函〔2022〕530号)，我省2023年度全省缴纳基本

2022-12-28 11:20:15

头条焦点：出境旅游重启：有游客连夜下单出境游旅行社重新集结出境部人员

12月26日晚间，国家卫健委发布《关于对新型冠状病毒感染实施“乙类乙管”的总体方案》，其中优化了中外人员往来管理，取消入境后全员核酸检测

2022-12-28 07:53:58

最高法发布意见加强消费者权益保护整治消费领域顽疾:时快讯

点击查看视频央视网消息：最高人民法院今天（12月27日）发布《关于为促进消费提供司法服务和保障的意见》，提出多条具体举措，助力恢复和扩大

2022-12-27 20:10:58

习酒2022年度销售额突破200亿元 IPO前景仍不明晰

12月26日，贵州习酒发布了《致经销商朋友的一封信》，称2022年公司新增投产1万吨，实现含税销售收入超200亿元，上缴税金80亿元以上，品牌价值1

2022-12-27 16:10:49

CFA一级考试怎么高效备考？考生需要准备多长时间？

CFA一级考试知识点，考生在备考时，要根据考纲的要求，找出考试要点、难点，逐个攻破，同时学习要有侧重点；在科目上，考生可以分科目复习，在

2022-12-27 11:17:14

“伊斯兰国呼罗珊分支”宣布对阿富汗巴达赫尚省爆炸袭击负责

当地时间12月26日，阿富汗巴达赫尚省首府法扎巴德市发生爆炸，该省警察局局长阿卜杜哈克·奥马尔（AbdulhaqOmar）在爆炸中身亡

2022-12-27 06:31:52

男排超级联赛1/4决赛今日打响天津男排力拼“十六冠王”

原标题：男排超级联赛1 4决赛今日打响（引题）天津男排力拼“十六冠王”（主题）今晚报讯（记者谢晨）2022-2023赛季中国男排超级联赛1 4决赛今

2022-12-26 17:54:09

微资讯！安鑫花借款逾期2千延迟还款会上征信系统吗

网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构，而有些借贷机构则是会在几天后上报给征信机构，因为有些借贷机构可

2022-12-26 12:57:03

冰山冷热：转让松下冷链（大连）有限公司40%股权有利于公司优化资产结构，突出主业，助力主营业务改善|当前播报

（原标题：冰山冷热：转让松下冷链（大连）有限公司40%股权有利于公司优化资产结构，突出主业，助力主营业务改善）同花顺（300033）金融研究中

2022-12-26 07:09:30

热推荐：新鲜蘑菇怎么做汤新鲜蘑菇如何制作成汤呢

1、乌鸡蘑菇汤主料：乌骨鸡半只、蟹味菇200克、香菇100克。2、辅料：枸杞子10克、食盐4克、葱5克、姜5克、八角1个、桂皮1小块、料酒6克、香叶2

2022-12-25 14:59:10

今日观点!创金合信、南华基金两家公司相继增加注册资本金

（原标题：创金合信、南华基金两家公司相继增加注册资本金）证券时报网讯，中国基金报消息，临近年末，基金公司增资再掀小高潮。近日，创金合

2022-12-24 16:13:00

华阳新材: 华阳新材独立董事候选人声明（王东升）_世界视讯

华阳新材:华阳新材独立董事候选人声明（王东升）

2022-12-23 22:42:00

当前快看：煮鱼需要多久煮鱼需要多长时间

1、一般体积小一点的鱼，比如一斤的鱼，开大火的话，一般十分钟就熟了。如果开小火呢，15-20分钟也差不多熟了。而体积大一点的鱼，比如三四斤

2022-12-23 15:53:19

世界报道:民营经济发展信心足舞台大

中央经济工作会议强调：要切实落实“两个毫不动摇”、针对社会上的不正确议论“必须亮明态度，毫不含糊”、从制度和法律上把对国企民企平等对

2022-12-23 10:09:40

世界报道:臻有钱网贷16万逾期还不起会不会起诉我

可能会。如果用户使用网贷消费之后出现了逾期，并且经过网贷机构和第三方的催收人员催缴欠款无果之后，网贷公司可能就会向法院提起诉讼。网贷

2022-12-22 23:54:42

依据借条没有规定借款用途是怎样写规定的?|每日消息

借条是否写借款用途，不影响借条的法律效力，但是一份严谨的借条应该写上借款的用途。借条书写时通常有以下内容：第一，借款人和出借人的身份

2022-12-22 15:53:06

警惕！在这些地方建光伏电站一般不会批准

12月21日，浙江松阳县人民政府公示关于推进我县分布式光伏规模化开发的建议。建议提到，根据《浙江省河道管理条例》《浙江省水利工程安全管理

2022-12-22 10:14:19

环球热文：康泰生物(300601.SZ)控股股东的一致行动人杜兴连拟减持不超100万股

智通财经APP讯，康泰生物(300601)(300601 SZ)发布公告，公司控股股东、实际控制人的一致行动人杜兴连女士持有公司股份302 4万股(占公司扣除回

2022-12-21 20:34:23

ST曙光（600303）12月21日主力资金净卖出2184.13万元-全球热文

截至2022年12月21日收盘，ST曙光(600303)报收于5 86元，下跌5 02%，换手率4 1%，成交量27 69万手，成交额1 65亿元。12月21日

2022-12-21 15:00:55

中信证券：预计整体制造业有望在2023年Q2-Q3逐步走向复苏|焦点简讯

（原标题：中信证券：预计整体制造业有望在2023年Q2-Q3逐步走向复苏）证券时报网讯，中信证券指出，随着经济增速的触底回升，我们预计整体制造

2022-12-21 08:49:12

世界短讯！卡倍亿: 关于可转换公司债券2022年付息公告

证券代码：300863 证券简称：卡倍亿公告编号：2022-098债券代码：123134 债券简称：卡倍转债

2022-12-20 19:55:55

环球最新：西峡法院：防疫办案两不误线上诉讼解民忧

“原本想着现在疫情形势这么严重，我们这案件不知道还能不能开庭，没想到你们还在坚持办案，实在是太好了！”12月14日，当事人张某在打开“云

2022-12-20 12:36:14

环球微资讯！转阴后仍有症状咋办？嗅觉味觉减退如何处理？权威解答来了

近一周来新冠感染人数明显增多，根据当前的临床经验来看，大多数感染者病程7天左右，如有发热症状大多3天后恢复，接种过新冠疫苗并完成加强免

2022-12-20 07:14:46

“家居生态联盟”发起成立，容声构建家居美学新生态:世界讯息

12月17日，在容声“WILL无边界系列”年度新品发布会上，容声冰箱联合新浪家居共同发起了“家居生态联盟”，包括尚品宅配、金螳螂·家等在内的

2022-12-19 18:18:27

热点新闻

动态

品牌

歌德盈香成为全兴酒业第二大股东持股比例为33%

做强做优做大我国数字经济怎样下好“先手棋”？

新疆军区某团组织侦察分队训练

【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）:环球今亮点

热门推荐

【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）:环球今亮点

聚焦：2023年黑龙江灵活就业人员社保缴费档次是多少？

头条焦点：出境旅游重启：有游客连夜下单出境游旅行社重新集结出境部人员

最高法发布意见加强消费者权益保护整治消费领域顽疾:时快讯

习酒2022年度销售额突破200亿元 IPO前景仍不明晰

CFA一级考试怎么高效备考？考生需要准备多长时间？

“伊斯兰国呼罗珊分支”宣布对阿富汗巴达赫尚省爆炸袭击负责

男排超级联赛1/4决赛今日打响天津男排力拼“十六冠王”

微资讯！安鑫花借款逾期2千延迟还款会上征信系统吗

冰山冷热：转让松下冷链（大连）有限公司40%股权有利于公司优化资产结构，突出主业，助力主营业务改善|当前播报

热推荐：新鲜蘑菇怎么做汤新鲜蘑菇如何制作成汤呢

今日观点!创金合信、南华基金两家公司相继增加注册资本金

华阳新材: 华阳新材独立董事候选人声明（王东升）_世界视讯

当前快看：煮鱼需要多久煮鱼需要多长时间

世界报道:民营经济发展信心足舞台大

世界报道:臻有钱网贷16万逾期还不起会不会起诉我

依据借条没有规定借款用途是怎样写规定的?|每日消息

警惕！在这些地方建光伏电站一般不会批准

环球热文：康泰生物(300601.SZ)控股股东的一致行动人杜兴连拟减持不超100万股

ST曙光（600303）12月21日主力资金净卖出2184.13万元-全球热文

中信证券：预计整体制造业有望在2023年Q2-Q3逐步走向复苏|焦点简讯

世界短讯！卡倍亿: 关于可转换公司债券2022年付息公告

环球最新：西峡法院：防疫办案两不误线上诉讼解民忧

环球微资讯！转阴后仍有症状咋办？嗅觉味觉减退如何处理？权威解答来了

“家居生态联盟”发起成立，容声构建家居美学新生态:世界讯息

热点新闻

动态

品牌

行业

【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）:环球今亮点

热门推荐

【机器学习】集成学习代码练习（随机森林、GBDT、XGBoost、LightGBM等）:环球今亮点

聚焦：2023年黑龙江灵活就业人员社保缴费档次是多少？

头条焦点：出境旅游重启：有游客连夜下单出境游 旅行社重新集结出境部人员

最高法发布意见加强消费者权益保护 整治消费领域顽疾:时快讯

习酒2022年度销售额突破200亿元 IPO前景仍不明晰

CFA一级考试怎么高效备考？考生需要准备多长时间？

“伊斯兰国呼罗珊分支”宣布对阿富汗巴达赫尚省爆炸袭击负责

男排超级联赛1/4决赛今日打响 天津男排力拼“十六冠王”

微资讯！安鑫花借款逾期2千延迟还款会上征信系统吗

冰山冷热：转让松下冷链（大连）有限公司40%股权有利于公司优化资产结构，突出主业，助力主营业务改善|当前播报

热推荐：新鲜蘑菇怎么做汤 新鲜蘑菇如何制作成汤呢

今日观点!创金合信、南华基金两家公司相继增加注册资本金

华阳新材: 华阳新材独立董事候选人声明（王东升）_世界视讯

当前快看：煮鱼需要多久 煮鱼需要多长时间

世界报道:民营经济发展 信心足 舞台大

世界报道:臻有钱网贷16万逾期还不起会不会起诉我

依据借条没有规定借款用途是怎样写规定的?|每日消息

警惕！在这些地方建光伏电站一般不会批准

环球热文：康泰生物(300601.SZ)控股股东的一致行动人杜兴连拟减持不超100万股

ST曙光（600303）12月21日主力资金净卖出2184.13万元-全球热文

中信证券：预计整体制造业有望在2023年Q2-Q3逐步走向复苏|焦点简讯

世界短讯！卡倍亿: 关于可转换公司债券2022年付息公告

环球最新：西峡法院：防疫办案两不误 线上诉讼解民忧

环球微资讯！转阴后仍有症状咋办？嗅觉味觉减退如何处理？权威解答来了

“家居生态联盟”发起成立，容声构建家居美学新生态:世界讯息

热点新闻

动态

品牌

行业

头条焦点：出境旅游重启：有游客连夜下单出境游旅行社重新集结出境部人员

最高法发布意见加强消费者权益保护整治消费领域顽疾:时快讯

男排超级联赛1/4决赛今日打响天津男排力拼“十六冠王”

热推荐：新鲜蘑菇怎么做汤新鲜蘑菇如何制作成汤呢

当前快看：煮鱼需要多久煮鱼需要多长时间

世界报道:民营经济发展信心足舞台大

环球最新：西峡法院：防疫办案两不误线上诉讼解民忧