世界今热点:【机器学习】集成学习代码练习(随机森林、GBDT、XGBoost、LightGBM等)
2022-12-22 22:37:13

本文是中国大学慕课《机器学习》的“集成学习”章节的课后代码。

课程地址:


(相关资料图)

https://www.icourse163.org/course/WZU-1464096179

课程完整代码:

https://github.com/fengdu78/WZU-machine-learning-course

代码修改并注释:黄海广,haiguang2000@wzu.edu.cn

importwarningswarnings.filterwarnings("ignore")importpandasaspdfromsklearn.model_selectionimporttrain_test_split

生成数据

生成12000行的数据,训练集和测试集按照3:1划分

fromsklearn.datasetsimportmake_hastie_10_2data,target=make_hastie_10_2()

X_train,X_test,y_train,y_test=train_test_split(data,target,random_state=123)X_train.shape,X_test.shape

((9000, 10), (3000, 10))

模型对比

对比六大模型,都使用默认参数

fromsklearn.linear_modelimportLogisticRegressionfromsklearn.ensembleimportRandomForestClassifierfromsklearn.ensembleimportAdaBoostClassifierfromsklearn.ensembleimportGradientBoostingClassifierfromxgboostimportXGBClassifierfromlightgbmimportLGBMClassifierfromsklearn.model_selectionimportcross_val_scoreimporttimeclf1=LogisticRegression()clf2=RandomForestClassifier()clf3=AdaBoostClassifier()clf4=GradientBoostingClassifier()clf5=XGBClassifier()clf6=LGBMClassifier()forclf,labelinzip([clf1,clf2,clf3,clf4,clf5,clf6],["LogisticRegression","RandomForest","AdaBoost","GBDT","XGBoost","LightGBM"]):start=time.time()scores=cross_val_score(clf,X_train,y_train,scoring="accuracy",cv=5)end=time.time()running_time=end-startprint("Accuracy:%0.8f (+/-%0.2f),耗时%0.2f秒。模型名称[%s]"%(scores.mean(),scores.std(),running_time,label))

Accuracy: 0.47488889 (+/- 0.00),耗时0.04秒。模型名称[Logistic Regression]Accuracy: 0.88966667 (+/- 0.01),耗时16.34秒。模型名称[Random Forest]Accuracy: 0.88311111 (+/- 0.00),耗时3.39秒。模型名称[AdaBoost]Accuracy: 0.91388889 (+/- 0.01),耗时13.14秒。模型名称[GBDT]Accuracy: 0.92977778 (+/- 0.00),耗时3.60秒。模型名称[XGBoost]Accuracy: 0.93188889 (+/- 0.01),耗时0.58秒。模型名称[LightGBM]

对比了六大模型,可以看出,逻辑回归速度最快,但准确率最低。而LightGBM,速度快,而且准确率最高,所以,现在处理结构化数据的时候,大部分都是用LightGBM算法。

XGBoost的使用 1.原生XGBoost的使用

importxgboostasxgb#记录程序运行时间importtimestart_time=time.time()#xgb矩阵赋值xgb_train=xgb.DMatrix(X_train,y_train)xgb_test=xgb.DMatrix(X_test,label=y_test)##参数params={"booster":"gbtree",#"silent":1,#设置成1则没有运行信息输出,最好是设置为0.#"nthread":7,#cpu线程数默认最大"eta":0.007,#如同学习率"min_child_weight":3,#这个参数默认是1,是每个叶子里面h的和至少是多少,对正负样本不均衡时的0-1分类而言#,假设 h 在0.01 附近,min_child_weight 为 1 意味着叶子节点中最少需要包含 100个样本。#这个参数非常影响结果,控制叶子节点中二阶导的和的最小值,该参数值越小,越容易 overfitting。"max_depth":6,#构建树的深度,越大越容易过拟合"gamma":0.1,#树的叶子节点上作进一步分区所需的最小损失减少,越大越保守,一般0.1、0.2这样子。"subsample":0.7,#随机采样训练样本"colsample_bytree":0.7,#生成树时进行的列采样"lambda":2,#控制模型复杂度的权重值的L2正则化项参数,参数越大,模型越不容易过拟合。#"alpha":0,#L1正则项参数#"scale_pos_weight":1, #如果取值大于0的话,在类别样本不平衡的情况下有助于快速收敛。#"objective":"multi:softmax",#多分类的问题#"num_class":10,#类别数,多分类与multisoftmax并用"seed":1000,#随机种子#"eval_metric":"auc"}plst=list(params.items())num_rounds=500#迭代次数watchlist=[(xgb_train,"train"),(xgb_test,"val")]

#训练模型并保存#early_stopping_rounds当设置的迭代次数较大时,early_stopping_rounds可在一定的迭代次数内准确率没有提升就停止训练model=xgb.train(plst,xgb_train,num_rounds,watchlist,early_stopping_rounds=100,)#model.save_model("./model/xgb.model")#用于存储训练出的模型print("bestbest_ntree_limit",model.best_ntree_limit)y_pred=model.predict(xgb_test,ntree_limit=model.best_ntree_limit)print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))#输出运行时长cost_time=time.time()-start_timeprint("xgboostsuccess!","\n","costtime:",cost_time,"(s)......")

[0]train-rmse:1.11000val-rmse:1.10422[1]train-rmse:1.10734val-rmse:1.10182[2]train-rmse:1.10465val-rmse:1.09932[3]train-rmse:1.10207val-rmse:1.09694

……

[497]train-rmse:0.62135val-rmse:0.68680[498]train-rmse:0.62096val-rmse:0.68650[499]train-rmse:0.62056val-rmse:0.68624best best_ntree_limit 500error=0.826667xgboost success!  cost time: 3.5742645263671875 (s)......

2.使用scikit-learn接口

会改变的函数名是:

eta -> learning_rate

lambda -> reg_lambda

alpha -> reg_alpha

fromsklearn.model_selectionimporttrain_test_splitfromsklearnimportmetricsfromxgboostimportXGBClassifierclf=XGBClassifier(# silent=0, #设置成1则没有运行信息输出,最好是设置为0.是否在运行升级时打印消息。#nthread=4,#cpu线程数默认最大learning_rate=0.3,#如同学习率min_child_weight=1,#这个参数默认是1,是每个叶子里面h的和至少是多少,对正负样本不均衡时的0-1分类而言#,假设 h 在0.01 附近,min_child_weight 为 1 意味着叶子节点中最少需要包含 100个样本。#这个参数非常影响结果,控制叶子节点中二阶导的和的最小值,该参数值越小,越容易 overfitting。max_depth=6,#构建树的深度,越大越容易过拟合gamma=0,#树的叶子节点上作进一步分区所需的最小损失减少,越大越保守,一般0.1、0.2这样子。subsample=1,#随机采样训练样本训练实例的子采样比max_delta_step=0,#最大增量步长,我们允许每个树的权重估计。colsample_bytree=1,#生成树时进行的列采样reg_lambda=1,#控制模型复杂度的权重值的L2正则化项参数,参数越大,模型越不容易过拟合。#reg_alpha=0,#L1正则项参数#scale_pos_weight=1, #如果取值大于0的话,在类别样本不平衡的情况下有助于快速收敛。平衡正负权重#objective="multi:softmax",#多分类的问题指定学习任务和相应的学习目标#num_class=10,#类别数,多分类与multisoftmax并用n_estimators=100,#树的个数seed=1000#随机种子#eval_metric="auc")clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.936

LIghtGBM的使用 1.原生接口

importlightgbmaslgbfromsklearn.metricsimportmean_squared_error#加载你的数据#print("Loaddata...")#df_train=pd.read_csv("../regression/regression.train",header=None,sep="\t")#df_test=pd.read_csv("../regression/regression.test",header=None,sep="\t")##y_train=df_train[0].values#y_test=df_test[0].values#X_train=df_train.drop(0,axis=1).values#X_test=df_test.drop(0,axis=1).values#创建成lgb特征的数据集格式lgb_train=lgb.Dataset(X_train,y_train)#将数据保存到LightGBM二进制文件将使加载更快lgb_eval=lgb.Dataset(X_test,y_test,reference=lgb_train)#创建验证数据#将参数写成字典下形式params={"task":"train","boosting_type":"gbdt",#设置提升类型"objective":"regression",#目标函数"metric":{"l2","auc"},#评估函数"num_leaves":31,#叶子节点数"learning_rate":0.05,#学习速率"feature_fraction":0.9,#建树的特征选择比例"bagging_fraction":0.8,#建树的样本采样比例"bagging_freq":5,#k意味着每k次迭代执行bagging"verbose":1#<0显示致命的,=0显示错误(警告),>0显示信息}print("Starttraining...")#训练cvandtraingbm=lgb.train(params,lgb_train,num_boost_round=500,valid_sets=lgb_eval,early_stopping_rounds=5)#训练数据需要参数列表和数据集print("Savemodel...")gbm.save_model("model.txt")#训练后保存模型到文件print("Startpredicting...")#预测数据集y_pred=gbm.predict(X_test,num_iteration=gbm.best_iteration)#如果在训练期间启用了早期停止,可以通过best_iteration方式从最佳迭代中获得预测#评估模型print("error=%f"%(sum(1foriinrange(len(y_pred))ifint(y_pred[i]>0.5)!=y_test[i])/float(len(y_pred))))

Start training...[LightGBM] [Warning] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000448 seconds.You can set `force_col_wise=true` to remove the overhead.[LightGBM] [Info] Total Bins 2550[LightGBM] [Info] Number of data points in the train set: 9000, number of used features: 10[LightGBM] [Info] Start training from score 0.012000[1]valid_0"s auc: 0.814399valid_0"s l2: 0.965563Training until validation scores don"t improve for 5 rounds[2]valid_0"s auc: 0.84729valid_0"s l2: 0.934647[3]valid_0"s auc: 0.872805valid_0"s l2: 0.905265[4]valid_0"s auc: 0.884117valid_0"s l2: 0.877875[5]valid_0"s auc: 0.895115valid_0"s l2: 0.852189

……

[191]valid_0"s auc: 0.982783valid_0"s l2: 0.319851[192]valid_0"s auc: 0.982751valid_0"s l2: 0.319971[193]valid_0"s auc: 0.982685valid_0"s l2: 0.320043Early stopping, best iteration is:[188]valid_0"s auc: 0.982794valid_0"s l2: 0.319746Save model...Start predicting...error=0.664000

2.scikit-learn接口

fromsklearnimportmetricsfromlightgbmimportLGBMClassifierclf=LGBMClassifier(boosting_type="gbdt",#提升树的类型gbdt,dart,goss,rfnum_leaves=31,#树的最大叶子数,对比xgboost一般为2^(max_depth)max_depth=-1,#最大树的深度learning_rate=0.1,#学习率n_estimators=100,#拟合的树的棵树,相当于训练轮数subsample_for_bin=200000,objective=None,class_weight=None,min_split_gain=0.0,#最小分割增益min_child_weight=0.001,#分支结点的最小权重min_child_samples=20,subsample=1.0,#训练样本采样率行subsample_freq=0,#子样本频率colsample_bytree=1.0,#训练特征采样率列reg_alpha=0.0,#L1正则化系数reg_lambda=0.0,#L2正则化系数random_state=None,n_jobs=-1,silent=True,)clf.fit(X_train,y_train,eval_metric="auc")#设置验证集合verbose=False不打印过程clf.fit(X_train,y_train)y_true,y_pred=y_test,clf.predict(X_test)print("Accuracy:%.4g"%metrics.accuracy_score(y_true,y_pred))

Accuracy : 0.927

参考

1.https://xgboost.readthedocs.io/

2.https://lightgbm.readthedocs.io/

3.https://blog.csdn.net/q383700092/article/details/53763328?locationNum=9&fps=1

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码

世界今热点:【机器学习】集成学习代码练习(随机森林、GBDT、XGBoost、LightGBM等)

2022-12-22 22:37:13

百利科技外延并购加强竞争力 频频外延并购前三季净利增1.2倍

2022-12-22 21:54:49

win11release preview是什么 win11release preview频道详细介绍[多图] 天天看点

2022-12-22 15:46:22

异动快报:安奈儿(002875)12月22日9点30分触及涨停板-全球热消息

2022-12-22 10:15:55

矢崎(中国)董事长:广东新能源汽车发展优势瞩目,投资合作有信心 世界观察

2022-12-21 20:17:26

沃森生物(300142.SZ):拟向“爱婴行动——爱婴医院出院健康指导”项目捐赠545万元

2022-12-07 18:57:49

万顺新材:近期股东户数增长与公司可转债转股增加有一定关系

2022-12-06 17:35:55

年内获公募调研A股数量同比增长 基金公司调研频次超7万次

2022-08-08 10:43:07

白酒新国标实施一个月 不少酒企纷纷推出适应新国标的光瓶酒新品

2022-07-08 16:18:41

清洁家电成为市场热点 目前正处于高集中度与高毛利的发展初期

2022-07-08 16:18:11

《阿凡达2:水之道》将于12月16日北美公映 电影片长约为三小时

2022-07-08 16:17:11

珠海洪鹤大桥、鹤港高速明起正式收费 明年1月8日前ETC车辆免通行费

2022-07-08 16:16:44

经营证券期货业务许可证获批 安徽金融业七大类牌照齐全

2022-03-20 14:38:08

多措并举全面排查 咸阳全力做好市第八次党代会安全保障工作

2022-03-20 14:30:43

便民办税:灵源镇大王村为失联多年的特殊村民办理医保

2022-03-20 14:28:01

践行新使命忠诚保大庆:八旬老人“丢失”钱财 彬州民警帮找回

2022-03-20 14:26:38

创新集聚新动能 宁国着力构建汽车零部件产业龙头

2022-03-20 14:22:29

碑林区司法局:护航消费普法先行

2022-03-19 15:55:13

桑树坪矿“四项举措”筑牢矿井环保防线

2022-03-19 15:40:54

两岸专家:美日澳频打“台湾牌”加剧台海局势紧张

2022-01-11 10:33:28

人民网评:金色的盾牌,无悔的坚守

2022-01-11 10:33:28

数字政通:步入无人驾驶新赛道 与主线科技签署战略合作

2022-01-11 10:33:27

珠海高新区新政揽才 最高600万元住房补

2022-01-11 10:33:27

台胞在西安:“抗击疫情需要我们每一个人的力量”

2022-01-11 10:33:26

在京台生体验冰雪乐趣

2022-01-11 10:33:26

澳门未来发展有了新的时间表

2022-01-11 10:33:24

最高检:法治副校长应指导学校落实未成年人保护责任

2022-01-11 10:33:24

检察官担任法治副校长有了“指挥棒”

2022-01-11 10:33:22

全国首份《家庭教育令》来了!督促家长“依法带娃”

2022-01-11 10:33:22

俄军装甲车辆将具备隐身能力

2022-01-11 10:33:21

俄美双边对话 欧盟处境尴尬

2022-01-11 10:33:21

国资委:决战决胜国企改革三年行动 更好发挥国有经济战

2022-01-11 10:33:19

美海岸警卫队盯上濒海战斗舰

2022-01-11 10:33:19

证监会发布标准:统一金融行业对移动互联网应用程序的安

2022-01-11 10:33:17

日本声称以电磁炮加强防御

2022-01-11 10:33:17

2022-01-29 14:39:05

江苏南京:上万块显示屏支撑征兵宣传

2022-01-11 10:33:16

2022-01-29 14:39:05

广东省汕头市组织军地海上联合搜救演练

2022-01-11 10:33:14

2022-01-29 14:37:35

山东省枣庄军分区组织两级首长机关野营拉练

2022-01-11 10:33:08

2022-01-29 14:37:35

83年后,“故乡土”撒在烈士墓前

2022-01-11 10:33:06

岛与岸的守望:你的岛,我的岸

2022-01-11 10:33:04

2022-01-29 14:37:35

长武县税务局:聚焦企业需求 精准精细服务

2022-01-11 10:33:02

集安组织将就哈局势举行视频峰会

2022-01-11 10:33:02

美俄新一轮战略稳定对话前景不容乐观

2022-01-11 10:33:01

质效双优赋能奋进 咸阳市城管执法局召开项目推进会

2022-01-11 10:33:01

第二轮第五批中央生态环境保护督察全面完成督察进驻工作

2022-01-11 10:33:00

小小菜花架起保供连心桥——汉中桃心岛商贸公司在行动

2022-01-11 10:33:00

江秋莲诉刘暖曦生命权纠纷案一审宣判

2022-01-11 10:32:58

2022-01-29 14:37:21

新疆军区某团侦察连官兵边关巡逻

2022-01-11 10:32:54

第78集团军某旅实战化演练设强对手设难情况

2022-01-11 10:32:54

军队医疗待遇保障新规定如期落地有序施行

2022-01-11 10:32:52

2022-01-29 14:37:21

2022-01-29 14:37:21

荣盛发展:2021年签约金额1345.58亿元 同比增长5.87%

2022-01-11 10:32:50

2022-01-29 14:37:09

2022-01-29 14:37:09

证监会发布《关于北京证券交易所上市公司转板的指导意见

2022-01-11 10:32:47

2022-01-29 14:37:09

2022-01-29 14:37:09

奥密克戎高速传播 美国医疗物资供应无法满足病毒检测需求

2022-01-11 10:32:44

原住民控诉美政府在其家园进行“900次核试验”:这是种族

2022-01-11 10:32:42

2022-01-29 14:37:09

2022-01-29 14:37:09

2022-01-29 14:37:09

奥密克戎肆虐 美国公共服务受重创

2022-01-11 10:32:38

公安部1月10日举行新闻发布会

2022-01-11 10:32:38

詹姆斯·韦伯太空望远镜顺利“完全部署”

2022-01-11 10:32:37

日美联合委员会发布声明:驻日美军离开基地将仅限于必要

2022-01-11 10:32:37

【暖心警事】周至警方帮助走失母亲平安回家

2022-01-11 10:32:35

《我们北京见》 来自55位世界冠军的邀约

2022-01-11 10:32:35

世界冠军进校园 小小少年感受运动乐趣

2022-01-11 10:32:34

2022-01-29 14:36:57

时政Vlog丨带你体验冬奥运动员的备战日常

2022-01-11 10:32:32

伊朗制裁51名参与暗杀高级将领苏莱曼尼的美国人

2022-01-11 10:32:32

今年要有序推动绿色低碳发展

2022-01-11 10:32:30

加强绿色合作 助力共同发展

2022-01-11 10:32:28

电力碳减排要开好局(点睛)

2022-01-11 10:32:28

风光互补 绿能满满

2022-01-11 10:32:26

推动能源转型 赋能绿色发展

2022-01-11 10:32:26

今日腊八:两乡侈各健,一粥喜遥同

2022-01-11 10:32:25

2021年生态环境领域8项约束性指标顺利完成

2022-01-11 10:32:25

欧盟推进塑料回收再利用

2022-01-11 10:32:22

国家植物园 让保护体系更完整(美丽中国)

2022-01-11 10:32:22

2022-01-29 14:36:20

借力外脑,河南打出农业工程技术创新“组合拳”

2022-01-11 10:32:21

2022-01-29 14:36:20

国家速滑馆“冰丝带”“超级大脑”上线

2022-01-11 10:32:19

2022-01-29 14:36:20

农田被淹、住宅停电、出行受阻……美国多地遭遇持续恶劣

2022-01-11 10:32:16

自动驾驶已“接单” 下一站开往大规模商业化

2022-01-11 10:32:15

2022-01-29 14:36:20

第四集《精兵作战 精兵制胜》

2022-01-11 10:32:12

科普专项行动让老年人跨越数字鸿沟

2022-01-11 10:32:12

令人身临其境 8K服务让北京冬奥会更精彩

2022-01-11 10:32:11

嫦娥五号探测数据显示:采样区一吨月壤约含一百二十克水

2022-01-11 10:32:11