当前位置:网站首页>最新数据挖掘赛事方案梳理!
最新数据挖掘赛事方案梳理!
2022-06-25 18:38:00 【Datawhale】
Datawhale赛事
作者:牧小熊,华中农业大学,Datawhale成员
赛题介绍
科大讯飞:糖尿病遗传风险检测挑战赛。背景:截至2022年,中国糖尿病患者近1.3亿。中国糖尿病患病原因受生活方式、老龄化、城市化、家族遗传等多种因素影响。同时,糖尿病患者趋向年轻化。
糖尿病可导致心血管、肾脏、脑血管并发症的发生。因此,准确诊断出患有糖尿病个体具有非常重要的临床意义。糖尿病早期遗传风险预测将有助于预防糖尿病的发生。
赛事地址:http://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-gzh01
源代码:https://github.com/datawhalechina/competition-baseline
赛题任务
在这次比赛中,您需要通过训练数据集构建糖尿病遗传风险预测模型,然后预测出测试数据集中个体是否患有糖尿病,和我们一起帮助糖尿病患者解决这“甜蜜的烦恼”。
赛题数据
赛题数据由训练集和测试集组成,具体情况如下:
训练集:共有5070条数据,用于构建您的预测模型
测试集:共有1000条数据,用于验证预测模型的性能。
其中训练集数据包含有9个字段:性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度、患有糖尿病标识(数据标签)。
评分标准
采用二分类任务中的F1-score指标进行评价,F1-score越大说明预测模型性能越好,F1-score的定义如下:

其中:


赛题Baseline
导入数据
import pandas as pd
import lightgbm
数据预处理
data1=pd.read_csv('比赛训练集.csv',encoding='gbk')
data2=pd.read_csv('比赛测试集.csv',encoding='gbk')
#label标记为-1
data2['患有糖尿病标识']=-1
#训练集和测试机合并
data=pd.concat([data1,data2],axis=0,ignore_index=True)
#特征工程
"""
人体的成人体重指数正常值是在18.5-24之间
低于18.5是体重指数过轻
在24-27之间是体重超重
27以上考虑是肥胖
高于32了就是非常的肥胖。
"""
def BMI(a):
if a<18.5:
return 0
elif 18.5<=a<=24:
return 1
elif 24<a<=27:
return 2
elif 27<a<=32:
return 3
else:
return 4
data['BMI']=data['体重指数'].apply(BMI)
data['出生年份']=2022-data['出生年份'] #换成年龄
#糖尿病家族史
"""
无记录
叔叔或者姑姑有一方患有糖尿病/叔叔或姑姑有一方患有糖尿病
父母有一方患有糖尿病
"""
def FHOD(a):
if a=='无记录':
return 0
elif a=='叔叔或者姑姑有一方患有糖尿病' or a=='叔叔或姑姑有一方患有糖尿病':
return 1
else:
return 2
data['糖尿病家族史']=data['糖尿病家族史'].apply(FHOD)
data['舒张压']=data['舒张压'].fillna(-1)
"""
舒张压范围为60-90
"""
def DBP(a):
if a<60:
return 0
elif 60<=a<=90:
return 1
elif a>90:
return 2
else:
return a
data['DBP']=data['舒张压'].apply(DBP)
data
训练数据/测试数据准备
train=data[data['患有糖尿病标识'] !=-1]
test=data[data['患有糖尿病标识'] ==-1]
train_label=train['患有糖尿病标识']
train=train.drop(['编号','患有糖尿病标识'],axis=1)
test=test.drop(['编号','患有糖尿病标识'],axis=1)
构建模型
def select_by_lgb(train_data,train_label,test_data,random_state=2022,metric='auc',num_round=300):
clf=lightgbm
train_matrix=clf.Dataset(train_data,label=train_label)
params={
'boosting_type': 'gbdt',
'objective': 'binary',
'learning_rate': 0.1,
'metric': metric,
'seed': 2020,
'nthread':-1 }
model=clf.train(params,train_matrix,num_round)
pre_y=model.predict(test_data)
return pre_y
模型验证
test_data=select_by_lgb(train,train_label,test)
pre_y=pd.DataFrame(test_data)
pre_y['label']=pre_y[0].apply(lambda x:1 if x>0.5 else 0)
result=pd.read_csv('提交示例.csv')
result['label']=pre_y['label']
result.to_csv('baseline.csv',index=False)
上分建议
本题中的模型部分用了相当简单的方法,lightgbm算法中没有进行交叉数据验证,同时也仅仅使用了默认参数,因此选手可以在这个Baseline的基础上进行进一步的参数优化于模型融合,同时注意到本公开的算法中特征工程构建进行了一部分的演示,选手可以根据糖尿病的相关医学特点进行对特征进一步挖掘,从而提升比赛的成绩~
关注Datawhale公众号,回复“数据挖掘”可邀请进数据挖掘赛事交流群,已在的不用再加入。
整理不易,点赞三连↓
边栏推荐
- RMAN备份数据库_跳过脱机,只读和不可访问的文件
- Redis configuration (Internet access, password)
- 158_ Model_ Power Bi uses DAX + SVG to open up almost all possibilities for making business charts
- RMAN backup database_ Duplexing backup sets
- Some recursive and iterative problem solving ideas of binary tree (clear and easy to understand)
- 网络安全检测与防范 测试题(一)
- 什么是算子?
- Analysis of China's road freight volume, market scale and competition pattern in 2020 [figure]
- [deeply understand tcapulusdb technology] create a game zone
- QQ机器人闪照转发/撤回消息转发【最新beta2版本】
猜你喜欢
【ELT.ZIP】OpenHarmony啃论文俱乐部—数据密集型应用内存压缩
Current situation and trend analysis of China's glass packaging containers in 2021: the revenue of glass packaging containers increases year by year [figure]
Detailed explanation of oauth2 - Introduction (I)
Basic operation details of binary search tree (BST) (complete code, including test cases)
Idea annotation color modification method (clear)
为什么生命科学企业都在陆续上云?
158_模型_Power BI 使用 DAX + SVG 打通制作商業圖錶幾乎所有可能
焕新出发,利尔智达天下
Redis configuration (Internet access, password)
[deeply understand tcapulusdb technology] one click installation of tmonitor background
随机推荐
Analysis on China's aluminum foil output, trade and enterprise leading operation in 2021: dongyangguang aluminum foil output is stable [figure]
两轮市场红海,利尔达芯智行如何乘风破浪?
Redis 5.0 data structure double end linked list source code analysis
SVN介绍及使用总结
[deeply understand tcapulusdb technology] transaction execution of document acceptance
为什么生命科学企业都在陆续上云?
SQL is used for field data types in various databases
el-table高度自适应
削足适履 - 谈谈赛道上的坡道改造
RMAN备份数据库_使用RMAN做拆分镜像(split mirror)备份
Huawei cloud SRE deterministic operation and maintenance special issue (the first issue)
158_模型_Power BI 使用 DAX + SVG 打通制作商业图表几乎所有可能
TCP/IP 测试题(一)
快手616战报首发,次抛精华引新浪潮,快品牌跃入热榜top3
2021 development status of China's cloud game industry and analysis of major service providers: Although cloud games are still in their infancy, the market prospect is huge [figure]
TCP/IP 测试题(二)
mysql视图讲解
solidity获取季度时间
158_ Model_ Power Bi uses DAX + SVG to open up almost all possibilities for making business charts
Analysis on development status and development suggestions of e-commerce industry in Xinjiang in 2020 [figure]