当前位置:网站首页>Combing the latest Data Mining Event Scheme!
Combing the latest Data Mining Event Scheme!
2022-06-25 18:45:00 【Datawhale】
DatawhaleL'événement
Auteur:L'élevage des oursons,Huazhong Agricultural University,DatawhaleMembres

Introduction au jeu
IFLYTEK:Défi de dépistage du risque génétique du diabète.Contexte:Jusqu'à2022Année,Patients diabétiques en Chine1.3100 millions.Mode de vie lié au diabète en Chine、Vieillissement、Urbanisation、Influence de nombreux facteurs tels que l'hérédité familiale.En même temps,Les diabétiques ont tendance à être plus jeunes.
Le diabète peut causer des maladies cardiovasculaires、Les reins、Complications cérébrovasculaires.Donc,,Il est très important de diagnostiquer avec précision les personnes diabétiques..La prédiction précoce du risque génétique de diabète aidera à prévenir l'apparition du diabète..
Adresse de l'événement:http://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-gzh01
Code source:https://github.com/datawhalechina/competition-baseline
Tâche de course
Dans ce concours,Vous devez construire un modèle de prévision du risque génétique de diabète à partir d'un ensemble de données de formation, Et prédire si une personne dans l'ensemble de données d'essai est diabétique , Aidez les diabétiques à résoudre ce problème. “Doux soucis”.
Données du jeu
Les données du jeu se composent d'un ensemble de formation et d'un ensemble d'essais. ,Les détails sont les suivants:
Jeux d'entraînement:Total5070Données, Utilisé pour construire votre modèle de prévision
Test Set:Total1000Données, Utilisé pour valider le rendement du modèle de prévision .
Où le paquet de formation contient 9Champs:Sexe、Année de naissance、Indice de masse corporelle、 Antécédents familiaux de diabète 、Pression diastolique、 Test de tolérance orale au glucose 、 Test de libération d’insuline 、Épaisseur du pli cutané du triceps brachial、 Signes de diabète (Étiquette des données).
Critères de notation
En utilisant deux tâches de classification F1-score Indicateurs pour l'évaluation ,F1-score Plus le modèle de prévision est grand, plus le rendement est élevé. ,F1-scoreEst défini comme suit::

Parmi eux:


Question de matchBaseline
Importer des données
import pandas as pd
import lightgbmPrétraitement des données
data1=pd.read_csv(' Jeux d'entraînement .csv',encoding='gbk')
data2=pd.read_csv(' Jeu de tests de compétition .csv',encoding='gbk')
#labelMarqué comme-1
data2[' Signes de diabète ']=-1
# Combinaison de l'ensemble de formation et de la machine d'essai
data=pd.concat([data1,data2],axis=0,ignore_index=True)
#Ingénierie des caractéristiques
"""
Les valeurs normales de l'indice de masse corporelle des adultes chez l'homme sont les suivantes: 18.5-24Entre
Inférieur à18.5 C'est une insuffisance pondérale.
In24-27 Il y a un surpoids.
27 C'est l'obésité.
Supérieur à32 C'est très gros. .
"""
def BMI(a):
if a<18.5:
return 0
elif 18.5<=a<=24:
return 1
elif 24<a<=27:
return 2
elif 27<a<=32:
return 3
else:
return 4
data['BMI']=data['Indice de masse corporelle'].apply(BMI)
data['Année de naissance']=2022-data['Année de naissance'] # Changer d'âge
# Antécédents familiaux de diabète
"""
Aucun enregistrement
Un oncle ou une tante est diabétique. / Un oncle ou une tante est diabétique.
Un parent est diabétique.
"""
def FHOD(a):
if a=='Aucun enregistrement':
return 0
elif a==' Un oncle ou une tante est diabétique. ' or a==' Un oncle ou une tante est diabétique. ':
return 1
else:
return 2
data[' Antécédents familiaux de diabète ']=data[' Antécédents familiaux de diabète '].apply(FHOD)
data['Pression diastolique']=data['Pression diastolique'].fillna(-1)
"""
La plage de pression diastolique est 60-90
"""
def DBP(a):
if a<60:
return 0
elif 60<=a<=90:
return 1
elif a>90:
return 2
else:
return a
data['DBP']=data['Pression diastolique'].apply(DBP)
dataDonnées sur la formation/Préparation des données d'essai
train=data[data[' Signes de diabète '] !=-1]
test=data[data[' Signes de diabète '] ==-1]
train_label=train[' Signes de diabète ']
train=train.drop(['No.',' Signes de diabète '],axis=1)
test=test.drop(['No.',' Signes de diabète '],axis=1)Construire un modèle
def select_by_lgb(train_data,train_label,test_data,random_state=2022,metric='auc',num_round=300):
clf=lightgbm
train_matrix=clf.Dataset(train_data,label=train_label)
params={
'boosting_type': 'gbdt',
'objective': 'binary',
'learning_rate': 0.1,
'metric': metric,
'seed': 2020,
'nthread':-1 }
model=clf.train(params,train_matrix,num_round)
pre_y=model.predict(test_data)
return pre_yValidation du modèle
test_data=select_by_lgb(train,train_label,test)
pre_y=pd.DataFrame(test_data)
pre_y['label']=pre_y[0].apply(lambda x:1 if x>0.5 else 0)
result=pd.read_csv('Exemple de soumission.csv')
result['label']=pre_y['label']
result.to_csv('baseline.csv',index=False)Recommandation précédente
La partie modèle de ce sujet utilise une approche assez simple ,lightgbm Aucune Validation croisée des données n'est effectuée dans l'algorithme , Seuls les paramètres par défaut sont utilisés , Pour que les joueurs puissent Baseline Sur la base de Optimisation des paramètres Fusion de modèles , En même temps, il est noté qu'une partie de la construction de l'ingénierie des caractéristiques dans l'algorithme divulgué est démontrée. , Les candidats peuvent effectuer des tests en fonction des caractéristiques médicales du diabète. Poursuite de l'exploitation des caractéristiques , Pour améliorer les performances ~
AttentionDatawhaleNuméro public,Réponse“Extraction de données” Peut être invité au Groupe d'échange d'événements d'exploration de données , Ne vous joignez plus. .

Difficile à organiser,PointOui.Trois compagnies↓
边栏推荐
- RMAN backup database_ Duplexing backup sets
- [deeply understand tcapulusdb technology] one click installation of tmonitor background
- 【历史上的今天】6 月 25 日:笔记本之父诞生;Windows 98 发布;通用产品代码首次商用
- [in depth understanding of tcapulusdb technology] tcapulusdb model
- Analysis on development scale and development trend of China's night economy industry in 2021 [figure]
- Training of long and difficult sentences in postgraduate entrance examination day88
- 【ELT.ZIP】OpenHarmony啃论文俱乐部—见证文件压缩系统EROFS
- Apifox简单了解——WEB端测试的集大成者
- [in depth understanding of tcapulusdb technology] new models of tcapulusdb
- Training of long and difficult sentences in postgraduate entrance examination day90
猜你喜欢

JVM understanding

云上弹性高性能计算,支持生命科学产业高速发展、降本增效
![[elt.zip] openharmony paper Club - memory compression for data intensive applications](/img/54/8248c1d95b04498d44a00ea94a6c85.png)
[elt.zip] openharmony paper Club - memory compression for data intensive applications

Current situation and development suggestions of China's green PPP project industry: the investment scale is expanding, and the existing problems need to be improved to further promote the healthy dev

QQ机器人疫情查询/疫情关注等【最新beta2版本】

Analysis on the market scale and pattern of contrast agents in China in 2021: Jiangsu Hengrui pharmaceutical, general electric, Yangzijiang Pharmaceutical Group, Bayer and bleco account for more than

04 program counter (PC register)
![[in depth understanding of tcapulusdb technology] new models of tcapulusdb](/img/10/f94a5e1ebeaa803c754dd77351950f.png)
[in depth understanding of tcapulusdb technology] new models of tcapulusdb

揭秘GES超大规模图计算引擎HyG:图切分

华为发布两大昇腾计划 推动AI人才发展和科研创新
随机推荐
C#泛型类案例
06 local method interface
RMAN备份数据库_跳过脱机,只读和不可访问的文件
Redis configuration (Internet access, password)
RMAN backup database_ Manage backup window
Current situation and trend analysis of China's glass packaging containers in 2021: the revenue of glass packaging containers increases year by year [figure]
如何快速关闭8080端口
QQ机器人官方插件加载配置方法【beta2版本】
[deeply understand tcapulusdb technology] one click installation of tmonitor background
解决sublime Text3 package control 无法安装插件问题
QQ机器人闪照转发/撤回消息转发【最新beta2版本】
Detailed explanation of oauth2 - Introduction (I)
04 program counter (PC register)
焕新出发,利尔智达天下
JVM understanding
Differences and relations between sequential table and array (easy to confuse), linear table and linked list
[elt.zip] openharmony paper Club - witness file compression system erofs
158_模型_Power BI 使用 DAX + SVG 打通制作商業圖錶幾乎所有可能
C generic class case
How can the self-supporting number evaluation be safer for cross-border e-commerce platforms such as Amazon, eBay, shopee, lazada, express, Wal Mart and Alibaba international?