当前位置:网站首页>Coggle 30 Days of ML 7月竞赛学习
Coggle 30 Days of ML 7月竞赛学习
2022-06-27 06:35:00 【Datawhale】
Part1 内容介绍
在给大家分享知识的过程中,发现很多同学在学习竞赛都存在较多的问题:
Pandas、Numpy 处理数据不熟悉
Sklearn、LightGBM 模型使用不熟悉
不知道如何构建特征工程、筛选特征
NLP模型不知道如何搭建
而上述问题都是一个竞赛选手、一个算法工程师所必备的。因此我们将从本月组织一次竞赛训练营活动,希望能够帮助大家入门数据竞赛。在活动中我们将布置具体竞赛任务,然后参与的同学们不断闯关完成,竟可能的帮助大家入门。
7月份的竞赛活动将以以下两个比赛展开:
糖尿病遗传风险检测挑战赛
汽车领域多语种迁移学习挑战赛
Part2 活动安排
活动是免费学习活动,不会收取任何费用。
请各位同学添加下面微信,并回复【竞赛学习】,即可参与。

Part3 积分说明和奖励
为了激励各位同学完成的学习任务,将学习任务根据难度进行划分,并根据是否完成进行评分难度高中低的任务分别分数为3、2和1。在完成7月学习后(本次活动,截止到7月24号),将按照积分顺序进行评选 Top3 的学习者。
打卡可以写在一个地址,每次有新完成的可以重复提交打卡!
Top1的学习者将获得以下奖励:
Coggle 竞赛专访机会
《机器学习算法竞赛实战》
Top10的学习者将获得以下奖励:
“讯飞 x Datawhale” 联合颁发的优秀选手证书。
Coggle 周边福利
Coggle 竞赛专访机会
Part4 糖尿病遗传风险检测挑战赛
学习内容
本教程主要是针对糖尿病遗传风险检测挑战赛开展,将讲解数据比赛中具体使用的知识点和细节。在本次学习中我们将学习特征工程、特征筛选和模型调参过程。
比赛报名地址:http://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-gzh01
赛题介绍
在这次比赛中,您需要通过训练数据集构建糖尿病遗传风险预测模型,然后预测出测试数据集中个体是否患有糖尿病,和我们一起帮助糖尿病患者解决这“甜蜜的烦恼”。对于测试数据集当中的个体,您必须预测其是否患有糖尿病(患有糖尿病:1,未患有糖尿病:0),预测值只能是整数1或者0。
训练集(比赛训练集.csv)一共有5070条数据,用于构建您的预测模型(您可能需要先进行数据分析)。数据的字段有编号、性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度、患有糖尿病标识(最后一列),您也可以通过特征工程技术构建新的特征。
测试集(比赛测试集.csv)一共有1000条数据,用于验证预测模型的性能。数据的字段有编号、性别、出生年份、体重指数、糖尿病家族史、舒张压、口服耐糖量测试、胰岛素释放实验、肱三头肌皮褶厚度。
打卡汇总
| 任务名称 | 难度 |
|---|---|
| 任务1:比赛报名 | 低、1 |
| 任务2:比赛数据分析 | 低、1 |
| 任务3:逻辑回归尝试 | 低、1 |
| 任务4:特征工程 | 中、2 |
| 任务5:特征筛选 | 中、2 |
| 任务6:高阶树模型 | 中、2 |
| 任务7:多折训练与集成 | 高、3 |
打卡要求
注:
需要所有的任务可以写在一个博客内
推荐在打卡过程中加入思考过程,可以加入尝试&资料记录
Part5 汽车领域多语种迁移学习挑战赛
学习内容
本教程主要是针对汽车领域多语种迁移学习挑战赛开展,将讲解数据比赛中具体使用的知识点和细节。在本次学习中我们将学习文本分类和关键词提取。
比赛报名地址:http://challenge.xfyun.cn/topic/info?type=car-multilingual&ch=ds22-dw-gzh05
赛题介绍
国内车企为提升产品竞争力、更好走向海外市场,提出了海外市场智能交互的需求。但世界各国在“数据安全”上有着严格法律约束,要做好海外智能化交互,本土企业面临的最大挑战是数据缺少。本赛题要求选手通过NLP相关人工智能算法来实现汽车领域多语种迁移学习。
本次迁移学习任务中,讯飞智能汽车BU将提供较多的车内人机交互中文语料,以及少量的中英、中日、中阿平行语料作为训练集,参赛选手通过提供的数据构建模型,进行意图分类及关键信息抽取任务,最终使用英语、日语、阿拉伯语进行测试评判。
1.初赛
训练集:中文语料30000条,中英平行语料1000条,中日平行语料1000条
测试集A:英文语料500条,日文语料500条
测试集B:英文语料500条,日文语料500条
2.复赛
训练集:中文语料同初赛,中阿拉伯平行语料1000条
测试集A:阿拉伯文语料500条
测试集B:阿拉伯文语料500条
本模型依据提交的结果文件,采用accuracy进行评价。
意图分类accuracy = 意图正确数目 / 总数据量
关键信息抽取accuracy = 关键信息完全正确数目 / 总数据量
打卡汇总
| 任务名称 | 难度 |
|---|---|
| 任务1:比赛报名 | 低、1 |
| 任务2:文件读取与文本分词 | 低、1 |
| 任务3:TFIDF与文本分类 | 低、1 |
| 任务4:正则表达式 | 中、2 |
| 任务5:BERT模型入门 | 中、2 |
| 任务6:BERT文本分类 | 中、2 |
| 任务7:BER实体抽取 | 中、2 |
打卡要求
注:
需要所有的任务可以写在一个博客内
推荐在打卡过程中加入思考过程,可以加入尝试&资料记录

一键三连,一起学习️
边栏推荐
- 云服务器配置ftp、企业官网、数据库等方法
- From 5 seconds to 1 second, the system flies
- Unrecognized VM option ‘‘
- Ahb2apb bridge design (2) -- Introduction to synchronous bridge design
- Write an example of goroutine and practice Chan at the same time
- 内存屏障今生之Store Buffer, Invalid Queue
- 2018年数学建模竞赛-高温作业专用服装设计
- Ora-00909: invalid number of parameters, caused by concat
- Classical cryptosystem -- substitution and replacement
- Block level elements & inline elements
猜你喜欢

Scala函数柯里化(Currying)

Interviewer: please introduce cache penetration, cache null value, cache avalanche and cache breakdown, which are easy to understand

Fractional Order PID control

2022 le fichier CISP - Pte (i) contient:

解决 Win10 Wsl2 IP 变化问题

thrift

Matlab GUI interface simulation DC motor and AC motor speed simulation

Assembly language - Wang Shuang Chapter 8 two basic problems in data processing - Notes

Caldera installation and simple use

Fast realization of Bluetooth communication between MCU and mobile phone
随机推荐
【LeetCode】Day90-二叉搜索树中第K小的元素
[QT dot] realize the watchdog function to detect whether the external program is running
快速实现单片机和手机蓝牙通信
2022 CISP-PTE(一)文件包含
Matlab GUI interface simulation DC motor and AC motor speed simulation
Quick realization of Bluetooth ibeacn function
第 299 场周赛 第四题 6103. 从树中删除边的最小分数
TiDB与 MySQL 兼容性对比
Keep 2 decimal places after multiplying SQLSEVER fields
面试官:你天天用 Lombok,说说它什么原理?我竟然答不上来…
研究生数学建模竞赛-无人机在抢险救灾中的优化应用
Overview of database schema in tidb
Modeling competition - optical transport network modeling and value evaluation
NoViableAltException([email protected][2389:1: columnNameTypeOrConstraint : ( ( tableConstraint ) | ( columnNameT
Xiaomi Interviewer: let's talk about the proficient Registration Center for three days and three nights
2022 CISP-PTE(二)SQL注入
TiDB 基本功能
Fast realization of Bluetooth communication between MCU and mobile phone
Date database date strings are converted to and from each other
How to download opencv? How to configure opencv after downloading?