当前位置:网站首页>在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练
在 Amazon SageMaker 管道模式下使用 Horovod 实现多 GPU 分布式训练
2020-11-07 20:15:00 【InfoQ】
当前,我们可以使用多种技术通过少量数据训练出深度学习模型,具体包括针对图像分类任务的迁移学习、少样本学习甚至是一次性学习等,也可以基于预训练的BERT或GPT2模型对语言模型进行微调。但是,在部分应用用例中我们仍然需要引入大量训练数据。例如,如果当前图像与ImageNet数据集内的图像完全不同,或者当前语言语料库只针对特定领域、而非通用类型,那么单凭迁移学习将很难带来理想的模型性能。作为深度学习研究人员,您可能需要从零开始尝试新的思路或方法。在这种情况下,我们必须使用大型数据集训练出大型深度学习模型;在找不到最佳训练方法的情况下,整个过程可能需要几天、几周甚至是几个月。
在本文中,我们将一同了解如何在Amazon SageMaker的单一实例之上运行多GPU训练,并讨论如何在Amazon SageMaker上实现高效多GPU与多节点分布式训练。
原文链接:【https://www.infoq.cn/article/0867pYEmzviBfvZxW37k】。未经作者许可,禁止转载。
版权声明
本文为[InfoQ]所创,转载请带上原文链接,感谢
https://www.infoq.cn/article/0867pYEmzviBfvZxW37k?utm_source=rss&utm_medium=article
边栏推荐
- Why do we need software engineering -- looking at a simple project
- Using LWA and lync to simulate external test edge free single front end environment
- Analysis of the original code of [QT] qthread
- python3操作gitlab
- What kind of technical ability should a programmer who has worked for 1-3 years? How to improve?
- 技术债务是对业务功能缺乏真正的理解 -daverupert.com
- Implementation of nginx version of microservice architecture
- [graffiti footprints of Internet of things] mainstream communication mode of Internet of things
- 带你深入了解 GitLab CI/CD 原理及流程
- 嘉宾专访|2020 PostgreSQL亚洲大会阿里云数据库专场:王旭
猜你喜欢
随机推荐
RECH8.0版本学习 days 12 rh134部分
Mate 40系列发布 搭载华为运动健康服务带来健康数字生活
使用RabbitMQ实现分布式事务
Let you have a deep understanding of gitlab CI / CD principle and process
嘉宾介绍|2020 PostgreSQL亚洲大会中文分论坛:潘娟
我们为什么需要软件工程——从一个简单的项目进行观察
Exception calling 'downloadstring' with '1' arguments: 'operation timed out'
廬山真面目之二微服務架構NGINX版本實現
Win10官方1909版本无法打开windows安全中心中病毒和威胁防护的实时保护解决方案。
pc端与移动端适配解决方案之rem
Mate 40 series launch with Huawei sports health service to bring healthy digital life
9. Routingmesh service communication between clusters
Python 3 operates the Jenkins module API
Opencv computer vision learning (10) -- image transform (Fourier transform, high pass filter, low pass filter)
[漫谈] 软件设计的目标和途径
Solution to st link USB communication error in stlink Download
After pulling four message queues into a group, they quarreled
What kind of technical ability should a programmer who has worked for 1-3 years? How to improve?
PHP后门隐藏技巧
频收罚单的浦发银行:增收不增利,曾遭骗贷数亿元,内控缺位?