1.设计、实现和优化基于RDMA和其他高性能通信技术的AI分布式训练系统。
2.研究和利用最新的网络拓扑和集群架构以提高分布式训练系统的性能和可扩展性。
3.与团队成员紧密合作,确保分布式训练系统与深度学习模型和应用程序需求相匹配,实现高效、稳定的数据处理和计算。
4.负责分布式训练系统的性能调优、故障排查和解决。
5.跟踪并评估新兴的分布式计算、AI训练和通信技术,为团队提供有关最佳实践的建议。
6.协助开发和优化深度学习框架,以实现更好的分布式训练性能。
1.计算机科学、工程或相关领域的学士或硕士学位。2.至少3年分布式系统开发和维护经验,具有AI分布式训练相关经验者优先。3.对RDMA、InfiniBand、RoCE等高性能通信技术有深入理解。4.熟悉集合通信、网络拓扑和并行计算原理。5.熟悉MPI、OpenMP等分布式编程模型和框架, 熟悉GPU计算、CUDA编程。6.具备优秀的编程和调试技巧,熟练使用C/C++、Python等编程语言。7.对深度学习、AI训练技术有深入了解,熟悉主流深度学习框架如TensorFlow、PyTorch等。8.具备良好的沟通和团队协作能力,能够跨团队合作解决复杂问题。
投递简历邮件主题格式:名字+应聘岗位+城市,请将您的简历发送到:Weiwei.Wang@streamcomputing.com
©2023广州希姆半导体科技有限公司Stream Computing Inc. 丨粤ICP备2024180922号