阿里达摩院系统Al实验室招募机器学习方向博士后
-
达摩院旗下的系统Al实验室(SAIL)承担达摩院Al系统链路建设,在AI工程化的全链路中建设非结构化的海量数据标注和资产管理平台,为Al原子化输出建设训练、推理、异构计算和向量检索等标准组件。系统AI实验室为各算法实验室提供从研究到落地流程中的标准化云原生平台,并进一步在视觉、语音、NLP、优化决策等方向上建设一流算法能力,广泛赋能电商、新能源、医疗等行业的内外部客户和伙伴。
青云学者项目介绍
“青云学者”项目是由湖畔实验室和阿里巴巴达摩院联合发起,为了发掘和培养优秀科学人才,鼓励前沿基础科学研究而设立的全职博士后项目。项目开放有价值的研究课题,整合达摩院领先的科研实力、学术资源,以及湖畔实验室作为省级实验室的重要影响力。我们将为入站的博士后人才提供产业前沿的科研问题、产业领军人物和学术专家的指导、科研助理以及富有竞争力的薪资福利。
研究方向
招募下面两个方向的博士后候选人:
- 大型深度学习模型异构服务器性能加速:近些年,学术界和产业界推出的超大规模的预训练模型,均取得了非常亮眼的效果,相关的研究也层出不穷。这些超大模型的推理往往是在各个计算硬件 (GPU, CPU,其他GPGPU等)以及多个计算节点之间协同地进行。
在这一过程中,推理的效率会受到计算之问的并行模式(如模型并行,流水线并行)、传输技术(量化,压缩,稀疏)、调度算法(多节点,多卡的计算调度)等各方面的影响。本项目希望能和青年学者一起,从以上方面克服深度学习模型异构服务器存在性能瓶颈,实现更加高效的大型深度学习模型推理,实现学术和产业领域的新突破;
- 用于数据中心的AI服务加速(eg, 用于数据中心中GPU共享的低延迟GPU抢占机制):数据中心多已采用GPU和其他SIMT处理器来加速大规模数据并行应用程序。除了高吞吐量之外,很多新兴的GPU任务如云游戏还具有低延迟等严格的服务质量(0oS)要求。针对这一类任务,数据中心通常配置超额的GPU以保证这些延迟敏感任务的Qo5目标。这导致了大部分 GPU在大多数情况下未得到充分利用。
空闲的计算能力(GPUs)可以分配给更偏重高性价比吞吐量的传统批处理作业,例如深度神经网络训练。因此,再数据中心这种多用户和多任务环境中,GPU共享更需要高效的低延迟抢占技术。目前,GPU抢占技术研究大多都集中在寄存器(Register)上下文领域,基于共享 内存(Shared Memory)的技术没有得到充分的关注。随着GPU复杂复杂性的逐 步提升,其共享内存的规模也不断扩大。本项目希望能够和年轻学者一起,通过 同时研究共享内存(Shared Memory)和寄存器(Register)技术,让GPU抢 占技术能够处理更加复杂的工作负载。
岗位要求
根据研究课题,有相关课题研究经验的博士毕业3年以内或进站6个月内可以取得博士学位证书的青年科研人才:
-
计算机相关专业专业(高性能计算,体系结构)博士毕业3年以内或进站6个月内可以取得博士学位证书;
-
有课题相关的研究经验(高性能计算+机器学习),以及相关领域的会议论文发表,PPoPP, HPCA, USENIX ATC ,ASPLOS, ICPP等会议优先;
-
优秀的性能优化方法, 能够快速定位系统瓶颈的原因, IO,计算,带宽, 并能够针对性的做性能优化;
-
扎实的计算机体系结构知识, 了解CUDA,X86, ARM体系架构特点和对应的高性能策略;
-
较强的编程能力,可以结合理论分析以及编程实现复现的研究成果,并结合深度学习业务场景设计和实现最新技术,以及形成研究发表。
薪资福利
-
提供不低于40万的年薪,支持申请博新计划等各类国家与地方博士后资助项目;
-
提供一流的科研与实验条件,享受浙江大学博士后公寓(优惠价格租赁)或者住房补贴,异地入职提供一次性搬家补助;
-
出站后留杭工作可申请杭州D类人才(100万元购房补助),以及区一级配套支持。
申请方式
将以上材料以附件的形式发送至 qingyundamo@service.alibaba.com