AI Infra工程师(训推平台方向|Kubernetes|Python & Go)
📍 杭州市⏱️ 不限🎓 不限 👁️ 1次浏览
薪资面议
岗位职责
1. 参与并负责公司 AI 计算平台后端研发与演进,覆盖四条系统线:
训练作业平台:作业全生命周期、断点续训、模板/参数管理、指标采集
推理服务平台:在线服务发布/灰度/扩缩容、健康检查、版本回滚
资源与任务调度:队列/配额/优先级、拓扑/亲和、弹性策略、容量与成本治理
训练数据存储与分发系统:数据集管理与版本、冷热分层与缓存、分片/并行读取通路;
2. 设计并实现平台 API/权限/审计,沉淀“训练/推理/数据”的稳定契约,提升算法交付效率;
3. 建设可观测与告警(训练进度、GPU/CPU/网络/存储利用率、Cost等),支撑问题定位与容量规划;
4. 与算法/框架团队协作,支撑千卡级的稳定训练与多机器分布式在线推理。