AI Infra工程师(训推平台方向|Kubernetes|Python & Go)

📍 杭州市⏱️ 不限🎓 不限 👁️ 1次浏览
薪资面议

岗位职责

1. 参与并负责公司 AI 计算平台后端研发与演进,覆盖四条系统线: 训练作业平台:作业全生命周期、断点续训、模板/参数管理、指标采集 推理服务平台:在线服务发布/灰度/扩缩容、健康检查、版本回滚 资源与任务调度:队列/配额/优先级、拓扑/亲和、弹性策略、容量与成本治理 训练数据存储与分发系统:数据集管理与版本、冷热分层与缓存、分片/并行读取通路; 2. 设计并实现平台 API/权限/审计,沉淀“训练/推理/数据”的稳定契约,提升算法交付效率; 3. 建设可观测与告警(训练进度、GPU/CPU/网络/存储利用率、Cost等),支撑问题定位与容量规划; 4. 与算法/框架团队协作,支撑千卡级的稳定训练与多机器分布式在线推理。