数据闭环SRE
📍 杭州市⏱️ 不限🎓 不限 👁️ 1次浏览
薪资面议
岗位职责
1、闭环平台稳定性保障:负责数据闭环链路中关键系统(数据采集、数据挖掘、标注平台、数据平台、仿真评测等)的稳定性建设与日常运维,围绕可用性/时延/吞吐制定并落地 SLO;
2、可观测性与故障应急:建设指标、日志、链路追踪一体的可观测体系(Prometheus/Grafana/ELK/Tracing 等),制定告警策略与应急预案,参与 7x24 on-call,快速响应与恢复 P0/P1 级事故,并推动复盘与问题闭环;
3、容量规划与性能优化:基于业务增长和历史数据进行容量规划与容量压测,持续优化服务架构、资源配额与调度策略,提升集群利用率,降低训练/仿真任务排队与中断;
4、自动化运维与平台化:使用 Python/Go/Shell 等开发自动化运维工具与平台,建设自动化发布、灰度/回滚、自动巡检、自愈修复、任务编排等能力,减少人工操作与线上变更风险;
5、云原生与基础设施协同:在 Kubernetes 等云原生平台上构建和运维闭环相关服务,协同基础设施/大数据/算法团队,打通存储、计算、消息中间件等底层能力,支撑大规模训练与数据处理场景;
6、安全合规与风险控制:建设访问控制、权限隔离、审计日志等安全机制,在数据闭环关键环节落地安全策略与变更规范,满足车规级安全与合规要求。