AI平台研发-边缘智能体平台开发岗
📍 南京市⏱️ 应届生🎓 不限 👁️ 1次浏览
薪资面议
岗位职责
(一)端侧大模型推理优化与部署
负责大模型在边缘设备(车载终端、IoT 设备、机器人、边缘网关等)的轻量化改造,运用 INT4/INT8 低比特量化、剪枝、稀疏化、知识蒸馏等技术,降低模型算力、内存与功耗占用。
基于 TensorRT-LLM、MNN-LLM、llama.cpp、ONNX Runtime 等框架做二次开发与定制,适配高通、联发科、海思、NVIDIA Jetson 等芯片的 NPU/GPU/CPU 特性,开发定制化算子与融合策略。
优化端侧推理性能,通过投机推理、FlashAttention、KVCache 高效管理、多线程并发调度等技术,保障模型实时响应(如车载场景毫秒级推理、IoT 设备低延迟交互)。
解决端侧推理中的兼容性问题,处理异构硬件协同调度、内存碎片化等核心难点。
(二)端侧 Agent 系统构建与优化
设计并开发边缘场景 AI Agent 运行框架,涵盖感知解析、任务规划、工具调用、短期 / 长期记忆管理等核心模块,支持设备自主决策与场景化交互。
构建多 Agent 协同机制与任务编排逻辑,解决边缘多设备联动、多任务并行的资源冲突问题,实现 Agent 会话状态持久化与断线恢复。
优化 Agent 端侧运行效率,通过上下文精简、轻量化决策算法、动态资源调度等技术,平衡自主决策能力与边缘设备资源限制。
集成端侧多模态交互能力(ASR/TTS、视觉识别、传感器数据解析),实现语音、图像、环境数据等多源输入的智能响应与任务执行。
(三)端侧 RAG 技术落地与调优
搭建适配边缘设备的轻量化 RAG 系统,负责本地知识库的分片存储、增量更新与版本管理,支持文本、结构化传感器数据等多类型知识的高效管理。
选型并适配端侧轻量级向量数据库(如 Qdrant 轻量版、FAISS 嵌入式版、Chroma Edge),设计高效向量索引结构,优化检索延迟与命中率。
协同端侧大模型与 RAG 链路,通过 prompt 工程、检索结果重排序、生成内容过滤等技术,提升问答准确性与知识时效性,弥补模型上下文不足问题。
开发知识库安全管控机制,包含数据加密存储、权限分级、噪声过滤与错误知识校验,保障端侧数据安全与 RAG 输出可靠性。
(四)端侧 MCP 服务开发与适配
基于模型上下文协议(MCP)开发端侧 MCP 服务器,实现边缘设备传感器、执行器、第三方工具的标准化注册、发现与管理,抽象为结构化接口供大模型 / Agent 调用。
适配多传输协议(HTTP/SSE/stdio)与数据规范(JSON-RPC 2.0),优化端侧设备与大模型的低开销通信,控制通信抖动低于 100µs,保障断线重连稳定性(5 分钟内无需重新握手)。
构建 MCP 服务安全体系,通过 OPA 策略实现基于角色的访问控制(RBAC),搭配 TLS 1.3 加密与调用日志审计,防止硬件工具非法调用与数据泄露。
适配边缘异构硬件,通过 libiio、libgpiod、SPI/I2C 等接口实现 MCP 服务器与硬件的底层交互,支持工业传感器数据读取、执行器精准控制等实时场景。
(五)工程化落地与全链路保障
打通 “大模型推理 + Agent 决策 + RAG 检索 + MCP 工具调用” 的端侧协同链路,形成 “感知 - 决策 - 执行 - 反馈” 的闭环系统。
构建端侧服务的轻量化部署方案,基于 Docker/OCI 构建精简镜像,支持边缘设备的离线部署、增量升级与故障自愈。
搭建性能监控与运维体系,跟踪推理延迟、Agent 任务成功率、RAG 检索准确率、MCP 调用可用性等核心指标,快速定位并解决线上问题。
参与端侧 AI 技术预研,跟进大模型轻量化、边缘计算、Agent/RAG/MCP 等领域的前沿技术,沉淀可复用的工具链与解决方案。