AI平台研发-边缘智能体平台开发岗

📍 南京市⏱️ 应届生🎓 不限 👁️ 40次浏览 📩 0人投递

薪资面议

岗位职责

（一）端侧大模型推理优化与部署负责大模型在边缘设备（车载终端、IoT 设备、机器人、边缘网关等）的轻量化改造，运用 INT4/INT8 低比特量化、剪枝、稀疏化、知识蒸馏等技术，降低模型算力、内存与功耗占用。基于 TensorRT-LLM、MNN-LLM、llama.cpp、ONNX Runtime 等框架做二次开发与定制，适配高通、联发科、海思、NVIDIA Jetson 等芯片的 NPU/GPU/CPU 特性，开发定制化算子与融合策略。优化端侧推理性能，通过投机推理、FlashAttention、KVCache 高效管理、多线程并发调度等技术，保障模型实时响应（如车载场景毫秒级推理、IoT 设备低延迟交互）。解决端侧推理中的兼容性问题，处理异构硬件协同调度、内存碎片化等核心难点。（二）端侧 Agent 系统构建与优化设计并开发边缘场景 AI Agent 运行框架，涵盖感知解析、任务规划、工具调用、短期 / 长期记忆管理等核心模块，支持设备自主决策与场景化交互。构建多 Agent 协同机制与任务编排逻辑，解决边缘多设备联动、多任务并行的资源冲突问题，实现 Agent 会话状态持久化与断线恢复。优化 Agent 端侧运行效率，通过上下文精简、轻量化决策算法、动态资源调度等技术，平衡自主决策能力与边缘设备资源限制。集成端侧多模态交互能力（ASR/TTS、视觉识别、传感器数据解析），实现语音、图像、环境数据等多源输入的智能响应与任务执行。（三）端侧 RAG 技术落地与调优搭建适配边缘设备的轻量化 RAG 系统，负责本地知识库的分片存储、增量更新与版本管理，支持文本、结构化传感器数据等多类型知识的高效管理。选型并适配端侧轻量级向量数据库（如 Qdrant 轻量版、FAISS 嵌入式版、Chroma Edge），设计高效向量索引结构，优化检索延迟与命中率。协同端侧大模型与 RAG 链路，通过 prompt 工程、检索结果重排序、生成内容过滤等技术，提升问答准确性与知识时效性，弥补模型上下文不足问题。开发知识库安全管控机制，包含数据加密存储、权限分级、噪声过滤与错误知识校验，保障端侧数据安全与 RAG 输出可靠性。（四）端侧 MCP 服务开发与适配基于模型上下文协议（MCP）开发端侧 MCP 服务器，实现边缘设备传感器、执行器、第三方工具的标准化注册、发现与管理，抽象为结构化接口供大模型 / Agent 调用。适配多传输协议（HTTP/SSE/stdio）与数据规范（JSON-RPC 2.0），优化端侧设备与大模型的低开销通信，控制通信抖动低于 100µs，保障断线重连稳定性（5 分钟内无需重新握手）。构建 MCP 服务安全体系，通过 OPA 策略实现基于角色的访问控制（RBAC），搭配 TLS 1.3 加密与调用日志审计，防止硬件工具非法调用与数据泄露。适配边缘异构硬件，通过 libiio、libgpiod、SPI/I2C 等接口实现 MCP 服务器与硬件的底层交互，支持工业传感器数据读取、执行器精准控制等实时场景。（五）工程化落地与全链路保障打通 “大模型推理 + Agent 决策 + RAG 检索 + MCP 工具调用” 的端侧协同链路，形成 “感知 - 决策 - 执行 - 反馈” 的闭环系统。构建端侧服务的轻量化部署方案，基于 Docker/OCI 构建精简镜像，支持边缘设备的离线部署、增量升级与故障自愈。搭建性能监控与运维体系，跟踪推理延迟、Agent 任务成功率、RAG 检索准确率、MCP 调用可用性等核心指标，快速定位并解决线上问题。参与端侧 AI 技术预研，跟进大模型轻量化、边缘计算、Agent/RAG/MCP 等领域的前沿技术，沉淀可复用的工具链与解决方案。

奇

奇瑞汽车股份有限公司

汽车制造· 50000人以上

查看企业详情 →