AI平台研发-多模态数据湖开发岗
📍 南京市⏱️ 应届生🎓 不限 👁️ 1次浏览
薪资面议
岗位职责
1. 多模态数据湖架构设计与落地
负责构建支持文本、图像、音频、视频等多模态数据的企业级数据湖架构,主导数据存储、元数据管理、计算引擎的技术选型与方案设计,确保数据湖的高可用、可扩展及高效查询性能。
2. 核心组件二次开发与优化
- 基于DolphinScheduler进行二次开发,设计多模态数据采集、清洗、转换的自动化调度流程,优化任务依赖管理与容错机制,支撑TB级多模态数据的批流一体化处理。
- 对OpenMetadata进行定制化开发,扩展元数据模型以适配多模态数据(如图像特征、音频格式、视频帧信息等),实现多模态数据的血缘追踪、权限管控与资产目录管理。
- 基于Kyuubi优化多模态数据查询引擎,集成SQL与向量检索能力,支持跨模态数据联合查询(如文本关键词+图像特征匹配),提升复杂查询的响应速度。
3. 存储层集成与优化
主导Lance、Iceberg等新型列式存储与多模态数据湖的集成,设计多模态数据的存储schema(如文本元数据+向量嵌入+图像二进制的混合存储),优化存储分层策略(热数据Lance、冷数据Iceberg归档),解决多模态数据的高吞吐写入与低延迟读取问题。
4. 数据处理流水线研发
基于Java与SpringCloud生态,开发多模态数据处理微服务(如数据接入服务、特征提取服务、检索服务),构建高并发、低耦合的分布式数据处理流水线,支撑业务场景下的多模态数据实时/离线处理需求。
5. 技术难点攻坚与团队协作
跟踪多模态数据处理领域前沿技术(如向量检索、跨模态语义对齐),解决数据湖构建中的技术瓶颈(如多模态元数据一致性、高维向量存储效率);与算法团队、业务团队协作,将技术方案落地到实际业务场景(如智能内容检索、多模态分析)。