AI 数据基础设施 / 多模态数据平台 / Agent 工程化
公众号:Agent Infra 架构手记
CSDN:我不介意孤独
我主要使用 Python 构建 AI 数据处理、检索增强、智能体编排和工程自动化相关系统。
目前的实践重点是:把多模态数据、向量检索、文档解析、OCR、知识图谱、任务调度和大模型能力组合起来,沉淀成可复用的平台、工具链和工程原型。
我关注 AI 应用真正落地时背后的基础设施问题:数据怎么接入、清洗、索引、检索、治理,Agent 怎么调用工具、编排任务、管理上下文,系统怎么稳定运行并持续迭代。
相比单点 Demo,我更倾向于做端到端系统:从数据处理管道、模型服务接入、向量检索、任务调度,到前后端联调和可视化原型,尽量把想法做成能跑、能复用、能解释的工程实现。
- AI Data Infra:数据接入、清洗、转换、索引、治理与任务编排
- Multimodal Pipeline:文本、图片、音频、视频、文档等多模态数据处理
- RAG & Search:文档解析、向量检索、混合检索、知识图谱与可追溯问答
- Agent Engineering:Function Calling、工具注册、任务执行、上下文管理与多 Agent 协作
- Python Backend:FastAPI / Flask 服务、Redis、Ray、异步任务和自动化工具
| 项目 | 方向 | 简介 |
|---|---|---|
| Multimodal Data Lake | 多模态数据平台 | 多模态数据湖统一管理平台,覆盖数据接入、向量检索、ETL、治理和 AI Copilot 等能力。 |
| 元枢本体 Ontology | 数据治理 / 本体智能 | 面向企业数据治理的本体智能平台,关注语义建模、规则驱动分析和 Agent 编排。 |
| Tower-Eye | 多模态问答 / 巡检 | 基站智能巡检与多模态问答系统,结合 NL2SQL、向量检索、YOLO 自动标注和巡检数据分析。 |
| Symbio | Multi-Agent | 多 Agent 协同框架实验,探索 DAG 编排、工具调用、记忆机制和可观测性。 |
| PaddleOCR-NPU | OCR / 推理服务 | 面向昇腾 NPU 的 OCR 推理服务,关注多卡调度、批量推理和生产部署。 |
| OpenDataLab S3 Sync | 数据集工具 | OpenDataLab 到对象存储的数据集同步工具,支持渐进式下载上传和多存储后端。 |
Python / FastAPI / Flask / Redis / Ray / PyTorch / transformers
OpenCV / PyMuPDF / LanceDB / DuckDB / PostgreSQL / Linux / Git
这里主要记录数据处理、AI 应用、Agent 工程化和自动化工具相关的项目与实践。

