成果分享 | MCPZoo:世界上(目前)最大的MCP动物园要来了!

MCPZoo:构建模型上下文协议生态测量体系

随着大型语言模型(LLM)能力的不断提升,模型上下文协议(Model Context Protocol, MCP)正在成为连接智能体与外部世界的重要桥梁。

在智能体逐渐从“能对话”走向“能执行”的过程中,如何让模型安全、高效地调用外部工具、访问实时数据、完成复杂任务,已经成为推动人工智能落地的关键问题。MCP 的提出,为智能体提供了一套开放、可扩展的标准化接口,让 AI 真正具备“操作世界”的能力。

然而,随着 MCP 项目的数量增长,生态呈现出分散、多样、标准不一的特征。目前,行业对这一新兴生态的理解速度,远不及其实际的发展速度。由于缺乏系统性的测量与结构化的分析,我们难以准确评估整个生态系统的规模、构成及其技术趋势。为此,我们打造了 MCPZoo —— 一个涵盖大量 MCP 服务器的运行样本库,通过自动化收集、部署与测量的方式,对不同来源的 MCP 实例进行统一化整理与运行验证。

MCPZoo致敬了移动安全领域经典数据集AndroZoo[1],因为我们同样在研究一个快速扩张、形态多样的新兴生态。我们希望也以“Zoo”的方式,将它们集中起来、系统观察,丰富人们对这一前沿生态的认识。

数据采集与自动化部署

我们从 MCP World、MCP.so、MCP Servers Repository 和 AIbase MCP 四个主要生态源出发,通过自动化爬取、解析与标准化处理,对公开 MCP 项目的名称、仓库地址、配置文件与工具定义等核心要素进行标准化抽取与去重整合,形成结构化数据库。在这一过程中,我们收集了6万多个MCP 服务器项目 ——《MCP物种图鉴》编写完成。

然而,动物标本展览馆并不等于动物园。在 MCP 的野生环境中,许多项目看似完好,实则因依赖缺失、配置错误而无法正常运行。因此,我们不仅要”收集”,更要让每一个 MCP 服务器都能在我们的园区里”活起来”——这正是我们打造 MCPZoo 的初衷。     在此基础上,我们进一步打造了一个由大模型驱动的自动化容器部署体系。该体系能够根据项目结构自动生成匹配的 Dockerfile,并完成镜像构建与运行验证,使 MCPZoo 由一个静态的“仓库目录”真正转变为可部署、可复现的大规模运行样本库。     为了确保测量的全面性,MCPZoo 同时支持 MCP 的三种核心通信模式——STDIO、SSE 与 Streamable HTTP。其中,STDIO 模式常用于本地开发,SSE 适合实时推送场景,而 Streamable HTTP 则是云原生环境中的主流方案。通过统一封装的多协议适配层,我们能够自动识别服务器通信方式并建立稳定交互,这也是 MCPZoo 能够规模化运行的关键。     借助这一自动化流程,我们成功汇聚并构建了万余个独立的 MCP 镜像服务器,为后续的生态测量与功能分析提供了强大的数据基础。

该数据集仅用于学术研究目的,如需进一步了解欢迎联系洪赓老师:ghong@fudan.edu.cn

MCP 生态结构观察

研究发现,当前 MCP 生态的服务器类型分布呈现出较为明显的结构特征。管理系统和数据管理与处理类服务器最多,共占比12.10%,这说明当前 MCP 生态的核心功能仍然集中在结构化数据的获取、转换与分析环节。排在第三名的是内容生命周期管理类服务器,反映出内容生成、更新与组织在智能应用中的广泛需求。

在功能层面,我们随机选取了 1000 个可交互的 MCP 服务器样本,一共识别出 9337 个独立工具,平均每个服务器有 9.3 个工具。这些工具中用于检索的工具的数量最多,有 31 个服务器出现了检索类(search)的工具;其次是 describe_table、echo、list_tables、read_file、add 等功能模块。这些高频工具以数据访问、文件操作和内容生成类能力为主,广泛应用于信息检索、内容生成、数据处理等场景,构成了 MCP 生态的核心功能层。

研究发现,MCP 的部分发布者并非个人开发者,而是由组织或平台自动化生成与托管。例如,MCP-Mirror 作为开放镜像仓库,共发布了 1633 个服务器,用于集中再分发社区中的 MCP 工具;ag2-mcp-servers 则隶属于 AG2 平台,共发布了 973 个服务器,它通过工具自动构建并发布 MCP Server,实现了大规模的批量生成。     从发布者分布图可以看出,除上述集中化平台外,生态中还存在若干活跃的独立组织与开发者。其中,CDataSoftware 与 kukapay 的发布量明显高于其他主体,分别达到 403 和 141 个,代表了具备持续开发与维护能力的中型贡献者;而 AWS Labs、Aliyun、Microsoft 等机构的参与,则体现出云服务商与大型企业对 MCP 标准的关注。整体而言,MCP 生态的发布结构呈现出“平台主导、企业跟进、个人分布广泛”的格局。

从分散到集成:MCP 生态的演化方向

总体来看,当前 MCP 生态正处于由分散走向集成的早期阶段。不同来源的服务器在实现方式、通信协议和配置结构上各自独立,这种多样性体现了生态的开放性与创新活力。与此同时,诸如 MCP-Mirror 这样的再发布仓库正在发挥聚合作用,推动生态内部形成初步的标准化与统一格式,为后续的兼容性和互操作性奠定基础。

结语

通过系统化的爬取、解析与自动化部署,MCPZoo 目前已构建出大规模的 MCP 服务器样本库,并从运行层面对这一新兴生态的结构特征与功能分布进行了测量。这些工作为后续的生态测量与安全分析提供了数据基础,也为 MCP 生态的持续发展与研究提供了可验证的参考。我们希望MCPZoo可以深化公众对MCP生态的认识,让人们清晰地看见AI产业的前沿。

威胁情报小组

洪赓,助理研究员、硕导。研究聚焦于网络黑灰产检测、网络犯罪治理、人工智能安全治理等,目前已在IEEE S&P、USENIX Security、ACM CCS、NDSS等国际顶级会议上发表十余篇高水平学术论文,担任ACM CCS 24、CCS 25程序委员会委员,并主持国家自然科学基金青年项目等重要研究课题。相关成果在执法机关、头部公司均有成功应用,曾获ACM SIGSAC China优博奖(全国共3位)、ACM CCS 2018亮点论文等;学生培养方面,指导本科生团队获得“挑战杯”全国大学生课外学术科技作品竞赛全国特等奖、全国大学生信息安全竞赛一等奖等荣誉。个人主页:https://ghong.site/

邬梦莹,系统软件与安全实验室21级直博生。主要研究方向为网络黑产和互联网测量,目前已在ACM CCS、NDSS、USENIX Security、IEEE/ACM ICSE等网络安全及软件工程国际顶级会议上发表5篇高水平学术论文。相关研究成果在政府部门和工业界落地实战,取得良好效果。个人主页:https://funeoka-yumee.github.io/

万缤王,系统软件与安全实验室25级硕士。本科毕业于哈尔滨工业大学网络空间安全专业,主要研究方向为互联网测量、AI安全等。

安柏超,系统软件与安全实验室25级硕士。本科毕业于复旦大学保密技术专业,主要研究方向为互联网测量、AI安全等。

[1] Androzoo. https://androzoo.uni.lu/