申报详情

项目介绍

一、项目背景

当前互娱产品与团队呈现高度的多样性,各QA团队在测试流程、方法及工具选用上存在较大差异,测试工作的“非标准化”状态,在一定程度上制约了整体效率的进一步提升。此外,随着AI技术在开发领域快速发展,如何将AI应用在测试环节提升效率,也是互娱QA部门面临的重要机遇与挑战。

为此,我们对原有以用例管理为主要功能的QA工作台(QA Studio)进行了全面升级,旨在通过技术赋能推动测试流程智能化和标准化,三个核心模块是:

  • 支持AI生成测试用例 :通过BrainMaker构建产品和测试知识库,结合QA历史用例 ,AI一键生成标准化用例。提供全量生成与补全双模式,30秒极速生成,显著提升用例设计和编写效率。
  • 支持AI应用开发 :集成面向全部QA同学可用的AI应用开发平台,支持QA应用AI结合业务快速搭建、分享AI应用。同时,部门举办AI应用开发大赛,已有多个优秀AI应用实践在各重点产品落地。
  • 标准化任务与BPO管理 :提供统一的任务测试管理功能,特别增加对BPO(离岸外包)模式的支持,通过标准化流程和协作管理,改善跨地域、跨团队的协作效率,协助BPO模式在互娱QA顺利落地。

二、项目思路和方案

2.1 AI测试用例生成

2.1.1 AI生成用例面临的挑战

测试用例是QA执行测试的基础,据互娱QA部门统计,用例设计和编写约占QA日常工作25%的时间。随着AI技术在开发领域快速发展,我们在2024年开始尝试AI生成测试用例,以部门历史用例作为参考,直接在QA Studio(QA工作台)应用AI生成用例。在部分项目试验后,发现了AI生成存在一些痛点阻碍了广泛应用:

  1. 游戏知识缺失与幻觉问题 :AI对游戏复杂的背景和业务规则理解不足,易生成虚构规则或误解需求,导致QA需要花费大量人工对生成内容进行修正和补充,提升有限效率。
  2. 生成耗时等待较长 :用例作为多层级结构,用思维链模型生成耗时较久,一次生成往往需要3-5分钟,等待时间过长影响使用体验,且无法满足快速“补全用例”的场景。
  3. 缺乏标准化与专项测试方法 :大模型直接输出的用例缺乏部门定义的标准化规范,且缺少基于专项业务的测试方法,导致生成质量参差不齐,复用门槛高。

针对以上痛点,我们构建了结构化的产品和测试知识库,并基于RAG(检索增强生成)技术,在生成过程中动态注入测试方法论、产品知识和核心业务规则,为AI提供精准上下文。在实践过程中,为了进一步提升生成质量和效率,采用多模型协作、多进程并发、动态提示词优化等技术。在应用场景上,方案支持用例补全、一次全生成,流式输出以改善等待体验,并支持多种文档输入(文本、图片、Figma)。目前整个QAStudio AI用例生成方案已经在互娱产品内广泛应用,生成用例占QA部门总用例的20%,平均月生成用例条目44,000+个。

该方案目前在实际项目应用中体现出了显著的实用价值,与业界方案和效果对比相对领先。不仅提升了内部测试效率,还吸引了公司内其他多个事业部团队的关注并积极体验和使用,为AI技术在游戏测试领域的深度应用奠定了良好基础。

2.1.2 RAG总体框架

为了解决专业知识缺乏和用例生成不规范问题,分别引入Input Manager和Prompt Manager两个核心组件。Input Manager负责统一管理和融合分散在各处的游戏背景知识;Prompt Manager结合精心设计的测试方法指引,为业务需求动态生成提示词,精确控制输出内容结构和质量。

专有知识库建设

知识库是RAG的基石,只有足够丰富和高质量的知识才能保证用例生成质量,我们重点建设了文档知识库、用例库、模版库。

  • 文档知识库: 构建了同步POPO云文档、KM等wiki平台的文档知识库,并基于23,000条Query的评测集优化构建方案。在用例生成时,通过BrainMaker检索算法粗排序,使用Qwen3-Reranker-8B重排序,命中率Hit@5提升7.5%,MRR@5指标提升12%。
  • 用例库: 搭建策划案-测试用例对的用例库,为模型提供任务模式参考。采用Conan-embedding-v1向量化模型构建查询向量,返回相似度前20的候选对,筛选出最佳参考样本。
  • 模板库: 依托DeepSeek-v3模型从真实用例中提炼标准化测试模板。通过字符匹配获取候选模板,利用模板结构定位最小复用片段,最终通过LLM分类返回最适合的top1模板片段。
  • 用户自建知识库: 依托QA Workshop平台支持用户自建知识库,兼容多种外部数据源接入。用户可构建个性化检索应用并集成至AI用例生成流程,满足不同项目组个性化需求。

2.1.3 AI用例生成场景

通过对行业内类似产品的AI用例生成调研,并结合项目组QA的实际需求做了分析和总结,总共设计了3种生成方式来支持用户实际的AI用例生成场景。

1. 思维链单层流式用例生成

这种方式AI生成响应速度很快,毫秒级就会有流式的内容返回,可以查看思维链分析过程以及检索到的知识库内容,然后只返回单层的用例内容,比如从某一个功能点生成下一层全部的测试点。这个场景呢,非常适合前期需要了解AI的分析的思维过程和逐层review生成效果的情况。

2. 批量托管式用例树生成

这个方式可以从已经明确的功能点或测试点生成后续全部的用例树内容,直到每一条用例的预期结果节点。这个方式适合对已经明确的测试点做一次性全部生成,避免逐层操作的等待。整体用例编写效率提升拉满。

3. 按照用例模版生成

这个方式也是在多个项目组真实的需求中总结而来,比如对于游戏中新增了类似的角色或资源等,都可以使用原有的标准用例通过输入用例迭代的内容,AI就可以在原有用例上新增或更新一些新的用例分支。这个方式生成的效果预期达成率高,并且和原有用例效果保持的也比较一致。

2.1.4 技术亮点

  1. 支持文档解析-拆分-核心片段定义功能
  • 支持pdf/xlsx复杂格式的策划案文档解析,解析后的文本使用llm进行智能切分入库。用例补全时,基于conan-embedding-v1对用例信息进行向量化编码,通过最大内积检索算法获取候选策划案片段,其核心策划案片段的命中率为 72.6% ,结合关键词召回策略命中率提升至 94.0% 。通过文档切分-核心片段检索可去除噪音文本,减少 63.3% 的token输入长度。

  1. 策划案分析与功能点分解
  • 为提升功能点分解的精确率,我们增设了策划案分析环节。通过DeepSeek-v3提取其中的因果关系类规则和定义类规则等关键信息。平均每份策划案片段可提取 6.48 条有效规则,近一个月内累计沉淀游戏规则达 11,934 条。基于游戏规则数量,动态合成约束测试点数量的提示词,测试点数量从原来的平均 5.81 个精简至 4.43 个,有效减少了约 24% 的冗余节点。

  1. 动态提示词合成与测试方法论融合
  2. 从功能点分解到预期结果生成,生成目标逐步聚焦,难度逐渐降低,因此各层配置专门的提示词和生成模式。在动态提示词合成过程中,系统融合了等价类划分、边界值分析,场景分析法等多种的测试方法论。

  1. 为平衡测试前置条件的覆盖率和冗余率,我们首先基于测试点生成尽可能全面的前置条件集合,然后对测试点与前置条件之间的归属关系进行二次校验,排除错误归属的前置条件,将测试点下平均 4.76 个前置条件缩减至 3.84 个。

  1. 生成速度优化
  2. 根据不同节点的生成难度,混合非思维链和思维链模型,由纯思维链生成耗时 122.9s 缩 减至混合思维链生成的耗 时 45s。
  3. 思维链流式返回:多个线程并发请求,取最快返回正式结果的线程输出最终结果。平均耗时减少 7s
  4. 测试用例不同分支异步生成:将整个测试用例的生成拆分为不同测试分支的补全,不同测试分支并发进行生成,突破大模型通过自回归方式从左向右依次生成的性能瓶颈。

2.2 AI应用开发平台

我们通过QA Workshop提供了一个低门槛、可共享的AI应用搭建平台。通过权限体系、组件支持和统一模型配置的改造,使得团队可以更高效地开发、使用和迭代AI应用,逐步形成标准化的协作生态。

关键思路:

  1. 统一入口与权限规范: 基于部门自动分配工作空间,提供明确的所有者、管理员、编辑、成员分级权限,保证应用管理与协作的有序性。
  2. 组件与模板支撑: 预置模板和常用组件,支持知识库导入与插件扩展,为QA开发者发提供即开即用的基础设施。
  3. 模型与资源集中管理: 统一配置常用LLM和监控看板,避免重复接入与分散管理,提高模型使用的透明度和可控性。
  4. 体验与学习优化: 内置教学指引与问答助手,帮助新用户快速上手,推动团队成员的应用共创与分享。

知识库基建

在部门各团队的知识库管理中,我们通过 用例知识库组件 在QA Workshop上提供了一套统一、结构化、安全可控的解决方案。

它将历史用例与用例模版标准化管理,并通过语义检索和向量搜索显著降低大模型在专业问题上的“幻觉”,提升知识问答、用例生成和工单处理等场景的准确性和可用性。该组件依托 AI 数据平台持续迭代,能无缝嵌入 QA Workshop 流程,既保证了项目级别的知识安全隔离,又让团队能够高效沉淀和复用专业知识,从而在实际工作中实现更快、更可靠的产出。

2.3 标准化任务与BPO管理

测试任务标准化流程构建了从多源输入到规范输出的完整质量保障体系,通过测试任务标准化、模板化和数据驱动形成可持续优化的测试任务流程管理和迭代。

  1. 多源任务统一管理 :将易协作测试任务、缺陷反馈以及Feedback等任务统一纳入标准化处理流程,消除任务管理碎片化,实现规范化转化。
  2. 标准效率库模板体系 :建立包含各测试阶段模板、用例模板库和可玩性Checklist等多层次模板体系,每个模板设定标准工时要求,为测试工作建立通用共识以及规范化运转。

  1. 统一的用例资产管理: 通过对用例的创建、编写、用例树、标准化程度、SVN用例等都可以进行可视化的管理和进度跟进。另外还支持以用例为核心的测试任务发布,用例Review管理,用例共享和授权,导出和Excel格式互转等等实用协作能力。为团队的用例资产管理和迭代提供了便捷的支撑。
  2. BPO任务协作模式创新 :我们构建了内部测试与外部BPO测试任务的实时同步、执行进度和Bug监督、日报和实际工时确认机制等完整的BPO协作模式。

三、项目影响力和产出价值

3.1 影响力

目前该系统已发展成为QA部门的核心测试服务和AI创新应用平台,凭借其标准化流程设计,有效提升了测试管理的精细化水平。自2024年9月2.0版本开发上线以来,平台已实现全方位覆盖:

  • 全面接入
  • 互娱全产品 共计90+个产品组接入使用接入率100% ; 累计覆盖 4000+总用户 ,工作日日均活跃用户 800~900人
  • AI应用开发平台月均活跃开发者 130+ 人 、月均新增应用/组件 120+ 个 、总创建AI应用数 900+ 个, 月均应用运行次数 80,000+ 次
  • 跨部门覆盖
  • 用例资产管理、测试任务执行 覆盖包括 效率工程部、运营中心、有道事业部、游戏应用与平台事业部、智能邮件事业部、项目管理中心 6个公司内其他一级部门或事业部的QA团队。
  • AI用例生成覆盖 30+ 个项目 ,使用人数250+人。除互娱QA团队以外,还覆盖了 运营中心的藏宝阁,游戏应用与平台发展部的多多壁纸、云游戏,以及项目管理中心 QA团队 的部分场景使用 。
  • 在 程序自测、策划文档分析等场景还 覆盖多个事业部的程序和策划 等,包括大话事业部、合作产品部、在线游戏事业部、梦幻事业部等,总共 1100+人。
  • 合作共建
  • 基于技术中心的BrainMaker平台, 整合累计24个核心项目共27,613份高质量文档 ,形成了完整的知识体系。并 与技术中心合作共建 ,基于CodeMaker提供的Diff Map分析功能,对游戏代码仓库的变更生成变更的测试建议,可在 QAStudio用例中查看CodeDiff分析内容并一键生成测试用例 。目前技术中心已接入项目10个,分析程序工单数量7800+个。已有部分项目接入QAStudio中,后续持续接入和共建该功能模块。
  • 在用例和测试任务资产管理上,解决和支持 包括 效率工程部、有道事业部、项目管理中心、运营中心 等多个跨部门团队的功能迭代需求。共同建设完善用例资产管理体系。

内部分享

  • 部门级沙龙:
  • 《MTSC2025分享回顾:AI测试用例生成方案与前沿洞察》
  • 《AI应用在测试场景中的实践与思考》
  • 《 离岸测试(BPO)指引分享 》
  • 《 测试标准化及qastudio2.0使用介绍 》
  • KM 分享:【AI用例生成2.0方案介绍】,【AI用例知识库评估-评估结果与技术方案】,【如何减少用例生成AI味?融合用例模板的用例生成!】,【看得见的快:AI用例生成速度体验双提升】等13篇专题技术文章。详见专题: https://km.netease.com/v4/topic/5162/item/110599

外部分享

  • 测试行业MTSC大会分享:【AI驱动的测试用例生成:标准化与效率的双重提升】;
  • 与美团、腾讯、淘天、抖音等众多一线大厂同台分享,AI用例生成方案落地效果对比相对领先;

专利申报

  • 一种流式用例补全方案 (已完成专利评审)

3.2 产出价值

1. AI用例提效显著

目前已使用AI用例生成次数达8300+次,生成的总节点数有 270,000+个,部分项目使用的AI用例生成的 采纳率已达到65%~79% ,在实际场景中效果明显。

对于AI用例生成的效率提升,通过对于线上用例的人工编写和采用AI生成的用例耗时对比分析可知,采用了AI用例生成的方式总体 用例编写效率可提升 37% ~ 53%

在部分优秀实践场景中,经过项目组QA专门的ABTest方式验证,同一份用例采用AI生成辅助编写效率可提升 60% 以上,这个是对项目组内知识库的完善程度有一定要求的。从上面统计的用例耗时分析来看,综合平均提效在45%左右,相信在未来随着项目组知识库的不断完善,以及后续和技术中心CodeDiff分析的持续深入合作,用例的补全效果和整体编写提效会更进一步提升。

2. 典型的AI创新应用产出

案例1:H72燕云十六声 线上玩家反馈AI智能识别

  • 精准Trace Blame:
  • 指派准确率提升:70% → 97%
  • 人力成本下降:8人力/月 → 0人力/月
  • 处理效率提升:月均自动处理 2500+ Trace
  • 针对Qdata和Feedback的玩家反馈实现自动分配:
  • 清明假期高反馈期间,2小时快速完成积压的1044条玩家反馈。
  • 针对全链路处理流程固定的内容,支持追加自动处理。例如:闪退在自动分单后支持进一步定位闪退信息、去重、开单。
  • 指派准确率由原 70% 提升至 93%,整体准确率提高:23%

案例2:G37阴阳师 AI智能提BUG单

  • 团队实用情况:月均使用AI提单 100+ 条 ,占当月总BUG单 15%
  • 描述准确率高: 90%以上 的AI提单不需要人工介入修正,准确性可靠
  • 提BUG效率提升:使用AI提单后,整体提单效率提升约 5 倍 ,且BUG单包含详细的主题、关联步骤、截图、日志、Trace等信息,对后续策划、程序的查证沟通提供更专业的信息支持

3. 测试标准化行业对标

通过测试工作环节解耦、测试需求管理、测试工作执行三个方面多项标准化的创新改造,互娱QA在标准化程度方面相比推行前有了较大提升, 逐步接近业界头部水平在部分措施上已经达到领先水平 。同时,测试标准化作为前置条件,为互娱QA通过离岸测试的新工作模式实现降本增效奠定了基础。

通过BPO协作流程的系统化实施,我们实现了外部资源的高效整合迅速覆盖:

  • 规模化协作:已接入 70+个 产品组 ,对接 3家 专业供应商;
  • 资源整合:成功引入 500+ 名外部BPO专业测试人员;
  • 高效交付:累计承接 41,558 项 BPO需求,累计完成确认工时达 347,000+小时

四、项目未来规划和展望

目前该系统已经成为QA部门的核心测服务管理平台,实现了互娱全项目覆盖,并且支持了多个一级部门或其他事业部的应用场景。未来计划继续按照以下几个方向持续优化和推进:

1、AI用例生成的覆盖度进一步提升

在AI用例生成方面,将通过增加剪枝合并、逻辑调整、场景推理等模块解决冗余节点和覆盖度不足问题,提升AI节点占比;同时拓展伪代码生成和多模态输出功能扩大用户规模;并重点探索Agent方案,构建智能Review Agent和多Agent协作机制,以及游戏测试专用模型训练。

2. AI应用开发能力拓展

AI应用开发部分,未来半年将重点拓展对AI自动化测试的支持,计划自研并接入一套控制游戏客户端的MCP服务,集成 Airtest、Poco、Hunter 等能力,支持截图、键鼠操作、获取 UI 节点信息、执行GM指令、运行Python脚本以及采集客户端日志等操作,为Agent执行自动化测试提供基础能力支撑。

3. 测试标准化持续推进

其中面向QA的标准化任务占比的均值已经突破70%。在未来半年,计划进一步提高占比的同时,推动全产品的标准工时偏差率控制在20%以下。为此,QAStudio平台计划在未来半年,针对模版任务设置、测试任务管理、标准化率监控等方向上线更多支持功能。