一、项目背景与建设目标

为深入贯彻落实数字政府建设要求,进一步夯实政务大模型、智能问答、知识图谱及业务辅助决策系统的数据基础,现启动政务领域高质量数据集建设工作 。本项目旨在面向政务公开 、 政策解读 、 办事指南 、 民生服务 、 政务热线 、 行政执法及舆情分析等核心场景,构建一套权威准确、标准统 一、安全合规 、 持续复用的高质量标注数据资源。本项目需覆盖数据采集、清洗治理、结构化抽取、意图标注、实体标注、关系标注、质量校验、验收交付及安全管控全生命周期闭环。要求承建单位具备深厚的政务行业认知、严密的数据安全保障能力、规模化的标注组织能力以及端到端的全流程交付能力,确保数据要素赋能政务服务提质增效。

二、适用范围与建设内容

(一)数据来源

涵盖但不限于:政府门户网站公开文件、现行法律法规与政策文本、政务服务事项办事指南、12345政务服务便民热线历史语料及工单记录、政民互动问答对话、网络政务舆情数据、行政执法案卷文书、民生诉求咨询记录等。

(二)数据形态

以非结构化文本为主,兼容表格、半结构化文档(如PDF、OFD版式文件)等多种格式。

(三)标注维度

包括但不限于:语义意图、命名实体、实体关系、情感倾向、突发事件要素、标准问答对(Q&A)、多轮对话逻辑、文本摘要、错误纠正、主题分类等。

(四)交付成果

需提供:清洗后的原始数据集、结构化标注数据集、标注规范文档、全流程质检报告、数据溯源日志、安全保密承诺书及项目总结报告。

总体建设原则

政治站位与权威性 。 严格遵循官方口径 、政策原文及法定术语 ,严禁主观臆造或偏离原意的解读,确保数据政治导向正确 、内容权威。

安全底线与合规性。涉密及敏感信息实行“零泄露” 管理,全流程实施脱敏 、 去标识化处理,确保操作留痕 、全程可追溯。标准统一与一致性 。建立全域统一的标注规则体系,对歧义案例实行集中统一解释,确保同类数据标注标准一致。闭环管理与可控性。构建“ 需求定义-标注实施-质量检验-复核修正-验收评估-复盘优化” 的全流程闭环管理机制,确保各环节可控。质量严控与高标准 。 立足政务场景“ 高可靠 、低容错”特性,实行最严格的质量控制标准,确保数据准确率。


四、全流程闭环实施要求

(一)需求分析与方案设计

承建单位需深度对接业务需求,输出详细的实施方案,明确标注维度、工具选型、作业流程、人员配置、质控机制及进度计划。双方需共同制定《政务数据标注规范手册》,明确术语表、边界案例界定、特殊场景处理规则及驳回标准。项目实施前,须开展小批量试标(POC),验证规则的一致性与可行性,经确认后方可批量作业。

(二)数据清洗与治理

数据清洗:剔除重复 、无效 、乱码、广告及干扰性数据,清洗无效字符。

敏感处理: 对姓名 、 身份证号 、 联系电话 、 家庭住址 、单位涉密信息等个人隐私及敏感字段进行自 动化脱敏与去标识化。格式标准化:统一字符编码(UTF-8),进行规范的分段、分句处理, 并按结构化标准入库。数据均衡:优化领域、意图、场景分布,避免数据偏斜,确保训练数据覆盖面均衡。

(三)核心标注任务(按需配置)

文本分类标注: 涵盖民生保障、市场监管、教育医疗、交通出行、住建环保等领域分类;咨询、投诉、求助、举报等意图分类;以及办理条件、材料清单、流程时限等要素分类。

命名实体识别(NER):精准抽取政府部门、机构单位等组织实体;个人、企业等对象实体;证照、事项、项目等业务实体;时间、地域等时空实体;以及法条、文号等法规实体。关系抽取:抽取部门与职责、事项与材料、事项与条件、事项与时限 、 政策与对象 、 问题与成因等语义关系。标准问答对(Q&A)构建:基于政策原文生成“标准问+标准答”,扩展口语化、模糊化 、多条件组合的同义问法。答案必须严格引用原文,严禁编造 、 夸大或曲解政策。多轮对话标注:针对办事咨询 、 进度查询 、 材料补正 、投诉跟进等场景 ,进行轮次拆分 、 意图追踪 、 上下文承接及关键槽位填充。事件与要素抽取:针对工单 、执法文书及舆情事件 ,抽取时间 、地点 、 主体 、 行为 、 依据 、 结果等核心要素。质量增强类标注:开展文本纠错(错别字、语法、规范表述)、关键信息摘要提取及合规性判断(敏感识别、涉密识别)。

(四)全流程质量控制体系

建立“三级质检+量化考核” 的质量控制机制:一级质检( 自查与互检):标注员作业时实时自查, 班组内实施交叉抽检。二级质检(专业审核):配备专职质检员, 按比例全量审核,对错误数据进行修正并反馈。三级质检(验收抽检):由采购方组织抽检, 承建单位配合复核,对不合格数据启动整改闭环。量化指标:标注准确率≥98%,标注完整率≥99%,标注一致性≥97% 。不合格数据必须全量返工 、溯源定责 、限期整改, 并形成质量问题台账。过程管理:利用标注平台实时监控进度与质量,建立歧义问题集中答疑机制与规则迭代记录,定期(日/周)输出进度与质量分析报告。

(五)数据安全与保密措施

严格执行《数据安全法》《个人信息保护法》 及政务数据安全相关规定 。 严禁数据泄露 、 扩散 、 商用或对外提供 。须签署保密协议 、 数据安全责任书及合规承诺书。技术管控要求:实施内网环境标注、离线作业管理、数据水印溯源、操作日志审计。项目结束后,须在监督下彻底销毁临时数据及缓存,确保无任何副本留存。

(六)成果交付与验收

交付物清单 :包括但不限于清洗原始库 、 结构化标注数据集(支持JSON/CSV/Excel/数据库格式)、标注规范文档、质检报告 、 抽检记录 、 问题整改记录及数据统计分析报告。验收标准:数据格式规范、字段完整、可直接用于模型训练;准确率、一致性、合规性符合合同约定指标。验收不合格的,须支持复测、抽样核查及异议返工,直至合格。

五、承建单位资质与能力要求

行业经验 :具备政务数据标注或政务大模型数据服务的成功案例, 熟悉政府业务流程与话语体系。团队配置:拥有稳定的专职标注团队 、 专业质控团队及经验丰富的项目经理,核心人员需具备良好的政治素养。安全能力 :具备完善的数据安全管理体系 、保密管理制度及成熟的数据脱敏技术能力。工具支撑:拥有自主可控或成熟的标注平台/工具,支持流程化作业 、 全过程追溯及智能化质检。驻场服务:根据工作需要,能够提供驻场标注、内网环境作业及专项安全管控服务。

六、项目管理与服务保障

沟通机制 :建立专人对接机制 ,定期汇报项目进度 、 质量状况及风险问题。响应能力 :建立需求变更快速响应机制,支持规则动态优化及紧急任务的产能扩容。文档管理 :全过程文档化管理,确保项目档案完整 、 可审计 、 可复盘。

七、承建单位需提交的信息维度

为全面审核承建单位的资质 、 能力及适配性,承建单位需按以下维度提交完整信息,所有提交材料需真实 、 有效 、可核查,加盖单位公章后提交:

(一) 企业基本信息企业主体资质: 营业执照 、 税务登记证 、 组织机构代码证(或三证合一证件) 复印件,加盖公章;企业概况 :包括成立时间 、 注册资本 、 注册地址 、 实际经营地址 、 组织架构图 、 员工 总人数及核心岗位人员配置情况;企业信用信息:提供国家企业信用信息公示系统截图 、信用中国无违法违规记录截图, 无重大失信 、行政处罚 、诉讼纠纷等不良记录证明。

(二) 行业经验与案例信息政务相关案例 :近3 年内承接的政务数据标注 、政务大模型数据服务 、 政务数据治理等相关项目案例( 至少提供2个完整案例);案例详情 :每个案例需提供项目合同复印件(关键信息可隐去,但需体现项目名称 、 服务内容 、合作单位 、 项目周期 、 项目金额)、 项目成果证明( 如验收报告 、 客户评价 、交付物样本);案例适配性说明:结合本项目需求 ,说明过往案例与本项目 的场景、规模、标注类型的适配性,突出核心服务优势。

(三) 团队配置信息核心团队架构:项目经理 、 质控负责人 、 技术负责人 、安全负责人的简历(含从业年限 、政务相关项目经验 、专业资质);标注与质控团队:专职标注员 、 质检员的人数 、 学历结构、培训记录、从业经验,明确核心人员的政治素养证明( 无违法违规记录);人员保障方案 :针对本项目 的人员配置计划 、岗位职责分工 、 人员稳定性保障措施(如薪酬体系 、 考核机制)。

(四) 技术与工具支撑信息标注平台/工具说明:提供标注工具的功能介绍、操作流程 、 技术参数,说明工具是否支持内网部署 、 离线作业 、 数据溯源 、 智能化质检等功能;技术能力证明:数据脱敏技术 、 结构化抽取技术 、 质量校验技术等核心技术的说明,可提供相关技术专利 、软件著作权复印件;技术保障方案 :针对本项目 的技术支持计划 、 问题响应机制 、 工具运维方案。

(五) 数据安全与保密信息安全管理制度:数据安全管理体系文件、保密管理制度、人员保密管理办法 、 数据脱敏操作规范等复印件;安全保障方案 :针对本项目 的安全管控方案(含人员安全 、 环境安全 、 数据全流程安全)、 应急处置预案( 如数据泄露应急方案);保密承诺 :提供针对本项目的安全保密承诺书( 需明确保密范围 、 保密期限 、 违约责任), 加盖单位公章及法定代表人签字。

(六) 项目实施与服务方案信息项目实施方案:结合本项目需求 ,提交详细的实施计划(含进度安排 、 各环节时间节点 、 人员投入)、 标注流程、质控机制;服务保障方案: 沟通对接机制 、 需求变更响应机制 、 驻场服务方案(如需)、 售后保障方案;报价相关信息 :按本项目需求提交详细的报价清单(含服务项目 、 单价 、 总价 、 付款方式), 明确报价的合理性说明。

(七) 其他补充信息承建单位认为可证明自身资质 、 能力 ,且与本项目相关的其他材料(如获奖证书 、 客户推荐信 、 行业荣誉等)。

温馨提示:

联系人:范丹阳  

联系电话:15995284521

联系人:江苏艳  

联系电话:15961767417

截止日期:4月30日