《数据安全实践指南》- 数据采集安全实践

数据采集安全实践

数据分类分级
数据采集安全管理
数据源鉴别及记录
数据质量管理

数据分类分级

数据分类可以使数据信息中心化，聚类化，从而使数据发挥出更大的价值，为数据分析技术提供更精准且有效的基础样本。
数据分级可以保证不同敏感级别的数据在访问控制，数据保护措施发挥对应安全措施的价值所在，从而确保数据的安全性和完整性，也确保了最小权限下的数据可用性能力。

建立数据分类分级的职能部门

在公司层面让最高权力者建立数据分类分级的职能部门，并招募相关的工作人员，在进行数据分类分级需要遵从基本的安全原则和操作指南，建立数据分类分级的审批机制，对分类分级进行标识和管理，对识别到的敏感数据进行脱敏处理，对数据分类分级中的重要操作进行审计和记录，尽量实现专人专岗。

明确数据分类分级岗位的能力要求

具备良好的数据安全风险意识。
熟悉国家网络安全法律法规。
组织机构所属行业的政策和监管要求。
数据分类分级过程中能够严格按照《网络安全法》，《个人信息安全规范》等相关法律法规和行业规范执行。
个人需要具备良好的数据分类分级基础。
了解公司内部资产范围和组织架构，能够准确识别哪些数据属于敏感数据
熟悉数据分类分级的合规要求，熟练掌握数据安全措施。
拥有指定标准化流程或者制度的经验。
根据实际情况制定数据分类分级原则，操作指南，管理制度和清单等，并推动相关要求和制度的落实。

数据分类分级岗位建设和人员能力评估方法

数据分类分级岗位的组织建设和人员实际执行能力评估，可以通过内部审计和外部审计等形式以调研访谈，问卷调查，流程观察，文件调阅，技术检测等多种方式实现。
1.调研访谈
- 人与人之间面对面的交谈，通过接触到调查对象，调查对象就就所要调查的问题做出回答，由调查人员详细记录调查过程中的问题和回答的记录。
- 数据分类分级阶段的调研访谈，主要包括对数据分类分级部门和业务部门这两个部门人员的访谈。
- 数据分类分级部门访谈内容如下：
  - 确认其是否具备足够的数据安全风险意识。
  - 是否能够依据网络安全法和数据安全法等法律法规来执行。
  - 确认其在数据分类分级的原则上对分类分级数据的防护要求上，建立数据分类分级审批流程，对数据分类分级清单划分是否合理。
  - 制定的数据分类分级管理制度和操作指南是否符合公司的真实环境。
  - 对公司数据资产范围覆盖是否达到预期。
  - 根据上述结果观察确认该岗位的相关人员是否能够胜任该职业。
- 业务部门访谈内容如下：
  - 业务部门是否针对数据分类分级部门制定的标准和操作方法符合各业务场景需求。
  - 是否在各个业务部门真正落实并遵守。
  - 落实情况和预期是否存在明显差异或不足之处。
  - 对应差异和不足之处是否是在业务环境的可接受范围内。
  - 已经完成的数据分类分级的数据其误报率，漏报率是否在业务环境的可接受范围之内。
  - 根据上述就可以确认数据分类分级的相关要求和制度是否得到真正的执行。
2.问卷调查
- 问卷调查可以更为详细，完整和易于控制，优点主要在于标准化和成本低，问卷调查需要确保其规范化并且可计量，一般被调查的是公司业务部门人员。
- 数据分类分级阶段的问卷调查通常是以卷面形式进行，主要内容包括是否制定了数据分类分级的原则，清单范围，操作方法，审批流程，防护要求等在内的相关制度和方法，对应所制定的相关制度和方法在公司内部是否有效，覆盖率，漏报率，误报率是否在可接受范围内，该部门是否对检测到的敏感数据采取了有效的安全管理和控制措施。
3.流程观察
- 指实施团队成员在企业生成现场观察生产情况，寻找可能的改善点和问题点，并将内容记录下来的整个过程。
- 数据分类分级阶段的流程观察，主要是观察数据分类分级管理团队和业务团队两方的工作流程，从中寻找出可能的问题点和改善点。
- 以中立的视角观察公司数据分类分级部门相关人员的工作流程，包括在为公司制定整体的数据分类分级原则时，流程是否标准，方案中的各项要求与制度设计是否合理。
- 是否将数据按照重要程度进行分级，是否按照数据的不同来源进行分类。
- 是否最大化地覆盖了公司内部数据资产。
- 对数据分类分级时，是否按照数据分类分级的原则对数据进行了打标签的操作。
- 是否设置了审计分析机制。
- 完成数据的分类分级操作后，对于不同类别和级别的数据是否有针对性制定了数据防护方案。
- 是否建立了相应的管理机制，例如对敏感数据进行数据脱敏，对重要数据进行访问控制，对其他数据进行加解密。
4.技术检测
- 根据规定的评价标准规范，对实际数据的输出进行检测，并将测出的特性值与规定值进行比较，并加以判断和评价，用以确定对被测对象的实际处理措施和方法是否符合要求，数据分类分级阶段的技术检测，需要通过技术工具，实际确认现有数据的分类分级是否存在错误，是否与制度设计相符，是否存在暗数据未被正常分类处理的情况等。
明确数据分类分级的目的
- 当前大数据时代环境下，随着不断发展创新的同时，数据违规收集，数据开放与隐私保护矛盾，以及粗放式“一刀切”的管理方式等，这对于大数据资源的过度保护不利于大数据应用的健康发展，数据的分类分级的安全管控方式能够避免这“一刀切”带来的问题，对数据进行分类分级，可以实现数据资源的精细化管理和保护，确保大数据应用和数据保护得到有效的平衡。
确立数据分类分级原则
- 数据分类分级原则应遵循科学性，稳定性，实用性和扩展性的原则。
- 科学性
  - 按照数据的多维特征，以及相互间客观存在的逻辑关联，进行科学和系统化的分类分级操作。
- 稳定性
  - 根据实际情况，以数据最稳定的特征和属性为依据，指定数据分类分级的方案。
- 实用性
  - 数据分类分级需要确保每个类目下都要有数据，不设立没有意义的类目。
- 扩展性
  - 数据分类分级方案在总体上应具有概括性和包容性，能够实现各种类型数据的分类，以满足将来可能出现的数据类型。
制定数据分类分级的方法及细则
- 数据分类的常用方法：按关系分类，基于业务(来源)，基于内容，基于监管等。
- 数据分级的常用方法：按特性分级，基于价值(公开，内部，重要核心等)，基于敏感程度(公开，秘密，机密，绝密等)，基于司法影响范围(大陆境内，跨区，跨境等)。
- 公用数据分类的常用方法：重要数据，个人及企业信息，业务数据。
  - 重要数据：一旦泄露则可导致危害国家安全，或危害公共利益，生命，财产安全或危害国家关键设施，或扰乱市场秩序，或可推论出国家秘密等数据。
  - 个人及企业信息：包含直接个人信息，以电子或其他方式记录的，能够单独或与其他信息结合识别的自然人个人身份或企业的各种信息。
  - 业务数据：内包含企业或公共组织从事经营活动或例行社会管理功能，事务处理等一系列活动所产生的可存储的数据。
- 先分类再分级
  - 企业可以基于公用数据的分类分级策略，结合自身业务和合规需求实际情况，规划出适合企业自身的数据分类分级方法，建立适合组织自身的数据分类分级原则和方法，将数据按照重要程度进行分类，然后在数据分类的基础上再根据数据安全在受到破坏后对组织造成的影响和损失进行分级，在实际情况执行的适合，如果一次性做不到完全细粒度区分，则可以多步实现，循序渐进，不要一开始就设立过于复杂的方案。
制定数据分类分级的安全策略
- 制定完成数据的分类分级之后就要开始针对性地制定数据防护要求，设置不同的访问权限，对重要数据进行加密存储和传输，敏感数据进行脱敏处理，重要操作进行审计记录和分析等策略。
- 参考上述思路可以制定数据分类分级安全策略如下：
  - 非敏感数据一级（完全公开）无需进行防护。
  - 非敏感数据二级需要确保只在必要时才对外公开，以避免过度公开，同时需要确保仅内部人员才可访问和使用，可以采用基于身份的访问控制。
  - 敏感数据三级需要确保只有通过审核之后的数据才可公开，并附带未授权公开的惩罚措施和相关的规章制度，针对三级数据的访问，需要设置明确的基于身份的访问控制权限，确保只有确实存在实际需求的特定员工才能使用敏感数据。
  - 敏感数据四级则是完全禁止公开，同时严格限制内部人员访问，仅以白名单等形式允许特定的极少数人员接触，并制定相关数据防泄漏政策，以及具备相应的数据防泄漏技术能力。
  - 对于涉密数据不属于数据安全治理的范畴，对其处理和使用需要遵守国家相关法律法规。
实施变更审核机制
- 数据分类分级的工作中，对于部门是需要明确相关内容的操作流程有审核和审批机制，确保数据分类分级工作符合组织的分类分级原则和制度要求，原则上已经被明确分类分级的数据，其等级只能升级不能降级，为了是防止泄密，而且审批需要多人控制，包括数据所有者，数据分类分级管理者和行政管理者。
使用技术工具
- 使用技术工具的前提是组织内部已经有明确的数据分类分级方法和策略，就是分类分级规则，从技术的角度来看，数据分类分级首先涉及到的就是数据的发现，目前的数据类型可分为两种，一种是结构化数据，例如：业务数据，数据库等。
基于元数据类型的分类技术
- 内容感知分类
  - 这类方法依赖于对非结构化数据内容的自动分析来确定分类，其中涉及很多技术，包括但不限于正则表达式，完全匹配，部分或者完整指纹识别，机器学习等。
- 情境感知分类方法
  - 此方法依赖于数据分类工具中能够被编码的现成的分类知识库，因为该方法利用的是广泛的情景(上下文)属性，因此这种分类方法适用于静态数据，例如：医院拍摄的X光片就可以对其产生的场景进行简单的分类，也可以根据后缀名进行分类，将该后缀名作为某某敏感信息进行分类。
基于实际应用场景的分类技术
- 基于实际应用场景的数据分类其实际运用的技术手段可能涵盖内容感知和情景感知分类方法中的多种不同的方法。
- 标签库
  - 这里的标签库是基于分类分级规则建立的标签库，既可以单独成一个静态库，也可以直接在打标工具或系统后台进行自定义配置，可以根据不同文件格式类型建立标签库，也可以根据业务类型由大类到小类定义多个标签。
  - 基于旅游业，可以建立，商业，旅游，用户信息的标签库。
  - 除了文件后缀名之外还可以通过关键字，正则表达式等方式进行设定标签规则。
- 结构化数据打标
  - 因为是结构化数据，所以用户在建表的时候可以直接对字段标签进行设置，基于数据库的权限模型，对底层数据表的列权限进行控制，遍历读取数据库的表名，列名，列的内容，再结合标签库中设定的规则，发现表名，列名以更细粒度对数据进行分类划分。
- 非结构化数据打标
  - 这个就要引用到自然语言处理，数据挖掘，机器学习等技术，需要对内容进行识别，并与标签库相关的特征进行匹配，从而对非结构化数据进行分类。
- 标注
  - 首选是对一批文档进行人工分类，用以作为训练集，然后利用机器学习算法，经过一段时间的学习之后，依据学习结果有，对其他数据进行大批量的打标。
- 训练
  - 计算机从这些文档中挖掘出一些能够有效分类的规则，生成分类器，就是总结出来的规则集合。
- 分类
  - 将生成的分类器应用在有待分类的文档集合中，获取文档的分类结果，因为机器学习方法和文本分类领域实际引用效果还是可以的，所以这几种方法已经成为这个领域的主流。
- 分级指的是在分类的基础上，依据数据的敏感程度，影响范围及其自身的价值等对数据进行等级划分
技术工具的使用目标和工作流程
- 数据分类分级的规则是灵活配置动态调整的，因为数据一直处于实时动态变化状态。
- 根据定义的分类分级的规则，工具可以自动对结构化和非结构化数据源进行扫描，分级和打标。扫描的对象是数据源，不是单个的数据，在扫描过程中完成被扫描数据源内数据的分类分级，扫描结束后自动为分类分级后的数据打上标签。
- 根据定义的分类分级的规则，工具可以对敏感数据进行自动识别，对数据进行自动分类分级的过程中，工具也能自动发现数据源中的敏感数据，敏感数据的定义既要符合国家相关标准也要依据组织内部的实际情况而定。
- 工具自动进行数据分类分级的结果，可以是人工进行审核和调整，工具可以依赖人工提前定义好的规则特征库，也可以利用机器学习的手段进行学习和识别，所以分类分级的结果多少还是有些误差，最后还是要人工对结果的干预。
- 工具能够记录每次对数据进行分类分级作业的详细过程信息，数据分类分级作业中的每一步所涉及的操作及相关信息都需要详细的记录，包括但不限于授权信息，时间信息，数据源信息，中间过程记录信息，错误信息和结果信息等。
- 工具能够友好地展示数据数据分类分级的结果，工具运行的结果最终是给人看的，所以其展示结果的手段需要直观，易于理解，可以结合当前已经十分成熟的可视化技术和报表技术来展示结果，保存和导出结果的方式应该多样化。

标签：数据采集实践指南数据安全技巧

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。