北京数字档案馆数据清理分析

更新时间:2019-07-26 10:34 | 来源:新闻中心 | 作者: | 点击数:

经过十多年的应用,北京市档案馆档案管理系统积累了大量的存储数据,包括1400多万份存档机读目录,7000多万份档案数字拷贝和80TB存储空间。由于数据库设计约束和数据输入错误不足,系统中存在脏数据(dirtydata指的是数据集中更相似的重复,不一致,格式不匹配,不合逻辑和空值)。和没有实际效果的数据)。 [1]这些数据直接降低了存档数据的质量,并影响了文件搜索查询的效果。随着北京数字档案馆项目的深入,为了更好地配合北京数字档案馆项目的建设,北京档案馆于2016年对档案数据进行了集中清理。

北京档案馆的馆藏资料主要包括各种档案的数码副本(纸质文件,纸质照片文件,音频和视频文件的数字拷贝),电子文件(包括数码照片),文件机读目录数据和文件系统管理数据。等待。文件系统管理数据通常包括诸如存档实体表,存档地址表,文件原始表,用户信息表和协调卷信息表之类的数据。

这些数据可以分为两种类型:结构化数据和非结构化数据。结构化数据是指存储在数据库中的数据,该数据库可以在逻辑上由二维表结构表示。非结构化数据不能用数字或统一结构表示,例如文本,图像,声音,网页等,称为非结构化数据。结构化数据包括存档机器可读目录数据和文件系统管理数据。非结构化数据包括各种数字副本,电子文件,数码照片等。有两种类型的数据存在问题和不同的解决方案。结构化数据作为整体存储在数据库中,数据清理取决于数据库执行指令。非结构化数据作为单个文件存储在磁盘驱动器上,可以手动清理,但是当数据量非常大时,它依赖于自定义开发计算机程序。在将数据迁移到北京数字档案系统的过程中,纸质文件和存档的机器可读目录的数字副本是问题最多且清理工作量最大的两种类型的数据资源。因此,数据清理的重点也放在纸质档案和档案机器可读目录数据的数字拷贝上。

1.重复数据

北京数字档案馆数据清理分析

有两种数据重复的情况。一个是在同一个库表中有相同字段值的记录;另一个是不同的库表中存在相同的记录。生成的主要原因是重复导入数据,并且数据库没有唯一性检查。应保留数据副本以删除重复数据。

2.缺少数据

数据库表中的许多记录缺少关键字段值,例如“全号”,“目录号”,“案例号”,“文件号”,“标题”,“打开控制状态”等字段。问题的主要原因是在手动输入过程中缺少目录,并且数据库设计中缺乏完整性约束也是原因之一。应补充这些关键字段值,以确保满足数据检索和利用的要求。3.错误的数据

数据库表中记录中“文件号”字段的值编译错误。例如,照片文件文件号的结构应为“全号 - 目录号 - 文件号 - 表号”,但实际条目为“全号 - 目录号 - 案号”。某些记录分配了错误的值。例如,某些“页面”字段包含非法字符,例如“+”,并且值的范围应限制为正整数。有些记录的记录数量不足。例如,根据当前标准,“起始页码”字段的值应为5位数,但早期记录仅为3或4位数。其中一些错误是由手动输入错误引起的,有些是由于字段值编译标准的变化引起的。应通过数据清理纠正错误的数据。

4.数据无效

应通过清理直接删除数据库表中的历史测试数据,临时数据等。

1.数据命名不标准化

数字拷贝文件的名称如下:3位序列号。 tif,4位序列号。 tif,5位序列号。 tif,a_p序列号。 tif,文件号。 TIF。其原因在于不同时期数字处理中使用的标准不同,以及一些通过手动命名不符合手册的特殊命名方法。不符合命名约定的数字副本在数据管理和数据挂钩方面存在隐患,并且容易出现钩子错误等问题。应采用统一的命名标准,以确保文件级和文件级数据的可靠性。

2.数据质量不可靠

无法打开单个数字副本,这是数据扫描质量的问题。数据不正确可能导致连接失败,系统无法正确读取数据。软件可用于检测图像的可读性以确保数据质量。

3.数据存储不是唯一的

档案的一些数字副本在系统中存在两个副本,一个是彩色的,一个是黑色和白色。黑色和白色是早期数字化的结果,颜色是最近数字化的结果。重复数据不利于数据管理,但也浪费存储空间,并选择具有良好图像质量的副本进行存储。

4.存储方法不是吗? ?

数据以不同方式存储在磁盘上,并以多种形式存在。有两种类型的在线存储管理方法和离线存储离线管理方法。在线存储管理方法使用不同的系统,并且数据以不同的方式存储。建议采用统一的数据存储方法来集中管理相同类型的数据。

归档数据清理的步骤包括数据分析,清理工作流和清理规则的确定,数据清理验证,脏数据清理,清理数据整理和协调。

(1)数据分析

数据分析是整个数据清理过程的第一步。数据分析的作用是获取某些数据的特征。根据这些属性,可以确定适当的检测算法和清洁规则。因此,数据分析也是数据清理中非常重要的一步。存档机器可读目录使用结构化数据库管理,因此分析数据库表是第一步。通过数据库表的单表查询和多表查询功能,可以找到重复数据,不完整数据,错误数据和无效数据。一方面,数字副本存储在服务器磁盘上。另一方面,数据库也保存了命名和存储位置等信息。因此,数据问题可以从文件实体的角度找到,也可以从数据表的查询比较中找到。 (2)确定清理工作流程和清理规则数据清理工作根据数据分析结果和数据的标准定义清理工作流程。数据清理标准来自与各种类型数据相对应的数字档案的标准和规范。这些标准和规范也是数据分析问题的来源和基础。由于各种类型数据的不同问题,清洁方法是不同的。要执行的数据清理的具体过程根据实际数据确定。

(3)数据清理验证

此阶段验证数据清理的正确性并评估工作流程的效率。可以根据数据分析和清洁规则测试一些待清洁的数据,并且可以通过测试找到问题以提高效率和准确性。

(4)清理“脏数据”

验证数据清理后,可以根据数据清理验证阶段中设置的规则清理数据。但是,在此阶段要特别注意数据的安全性。您应首先备份源数据,然后清理数据源,以避免因操作不当而导致数据严重损坏。清洁过程可能需要很长时间,应记录和管理。数据的修改可能涉及人工参与,需要有关部门的配合。

(5)清理数据整理和检查

数据清理完成后,将整理并检查干净数据。清洁数据可以以集中方式存储,并且如果需要,可以进行备份,这可以有效地保护数据的安全性。

北京数字档案馆数据清理分析

1.控制清洁时间。数据收集清理工作,虽然工作量很大,但时间不宜过长,一般应在4个月内控制。

2.做好流程管理。提前制定详细的清洁计划,严格按照时间表进行清理,并做好记录,并且在清洁过程中不要接收新数据。

3.保证清洁质量。数据清理工作主要依靠数据库技术,软件批量重命名技术,图形图像质量检测技术等,并在具体操作之前进行必要的测试。例如,数据库值从日期类型到字符类型的转换可能导致数据丢失。

各部门一起工作。数据清理是一项复杂的任务,需要多个部门一起实施。以北京档案馆为例,在数据清理过程中,信息部门负责领导和管理工作,运营和维护公司负责技术支持工作,档案业务部门负责清理工作。标准和特殊数据修改的审查。他们每个人都履行职责并共同努力。

数据清理反映了档案部门更加关注数据合规性的独特性,完整性和准确性这一事实。一方面,在设计数字档案系统时,数据库表的设计更加完善,具有良好的绑定性,如加强系统设计过程中的完整性,准确性,可用性和安全性检测,以及设计好四。性别检测计划;另一方面,加强管理,及时发现和纠正错误的数据或问题数据,避免脏数据进入系统;第三,文件数据标准应稳定一致,如果标准发生变化,原始存储数据需要及时更正。






杏耀娱乐科技有限公司(www.cityshowclub.net)致力于杏耀游戏注册开发与安全服务领域,公司现有800多名员工,其中杏耀娱乐官方技术人员180名,杏耀所有技术人员均具备二年以上实际项目经验。

杏耀游戏平台科技有限公司 copyright ©2018
备案号:吉ICP备021428000607号