×

图书情报与数字图书馆论文_基于工作流的统计年

2022-01-30
文章目录

1 材料和方法

1.1 数据来源及预处理

1.2 数据特征分析

1.3 数据清洗模型构建

1.4 数据质量控制

    1.4.1 重复指标数据处理

    1.4.2 数据清洗质量验证

2 统计年鉴数据清洗模型构建关键技术实现及结果分析

2.1 单表数据分区拆分

2.2 单表数据分区提取

2.3 制作单表数据提取宏批量提取单表数据

2.4 建立匹配数据字典规范标识数据

    2.4.1 指标名称匹配数据字典

    2.4.2计量单位匹配数据字典

    2.4.3 空间区域名称匹配数据字典

    2.4.4 利用匹配数据字典规范标识数据

2.5 年鉴清洗结果

3 结论与讨论

文章摘要:为实现统计年鉴数据集成整合和综合快速查询,以2000—2018年《中国统计年鉴》及《河南统计年鉴》等全国31个省(市、区)统计年鉴为例,深入分析其数据特征后,采用Alteryx Designer 2019.2学习版,基于工作流技术,经过提取目录及文件、提取文件中的表单、提取表单中表的内容、数据清洗及规范、规范标识数据的6个维度、数据重组和数据输出共7个步骤构建了统计年鉴数据清洗模型。结果表明,在16 GB内存的笔记本电脑上,模型用时4~5 h即可将数据容量达21 GB、包含33万个文件、120万张表单的统计年鉴数据清洗并整合为1套包含6 000多万条指标数据序列的标准规范数据集。构建的数据清洗建模方法具有高效、可溯源的优势。

文章关键词:

论文DOI:10.15933/j.cnki.1004-3268.2021.10.022

论文分类号:G353.1

上一篇:世界历史论文_19世纪英国的通俗科学期刊与公众
下一篇:高等教育论文_高校年鉴编纂实践与思考

Top