基于流形学习方法的大数据分析技术在检验检疫行业中应用探讨

来源:南粤论文中心 作者:徐胜林 魏颖昊 仵冀 发表于:2015-07-23 09:52  点击:
【关健词】大数据; 检验检疫; 流形学习; 数据分析
摘 要: 在大数据时代背景下,数据分析技术广泛应用于提取海量数据中的有效信息。检验检疫行业形成了以CIQ2000综合业务管理系统为基础,以电子申报、电子监管、电子放行为主要内容的中国电子检验检疫建设格局,积累了大量来源不同、类型不同、时间周期不同、用途不同的结构化和非结构化数据。针对检验检疫业务数据的非线性特征,介绍了基于流形学习方法的大数据分析技术,探讨了其在检验检疫业务中应用的可能性。

          中图分类号:TP391.4          文献标志码:A        文章编号:1006-8228(2015)07-09-04
Research on manifold learning based big data analysis with the application to inspection and quarantine
Xu Shenglin, Wei Yinghao, Wu Jiying
(Information Center of the General Administration of Quality Supervision Inspection and Quarantine of the People's Republic of China, Beijing 100088, China)
Abstract: With the development of big data, some data analysis techniques were proposed to extract the meaningful information from mass data. From 2000, there is a great development of the inspection and quarantine informatization. The construction pattern of electronic declaration, electronic supervision, and electronic release was established, based on the integrated business management system of CIQ2000. A large amount of structured and unstructured data with different source, variety, cycle, and purpose is accumulated. In this paper, we discuss the manifold based big data analysis technique, which is suitable for the nonlinear property of inspection and quarantine data. Meanwhile, we analyze the application of manifold to inspection and quarantine business.
Key words: big data; inspection and quarantine; manifold learning; data analysis
0 引言
随着信息技术、计算机技术和网络技术的不断发展,人类社会迅速迈入了一个崭新的数字时代。利用大量的信息平台和网络建设,改善了信息的交互、存储和管理效率,从而生成、传播出大量的数据,称为“大数据”。一般认为大数据具有四个基本特征:数据体量大(Volume)、价值密度低(Value)、来源广泛特征多样(variety)、增涨速度快(Velocity)。简言之,大数据可以理解为海量的、对于社会生活各个层面都更加有用的数据资产。
大数据的概念在社会上已经广泛流传多年,而在检验检疫行业的应用才刚刚起步。在实际工作中,大数据与检验检疫业务关系密不可分。2014年全国出入境法检货物共994.32万批次,货值达1.2万亿美元。自检验检疫综合业务管理系统(CIQ2000)在2000年上线使用以来,经过十几年的积累,检验检疫货物信息数据量达到亿级。随着我国经济规模的不断扩大,检验检疫业务的不断发展,这个数据将以更快的速度递增。
大数据处理是伴随着数据挖掘技术的不断发展而提出的,其核心问题是对大数据进行分析。大数据分析一方面依赖于优化的复杂大规模数据处理技术,另一方面是模式提取的程序、标准和规范。大数据不仅是指数据量大、数据类型复杂,更重要的是数据中模式结构复杂、信噪比低。特别是在检验检疫行业中,存在大量非结构化数据,既包括检验检疫业务数据、等级评价数据,也包括商品种类、国别等辅助数据。科学的分析和利用检验检疫大数据,需要更多角度的模式探测和更可靠的模型构建,无论是运用模型生成规则还是直接利用预测结果,都需要更加规范的设计和分析。
本文从数据分析的角度探讨大数据在检验检疫行业中的应用价值。首先回顾数据挖掘的概念和基本流程,然后介绍常用的针对大数据的降维方法,特别是基于流形学习的方法。最后对大数据分析方法在检验检疫行业中的应用进行探讨。
1 数据挖掘的概念和基本流程
一般认为,数据挖掘的概念最早由Fayyad在KDD会议上提出[1],定义为:一个自动或半自动化地从大量数据中发现有效的、有意义的、潜在有用的、易于理解的数据模式的复杂过程。
数据挖掘的核心任务是探索数据特征并建立合理的数据关系。根据最终建立的数据关系特点,可分为有监督的学习和无监督的学习。有监督的学习是指对有明确预设目标的数据学习和建模,主要包括分类、识别和预测三方面功能。无监督的学习目的是分析并模拟数据的概念结构,主要包括关联分组、聚类和可视化三方面。在无监督学习中,没有明确的标示变量用于表达目标概念,主要任务是从大量数据中提取潜在的可能模式,探索并建立数据联系和内在结构。

         数据挖掘主要包括六个基本流程[10]。 

  ⑴ 问题识别
问题识别是从大量的复杂数据中,找到数据挖掘及分析要解决的核心问题。针对核心问题去建模和试验模拟才能找到有效的数据分析方案。识别问题时,重点明确问题属性,兼顾问题的整体性、长期性、系统性和风险性要求。
⑵ 数据理解
数据理解是确认待解决的核心问题与掌握的数据间的匹配程度,包括对数据价值的理解和对数据质量的理解两方面。在实际应用过程中,获取的数据可能存在大量的过期、无效数据,以及不一致、重复、不完整、不稳定的数据。
⑶ 数据准备
为数据分析的需要,要将所获得的有价值的数据汇集在一起,形成数据库或数据集市。以检验检疫行业数据为例,需要将不同系统获取的数据整合在一起。而各个检验检疫系统,例如CIQ2000系统、通关单联网核查系统、原产地业务系统等相对独立,数据来源、数据记录格式、数据级别和命名规则也存在差异。因此在数据准备阶段需要完成数据抽取、转换和装载三方面的工作。
⑷ 建立模型
数据建模是整个数据挖掘流程中最核心的环节,目的是使用机器学习算法对大量的数据进行建模分析,从而建立对数据最终待解决核心问题最合适的模型。建立模型阶段除了需要掌握先进的计算机技术、机器学习算法,还需要有经验丰富的业务人员。分析人员的业务知识和经验有利于发现数据间的潜在关系,剔除随机异常数据等。
⑸ 模型评价
模型建立完毕后,需要对模型进行功能性评价和服务性评价。所谓功能性评价是指模型对任务完成的质量,包括精准性评价和稳健性评价,常用方法为增益图法和ROC曲线法。服务性评价通常是指实际服务的能力,经技术验证有效的模型并不一定是正确的模型。因为在实验环境下建模通常存在大量的假设,在实际应用中会出现偏差。用户体验质量(Quality of Experience, QOE)是一种以用户认可程度为标准的服务性评价。 (责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(代写代发论文_广州毕业论文代笔_广州职称论文代发_广州论文网)

顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.