基于流形学习方法的大数据分析技术在检验检疫行业中应用探讨(2)

来源:南粤论文中心 作者:徐胜林 魏颖昊 仵冀 发表于:2015-07-23 09:52  点击:
【关健词】大数据; 检验检疫; 流形学习; 数据分析
⑹ 部署应用 模型建立并经过评价验证后,可以部署应用。例如进行数据分类、数据预测、数据评价等工作。部署应用通常与一定的数据展现方式紧密结合在一起。 2 基于流形学习的大数据分析技术 本文主要探讨数据准备阶

⑹ 部署应用
模型建立并经过评价验证后,可以部署应用。例如进行数据分类、数据预测、数据评价等工作。部署应用通常与一定的数据展现方式紧密结合在一起。
2 基于流形学习的大数据分析技术
本文主要探讨数据准备阶段的工作,就是利用先进的流形学习算法进行数据降维及分析。传统的数据降维方法中最常用的是主元分析(Principal Component Analysis,PCA)[2]和线性鉴别分析(Linear Discriminant Analysis,LDA)[3]。PCA是一种无监督的学习算法,是最小方差准则条件下基于数据重构的最优描述方法,其任务就是找到数据变化的主要方向,并以这些方向为坐标轴构建一个低维子空间。利用PCA可以将特征的维数从表观数据数量减小到特征数目。LDA是一种有监督的学习算法,LDA充分利用类别信息,寻找能够最大化类间离散度,同时最小化类内离散度的投影方向。
PCA和LDA这类传统的降维方法原则上只对近似于线性分布的数据有意义,即要求高维输入空间中的样本处在某个低维的线性子空间内。而在实际应用过程中,特别是像检验检疫这样数据来源复杂的行业问题中,输入样本无法满足线性分布,而是呈现非线性的“流形”分布。为了解决这类非线性问题,提出了流形学习算法。
流形学习的任务是从高维采样数据(大数据)中发现其原本所在的低维流形结构,并得到相应的映射,以实现维数降低。流形学习要求我们从数据集的整体,从内在几何特性来分析数据,从而获取与之相一致的低维参数化。进一步讲,流形学习就是要找到产生观察数据的内在规律,或者说从现象发现本质。这意味着流形学习比传统的降维方法更能体现事物的本质,更有利于对数据的理解和进一步处理。从统计角度看,流形学习不依赖于数据集的先验假设(如独立性假设、正态分布假设等),而是在更一般的意义下去完成针对数据集的各项任务,如降维,数据挖掘等。
近年来,科学家们提出了大量基于流形学的数据分析算法。本文对局部线性嵌入算法(Locally Linear Embedding,LLE)[4]、等距映射算法(ISOMAP)[5]、拉普拉斯特征映射算法(Laplacian eigenmaps,LE)[6]进行简单介绍。
⑴ 局部线性嵌入算法
假设有N个取样自某个平滑流形的m维的数据样本xi∈Rm(i=1,2,…,N),而且N足够大以保证流形被很好地取样。LLE的基本假设是:采样自流形的每个数据点和它的近邻点位于或者近似地位于一个局部的线性超平面。这样每个点就可以用其邻域点的线性组合来近似,而线性组合的系数可以用来描述这些点所在的局部几何结构。这样的假设符合流形定义中关于局部欧拉性的描述,所以是有意义的。在进行流形的低维展开的时候,每一个原始的数据点被映射到m'维欧式空间Rm'中(m'<
⑵ 拉普拉斯特征映射算法
拉普拉斯映射在降维时保持原始样本在局部的相对距离。它的基本思想是在高维空间中距离较近的点投影到低维空间中的像也应距离较近。LE和LLE都是基于局部特征的算法,求解的都是稀疏矩阵的广义特征值问题,具有相同的待定参数。图的拉普拉斯矩阵实际上就是连续流形上拉普拉斯-贝尔特拉米算子。
⑶ 等距映射算法

  ISOMAP算法建立在多尺度变换基础之上,其目的是保持数据流形内在的几何性质,即流形上每两点之间的测地线距离。与LLE和LE不同,ISOMAP是基于全局特征的算法,因此适用于学习内部平坦的低维流形,但不适用于学习有较大内在曲率的流形。另外,ISOMAP中的参数选择对最终算法的结果影响很大。邻域过大,会造成流形展开后不同邻域的点混杂在一起;而邻域过小,虽然能够保持整体的内在几何结构,但低维展开后会产生“空洞”现象,或使最短路径算法重构的图不连通。因此,参数选择问题影响了ISOMAP算法在实际问题中的应用效果。

       3 检验检疫行业的大数据分析探讨 

  自2000年以来,中国电子检验检疫建设得到了较快发展,先后完成了中国电子检验检疫业务平台和网络建设[7]。实现了检验检疫与企业、检验检疫机构之间、检验检疫与海关等部门的数据交换。完成了总局与35个直属局广域网和699个检验检疫分支机构的局域网建设。直属局建立了以双主机、双存储、双线路为基础的区域集中运作环境。确定了以CIQ2000综合业务管理系统为基础,以电子申报、电子监管、电子放行为主要内容的中国电子检验检疫建设格局,尤其是进出境货物电子监管等系统的应用,奠定了对检验检疫业务工作全过程电子化管理的基础。
CIQ2000综合业务管理系统作为该体系的核心系统,在进出境货物受理报检、施检登记、签证放行和业务统计等的电子化管理中,起到了重要的支撑作用。在整个检验检疫信息系统架构中,包含了大量来源不同、类型不同、时间周期不同、用途不同的数据。从数据分析的角度,这些数据可主要划分为以下几种。
⑴ 业务相关数据
检验检疫业务工作流程中所涉及到的数据包括报检数据、签证数据、审单数据等。这些业务数据也包含不同类型,例如国别数据、货物种类数据、产地数据、编号数据和计收费数据等。这些数据是直接由日常业务操作产生的,数据量大,更新速度快,种类繁多,且其中会夹杂大量的错误数据、无效数据等,既包含结构化数据,也包含大量非结构化数据。
⑵ 监督管理类数据
监督管理是实现检验检疫工作“前推、后移”的业务模式改革的基础工作。依据法律法规、规章和国家强制性规范,以及各方面的质量及检疫信息,提出对某一企业特定产物的具体的检验检疫要求,以实现对产品的电子监管。主要分为体系监管、出口生产批监管、质量反馈及跟踪和体系监管措施调整。其中包括企业类别、产品类别、监管结果等各类数据。
监督管理类数据主要是由针对报检批后续监管和体系监管产生的,数据类型较为固定,更新速度较快,一般为非结构化数据。
⑶ 支撑数据
支撑数据主要是指各类检验检疫证单格式、规格、种类、证单用纸、用途以及其填制内容,还包括与国外相关机构签订协议所涉及的各类证单、标识封识以及签证印章等。支撑类数据不是由日常业务操作产生的,因此较为固定,一般都为非结构化数据。
⑷ 风险预警数据
风险预警类数据来源包括施检、体系监管、风险监控和国外通报等。现有系统中的风险预警数据通过手工录入和系统中不合格施检数据自动转入两种方式。风险预警数据也随着日常业务操作不断产生,但变化周期不会像业务数据那么频繁,也主要包括非结构化数据。 (责任编辑:南粤论文中心)转贴于南粤论文中心: http://www.nylw.net(代写代发论文_广州毕业论文代笔_广州职称论文代发_广州论文网)

顶一下
(0)
0%
踩一下
(0)
0%


版权声明:因本文均来自于网络,如果有版权方面侵犯,请及时联系本站删除.