大数据云计算技术范文
关键词:云计算技术电力大数据MapReduce技术属性约简
中图分类号:TP18文献标识码:A文章编号:1674-098X(2017)04(c)-0158-02
身处于当今的大数据时代,电力企业信息化程度和智能电力系统的建设,将促使电力数据的体量实现指数级增长;在电力大数据应用方面,对于行业内外各方面的数据分析均会导致电力数据计算与处理类型成本增多。充分挖掘软硬件资源的潜在价值,减小投入支出,更多的从海量的数据信息当中发掘出其中有价值的数据,促使相关的管理人员能够获得更加多元化的知识内容,将是在大数据时代开展电网管理与控制工作最为重要的一项难题。
1概述
在具体的电网数据分析工作中,对于最终决策起到主导作用的因素很可能仅是其中的某一部分,而要将这些最为关键的因素及时寻找出来将会对于缩减数据处理规模、提升数据处理效率意义重大。有研究人员就通过应用经典粗糙集理论将对于风力速度有可能产生影响的属性进行了约简处理,同时在对风力速度的预测过程之中也达到了较为满意的效果。一般的数据约简处理方法尽管在减小时间复杂程度、提升效率上价值明显,然而,此类属性所采取的约简算法都是假定将所有的数据内容一次性录入系统内,很明显这无法适用于电力大数据系统。还有研究采用传统关系数据库技术属性约简方式,来处理小规模属性约简问题,尽管在时间性能方面取得了较为满意的效果,然而采取此类方法所能够应对处理的数据规模及时效性均会受制于硬件限制。
而将云计算技术应用于电力大数据预处理当中,则能够给予其软件及硬件资源和相关的数据处理提供以新的途径方式。在本次研究中重点就针对美国谷歌公司所提出的MapReduce编程模型展开了深入的分析与探讨,具体就粗糙集相对正域理论和现行的知识约简计算方式展开了深入剖析,结合其模型设计与计算最终对基于云计算技术的电力大数据预处理属性约简方法的正确性,及其对节点数目的影响展开了实证分析,最终的实验结果显示,此项计算方法不当可大幅度提升电力大数据集的属性约简计算效率,同时还可达到较为优异的可拓展性效果。
2基于MapReduce技术的电力大数据预处理属性约简
将一个电力大数据集视作为是一项电力知识表达系统,相应的便需求出对指定决策属性集的条件属性,也就是将这一电力大数据集的属性约简问题转归成计算正域势的问题。应用MapReduce计算以上问题,其具体方法为:map函数同时对于多个数据分片进行访问,依据实际需求,将属性及属性值取出,并以此产生出键值对(其所代表的意义即)。Reduce函数接收来自于各个节点map所发送出的key值所对应的键值对序列,并以此来求出相同等价类的具体数量。
Hadoop在进行复杂任务处理之时是对任务数量的增多,而并非是提高map与reduce的复杂性,因此基于云环境下进行电力大数据预处理属性约简,则可设计出多个函数及主程序。在此方面的约简处理过程当中,可将某项具体的电力大数据集视作为是一项电力知识表达系统,并基于这一基础之上,再开展属性约简处理,并可将其视作为是对正域势的计算,具体的计算方式如下所示:
(1)map函数位于同一时段内针对多项数据分片各自独立展开访问,同时依据实际要求规范来获取属性和属性值,进而产生出键值对;
(2)Reduce函数对即为各节点处的map与所发送的key值所相对应的键值对序列,同时还需针对相应的等价类个数予以计算处理。
应用Hadoop针对复杂任务予以处理之时,其主要侧重于对任务数量的增多,而并非是针对map以及Reduce函数复杂性的加强。因而,在基于云计算技术的电力大数据预处理属性约简方面,针对性设计出两项map,三项Reduce以及calljob函数,同时还可携带一项主控程序,最终再结合以实际需求,各自给定算法,即可针对大数据预处理属性展开约简计算。
和传统约简方法相对比来看,基于云计算的约简方法不但可促使无法针对大数据集进行处理的情况迎刃而解,同时还能够显著提升整体简约处理的效率,大大减小简约复杂性,可同时实现对空间与时间的双重精简。鉴于此,在目前的电力企业发展过程之中,这一技术已成为电力大数据预处理属性约简的核心手段之一。
3验证分析
现就针对基于云计算的电力大数据预处理属性约简方法,由算法正确性和节点数据的影响两方面来探讨其在电力大数据预处理之中的效用价值。
3.1正确性
采用某一电网故障诊断决策表来阐明基于云计算的电力大数据预处理属性约简方法的正确性。下表1为由6个样本所构成的电网故障诊断决策表。
采用伪分布模式进行Hadoop程序的运行,便可获得决策表核{CO2,CO3}和一项约简{CO2,CO3,CB1,CO1}。经验证表明,结果正确。
3.2节点数目的影响
在本次研究中选用Hadoop平台搭建了一个集群实验环境,其中的Hadoop版块为Hadoop-0.20.0,应用临均值针对缺失数值予以填补,促使数据离散成一系列的0,1列表,以促进数据处理效率的提升,并由此获得13项条件属性及1项据测属性电力知识表达系统S。
(1)可拓展性
这一特性是依据节点数量并按照特定比例来提高并行算法精确性。为验证算法的可拓展性,选取四个节点值来充当测试数据集,即2,4,8,16四个节点。如下图1所示,观察图1可发现,尽管因为硬件与平台运行资源耗损因素导致节点数上升到16之后算法能力有所降低,然而各作业的运行时间基本相当,此即表明了并行算法的良好拓展性。
(2)加速比
加速比即为在数据规模保持恒定不变的前提下,持续增多节点数量并行算法能力。较为合理的加速比往往是线性结构的,然而因为各项计算机设备间的通信、任务调度等因素影响,具体的加速比常常是要小于理想状态的。如下图2所示,测试数据集为20GB,同样为2,4,8,16四个节点,经观察约简时间与节点数量关系可表明,本次研究所提出的算法可达到较为优异的加速比性能。
4结语
总而言之,在电力行业高速发展的当今时代,应大力加强对于相关云计算技术的深入研究及应用,同时在云计算技术的基础之上来开展关于电力大数据预处理属性约简,促进电力大数据处理效率能够得以大幅度的提升,并为企业的管理人员提供详尽、可靠的参考依据。
参考文献
大数据云计算技术范文
【关键词】云计算;虚拟化;海量数据;存储;管理;服务
【中图分类号】TP393【文献标识码】A
1引言
随着互联网的发展,人们对网络的需求越来越多,网络提供给人们的服务也越丰富,而这些网络服务需要海量数据的存储和强大计算能力来满足日益增长的业务需求,云计算的理念就这样应运而生,它是直接产生于企业计算、互联网领域,它更关心如何扩展系统、如何方便IT管理。
2云计算的概念
云计算是一种动态的易扩展的且通常是通过互联网提供虚拟化资源的计算方式,用户使用相关资源时不需要了解云内部的细节,也不必具有云内部的专业知识。云计算的概念可以从狭义和广义两个方面来看。狭义云计算是一种IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源(包括硬件、平台和软件),提供资源的网络就是“云”,“云”中的资源在使用者看来是可以无限扩展,并且可以随时获取,按需使用,随时扩展,按使用付费,这种特性被人们形象地称为像使用水电一样使用IT基础设施。广义云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务,这种服务可以是IT和软件、互联网相关的,也可以是任意其他的服务。
3云计算的体系结构
云计算的基本原理是利用非本地或远程服务器(集群)的分布式计算机为互联网用户提供服务(计算、存储、软硬件等服务),这使得用户可以将资源切换到需要的应用上,根据需求访问计算机和存储系统的资源。云计算的体系结构如图1所示。
云端用户是提供云用户请求服务的交互界面,也是用户使用云的入口;服务目录是云用户在取得相应权限后可以选择或定制的服务列表;管理系统是提供对用户、资源管理和服务;部署工具是对资源进行智能调度、使用、配置和回收等;资源监控是监控和计量云系统资源的使用情况;服务器集群是虚拟的或物理的服务器,由管理系统管理负责高并发量的用户请求处理、大运算量计算处理、用户Web应用服务,云数据存储时采用相应数据切割算法、采用并行方式上传和下载大容量数据。
4云计算中的关键技术
按需部署是云计算的核心,要解决按需部署,必须解决资源的动态可重构、监控和自动化部署等,而这些又需要以虚拟化、高性能存储、高效数据处理、高速互联网等技术为基础。所以云计算除了需要仔细研究其体系结构外,还要特别注意研究资源的动态可重构、自动化部署、资源监控、虚拟化、海量数据存储、海量数据管理、编程模式及云平台管理等关键技术。
4.1虚拟化技术
虚拟化技术是指计算元件在虚拟的基础上而不是真实的基础上运行,它可以扩展硬件的容量,简化软件的重新配置过程,减少软件虚拟机相关开销和支持更广泛的操作系统等多个方面;通过虚拟化技术可实现软件应用与底层硬件相隔离,它包括将单个资源划分成多个虚拟资源的裂分模式,也包括将多个资源整合成一个虚拟资源的聚合模式;虚拟化技术根据对象可分成存储虚拟化、计算虚拟化、网络虚拟化等;在云计算实现中,计算系统虚拟化是一切建立在“云”上的服务与应用的基础;虚拟化技术目前主要应用在CPU、操作系统、服务器等多个方面,是提高服务效率的最佳解决方案。
4.2分布式海量数据存储技术
云计算系统由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储方式存储数据,用冗余存储的方式(集群计算、数据冗余和分布式存储)保证数据的可靠性。冗余的方式通过任务分解和集群,用低配机器替代超级计算机的性能来保证低成本,这种方式保证分布式数据的高可用、高可靠和经济性,云计算系统中广泛使用的数据存储系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。
4.3海量数据管理技术
云计算需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据;计算系统中的数据管理技术主要是Google的BT(BigTable)数据管理技术和Hadoop团队开发的开源数据管理模块HBase;由于云数据存储管理形式不同于传统的RDBMS数据管理方式,如何在规模巨大的分布式数据中找到特定的数据,也是云计算数据管理技术所必须解决的问题,同时由于管理形式的不同造成传统的SQL数据库接口无法直接移植到云管理系统中来,目前一些研究在关注为云数据管理提供RDBMS和SQL的接口,如基于Hadoop子项目HBase和Hive等。另外,在云数据管理方面,如何保证数据安全性和数据访问高效性也是研究关注的重点问题之一。
4.4编程方式
云计算提供了分布式的计算模式,客观上要求必须有分布式的编程模式。云计算采用了一种思想简洁的分布式并行编程模型Map―Reduce,Map―Reduce是一种编程模型和任务调度模型,主要用于数据集的并行运算和并行任务的调度处理,在该模式下,用户只需要自行编写Map函数和Reduce函数即可进行并行计算,其中Map函数中定义各节点上的分块数据的处理方法,而Reduce函数中定义中间结果的保存方法以及最终结果的归纳方法。
4.5云计算平台管理技术
云计算资源规模庞大,服务器数量众多并分布在不同的地点,同时运行着数百种应用,如何有效的管理这些服务器,保证整个系统提供不间断的服务是巨大的挑战,云计算系统的平台管理技术能够使大量的服务器协同工作,方便的进行业务部署和开通,快速发现和恢复系统故障,通过自动化、智能化的手段实现大规模系统的可靠运营。
5结束语
云计算真正实现了按需计算,从而有效地提高了对软硬件资源的利用效率,云计算的出现使高性并行计算不再是科学家和专业人士的专利,普通的用户也能通过云计算享受高性能并行计算所带来的便利,使人人都有机会使用并行机,从而大大提高了工作效率和计算资源的利用率,云计算模式中用户不需要了解服务器在哪里,不用关心内部如何运作,通过高速互联网就可以透明地使用各种资源。
参考文献
[1]王佳隽,吕智慧,吴杰等.云计算技术发展分析及其应用探讨[J].计算机工程与设计,2010(20):4404-4408.
[2]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[3]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.
[4]张新玲,张东,曹玲玲等.云计算虚拟化平台性能研究[J].软件导刊,2013(11):1-3.
[5]吴华芹.基于云计算背景下的数据存储技术[J].计算机光盘软件与应用,2013(7):28-29.
[6]宗平,周明.云计算中的数据安全存储和加密模型的设计[J].计算机技术与发展,2013(10):137-140.
基金项目:
甘肃省教育科学“十二五”规划课题(GS[2013]GHB1097)。
大数据云计算技术范文篇3
1云计算简介
1.1概念
云计算是通过将大量计算分布到分布式计算机上,实现虚拟化的计算机网络系统,使得数据的计算运行与互联网类似,能够按照需求访问资源和系统。但是云计算并非通过本地计算机或远程服务器进行计算,而是像计算机网络内部一样实现分布式处理计算,这种方式就好像电厂集中供电模式,将低成本的运算单元组织在一起,能够大幅度提升计算能力和数据处理能力。云计算的这种计算模式对用户完全透明,用户只需要向系统提交自己的要求,云计算软件和平台会自动进行处理,用户不需要了解云计算的具体方法就能够实现快速、高效的大数据处理。
1.2结构
云计算是借助虚拟技术,将大量分布服务器上的资源整合起来,然后根据用户需求进行分配和处理,是一个虚拟的、庞大的计算机网络辅助系统。因此其体系结构也十分复杂,可以大体上分为用户、服务要求、管理系统和服务器集合等四个部分。用户提出服务要求,然后由管理系统向服务器集群发出请求并整合和接收反馈,然后以一个完整的形式将结果反馈给用户,形成一个完整的虚拟计算机网络处理结构。
1.3特点
云计算具有虚拟、高效、资源共享度高等基本特点,同时,目前由于云计算技术还没有完全成熟,大部分企业和个人使用云计算技术需要付费。云计算是一种虚拟概念的计算,也就是说其计算过程并不是通过实际的物理方式实现的,因此不仅能够实现大量数据的运算,也能够提高资源之间的共享度,同时这种分布式处理方式也更大地保证了数据的保密性和安全性。重要数据大量分布在所有分布式终端中,不能简单地从一台终端中提取,提高了数据的保密性,并且如果某台终端处理机出现问题,也不会影响其他终端,极大地提高了数据的安全性,使得大量数据的保存管理成为可能。
2云数据管理技术类型简介
云计算是对海量的、分布性的数据进行计算处理,因此对于数据的管理要求很高,采用的数据管理技术必须能够高效地管理海量数据,于是云数据管理技术也随着云计算的广泛应用而出现,并且目前已经成为众多企业和研究机构研究的重要课题。目前已经存在了许多不同的云数据管理技术,这些云数据管理技术各有特点,但是都以不同的方式实现了对海量数据的有效管理。
2.1GFS技术
GFS技术即谷歌文件系统,是一种为谷歌云计算技术提供数据管理的系统。在这种技术中,所有资源文件以一种库文件的形式存在,并且有系统提供给用户一个专用的程序访问接口,用户提出请求后,由一个逻辑上唯一的管理者对整个库文件进行调度和统筹管理。这种文件系统管理技术不仅能够为谷歌云计算提供海量数据的存储管理,同时也可以进行云计算,满足各种用户要求,目前GFS技术已经成为云数据管理技术的主要技术之一,并且得到了非常广泛的应用。2.2BigTable技术BigTable技术也是谷歌开发的一种数据管理技术,这种技术是建立在谷歌文件系统的基础之上,通过将大量数据组织在一张虚拟的表格中进行管理。这种技术将云数据组织在一张巨大的表格中,从而实现数据的结构化管理。在使用时能够根据要求更加快速地进行数据查找和处理,合理进行资源的分配。这种方式比起文件系统更能够实现数据的架构化,对于结构化云数据的管理会产生更好的效果,取得更高的管理效率。
2.3Dynamo技术
Dynamo技术是一种分布式存储系统,具有数据库和分布式Hash表的特征,以分布式Hash表作为基本存储结构和理念,实现数据在环中的均匀存储形式。这种技术的主要特点是提供了三个参数:N、R、W,技术规定,有N个副本,如果有R个读取一致就可以认为是读取成功,如果有W个写入成功就认为是写入成功,即系统不要求N个全部读取或写入成功,只要能够保证R+W大于N,就能够确保数据的一致性,这种技术增加了数据读取的复杂性,但是降低了数据写入的复杂程度,实现了更加高速的存储管理。
3云数据管理技术特点分析
3.1提供可靠的数据存储管理
云数据管理技术尽管各有特点,但总体都采用了分布式存储管理的思想。这种数据存储管理方式能够为企业提供海量数据的存储管理,同时能够极大地提高数据的保密性和安全性。同时,云数据管理技术一般都具有较高的容错性,大量分布式服务器的支持也可以实现对数据的错误分析和报告,避免因失误产生的数据错误。云数据管理技术最大限度地降低了人为管理因素对数据管理的影响,从而更好地提升了数据管理的可靠性。
3.2实现数据的并行处理和分析
云数据管理技术是将数据进行分布式处理,尽管在逻辑上看来许多云数据管理技术是将数据整合到了一个统一的机构中,但事实上数据是分布存储在大量分布式服务器上,在对数据进行处理时,就可以按照用户的要求从各个服务器中调取数据。在这种技术支持下,就能够有效实现数据的并行处理,系统根据用户要求自动检索分析用户需求,迅速缩小范围,锁定用户关键词,迅速对用户命令做出处理和反馈。同时,多个用户如果提出同一要求,也能够迅速通过这种管理技术实现信息共享,将同样的信息返回不同的用户终端。云数据管理技术还能够根据用户提供的关键字对数据进行初步筛选和分析,节省用户的分析时间,对于需要进行大量数据分析的企业来说可以极大地提高工作效率。这种强大的数据提供和分析处理能力正是云数据管理技术得到广泛研究和应用的主要原因之一。
4云计算和云数据管理前景展望
4.1云计算技术发展前景
云计算技术目前正处于快速发展阶段,不论是个人、企业还是国家都十分重视云计算技术的研究和创新。同时,随着更多的“云”概念的提出,云计算也被赋予了更多的功能和含义,大数据等概念的提出也为云计算带来了新的发展方向。国际社会已经有越来越多的专家学者研究出了更多创新的云计算技术,并且提出了概念含义更加广泛的云计算概念。国内对于云计算的研究也正日益火热,科研机构也在进行新技术的研究,国内个人和企业也逐渐了解了云计算的概念和特点,并且有更多的企业单位开始运用和研究云计算技术。可以说,云计算技术发展前景大好,并且很可能会成为未来一段时间内计算机研究和应用的重点方向。
4.2云数据管理技术的发展
伴随着云计算概念和技术的更新,云数据管理技术也必然要随之更新,云数据管理技术是为了给云计算提供强大可靠的数据存储管理支持,为云计算技术提供数据基础,因此其发展也会随着云计算技术的需求而不断改善。在目前的发展趋势看来,正有着许多新技术和新思想不断涌现,不同概念和云数据管理概念的结合创造出来更多的云数据管理技术。目前云数据管理技术发展趋势正倾向于将不同学科、不同领域的概念与之相结合形成新的管理技术,这种发展不仅能够促进云数据管理技术的创新,也加强了云技术与其他学科技术的结合发展,促进了不同技术的融合与共同发展。
5结束语