推广 热搜: 华为  专业  订单  汽车  玉柴  俄罗斯  机械  公司  史玉柱  家居 

普及一下什么是大数据技术?

   日期:2020-06-30     浏览:0    评论:0    
核心提示:  截至目前,我们正在经历第三次信息化浪潮。第一次是在1980年左右,个人计算机时代的来临,比较有代表的企业有Inter、AMD、IB

  截至目前,我们正在经历第三次信息化浪潮。第一次是在1980年左右,个人计算机时代的来临,比较有代表的企业有Inter、AMD、IBM、苹果、微软、联想等,主要解决的是信息处理的问题;第二次是在1995年前后,我们进入了互联网的时代,信息传输得到了很好的发展,代表企业有雅虎、谷歌、阿里巴巴、百度、腾讯等;第三次是发生在2010年前后,物联网、云计算和大数据的时代,这个时代所要解决的问题是信息量的保爆炸,接下来也会涌现出一批新市场的标杆企业。 IBM前首席执行官郭士纳提出:IT领域每隔十五年就会迎来一次重大改革。

  大数据的发展需要技术的支撑,而大数据技术能得以实现,也是因为信息科技的不断发展,现如今

  第一个阶段是在上世界90年代至本世界初,这个阶段属于大数据的萌芽期。随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。

  到了20实际起初的前十年,web2.0应用发展迅猛,非结构化数据大量产生,传统的处理方法很难以应付,这也带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。这个阶段是大数据的成熟期。

  2010年后,也就是大数据的第三阶段:大规模应用期。大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。

  大数据最直观的理解,就是数据量很大,但是多大才算是大呢?根据IDC作出的估测,数据一直以每年50%的速度增长,也就意味着数据每两年就增长一倍。 人类在近两年产生的数据相当于之前产生的全部数据量。预计到2020年,全球将总共拥有35ZB(1ZB=1024EB,1EB=1024PB,1PB=1024TB,1TB=1024GB)的数据量。

  其实,大数据不仅仅在与数据量大,大数据还包含了“快速化”、“多样化”、“价值化”等多种属性。

  大数据的处理速度很快,数据从生产到消耗,可用于生成决策的时间是非常短的,也就是大数据中的1秒定律(或称:秒级定律):就是说对处理速度有要求,一般要在秒级时间范围内给出分析结果,时间太长就失去价值了.这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。

  大数据的多样化体现在大数据的数据由10%的结构化数据(存储在数据库中),90%非机构化数据组成,这和人类信息密切相关。如在企业中我们常用的Email、文档、文件,web的文本、图像、视频,以及我们日常用的微信,Twitter、Facebook、Blog等。

  大数据的数据量很大,但是其价值密度也很低,例如:我们路上随处可见的视频监控,在连续不断的监控过程中,产生的大量数据其实都是没什么用的;但是如果发生事故,仅仅就几秒的数据,就会产生极高的价值。所以说尽管大数据的数据价值密度低,但是其商业价值却很高。

  《大数据时代》这本书中讲到的大数据在思维方面的影响,大数据完全颠覆了传统的思维方式。主要体现在以下三点:

  现如今,你在使用淘宝购物、百度搜索等应用的时候,你就会发现,它总能给你推荐你想要看的,这是大数据决策的体现,依据大数据分析,去匹配你属于哪一类人群,而从给你推荐这一类人群喜好的东西。

  大数据的新起,也让数据分析师,数据科学家,大数据工程师,数据可视化等职业成为了热门。现如今大数据已经无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都融入了大数据的印记。

  Netflix原本是通过邮寄方式租赁DVD成为了北美家喻户晓的在线影片租赁提供商。但是面对互联网的冲击,盈利每况愈下。于是,Netflix转向线上,但转型并不成功,一直被资本市场唱空。Netflix后来运用大数据技术分析他们网站以往产生的数据后发现,喜欢BBC剧、导演大卫·芬奇(David Fincher)和老戏骨凯文·史派西(Kevin Spacey)的用户存在交集,一部影片如果同时满足这几个要素,就可能大卖。之后他们花1亿美元买下了一部早在1990年就播出的BBC电视剧《纸牌屋》的版权(几乎是美国一般电视剧价钱的两倍),并请来大卫·芬奇担任导演,凯文·史派西担当男主角。 显然他们这样做使得Netflix获得了成功,《纸牌屋》不仅是Netflix网站上有史以来观看量最高的剧集,也在美国及四十多个国家大热。《纸牌屋》也开启了大数据对于影视产业的全面渗透。

  利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集中,成为联机分析处理、数据挖掘的基础;或者也可以把实时采集的数据作为流计算系统的输入,进行实时处理分析。

  利用分布式文件系统、数据仓库、关系数据库,NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理

  利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好的理解数据、分析数据

  从大数据中挖掘潜在的商业价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。

  大数据的核心技术主要是: 分布式存储(HDFS) 和 分布式处理(MapReduce)

  大数据、云计算和物联网目前代表了IT领域最新的技术趋势,他们三者之间是相辅相成的,由区别也有联系。

  云计算实现了通过网络提供可伸缩、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地地获得所需得各种IT资源。

  物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相联,实现信息化和远程管理控制。

  物联网的技术:识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等

  版权声明:文章来自CSDN博主「栖溪阁晓生」的原创文章,原文链接:浅谈大数据技术_栖溪阁晓生的博客-CSDN博客

  第三次信息化浪潮以大数据技术的出现标志着正式开始。因为4ps和4cs营销思维的影响和web2.0的出现,个性化服务与网站服务化登上了历史舞台,数据迎来了第一次大爆发。此后每一年的产生的数据量都远超前年。

  二战后的华尔街大亨们比起十几年的经验之谈更喜欢数据报表,也就是BI(商业智能)。“不要空口说白话,把你的数据拿出来让我看看。”

  现在说的大数据技术泛指以Hadoop生态为核心的Hadoop-Spark-Flink生态,前沿一点的就是云上大数据。

  但是他的核心还是为了操作更多的数据,去描绘更好的报表和预测,去骗资本更多的钱。(狗头保命)

  大数据技术是指使用低廉的存储资源在保证高可用,高可信的基础上通过可以接受的计算资源和计算时间得到想要的计算结果的一种统筹技术。

  他向计算资源与计算时间相互妥协,但是对存储资源有很高的要求,现在亚马逊的s3可以比HDFS提供更优质,更低廉的存储服务,人们开始高高兴兴的放弃HDFS了。(果然人类的本质就是藏旧东西)

  中国自古以来幅员辽阔,加之交通的不便利,中央对地方的集权机制也一直在进步,不管是秦时的三公九卿制、征辟制、察举制、郡县制,还是唐时的建立监察道、地方政治开始三级建制,还是明时的鱼鳞图册,锦衣卫行,都为了一个目的:打压地方,中央集权。

  国家虽然反腐多年,大有成就,但是依旧抵不住一些令人作呕的蛆虫存在,倒不如把办公的权利捆绑在高可信度的区块链之上,将办公的文书也放在区块链之上,保证不可篡改,绝对公开。

  (牵扯到国家利益,需要保密的任何文件,我个人支持隐藏,最好一点都不电子化。这里说的是国内正常政务服务)

  然后将所有的操作放在大数据存储技术之上,训练一个识别腐败,任人唯亲,尸位素餐,不作为的模型。你可以替人民行使权利,但是人民可以24小时监视你。

  这个也许在很多人眼中是不可能的,但是正因为不可能,难度高,所以我们更要努力不是吗?

 
标签: 大数据
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |