您的位置 首页 知识

每个人都应该知道的25个大数据术语

如果你初来乍到,大数据看起来很吓人!根据你掌握的基本理论,让我们专注于一些关键术语以此给你的约会对象、老板、家人或者任何一个人带来深刻的印象。

假如你初来乍到,大数据看起来很吓人!依据你把握的基本理论,让咱们专心于一些要害术语以此给你的约会目标、老板、家人或许任何一个人带来深入的形象。

让咱们开端吧:

1.算法。“算法”怎么与大数据相关?即便算法是一个通用术语,但大数据剖析使其在今世更受喜爱和盛行。

2.剖析。年底你或许会收到一份来自信用卡公司寄来的包含了全年一切买卖记载的年终报表。假如你有爱好进一步剖析自己在食物、衣服、文娱等方面详细花费占比呢?那你就是在做“剖析”了。你正从一堆原始数据中来吸取经验,以协助自己为来年的消费做出决议计划。假如你正在针对整个城市人群对Twitter或Facebook的帖子做相同的操练呢?那咱们就是在评论大数据剖析了。大数据剖析的实质是运用许多数据来进行揣度和讲故事。大数据剖析有3种不同到的类型,接下来便持续本论题进行顺次评论。

3.描绘性剖析。刚刚假如你告诉我,上一年你的信用卡消费在食物上花费了25%、在服装上花费了35%、文娱活动上花费了20%、剩余的就是杂七杂八的事项,这种就是描绘性剖析。当然你还能够参阅更多的细节。

4.猜测剖析。假如你依据曩昔5年的信用卡历史记载来进行剖析,而且区分具有必定的接连性,则你能够高概率猜测下一年将与曩昔几年相差无几。此处需求留意的细节是,这并不是“猜测未来”,而是未来或许会发生的“概率”。在大数据猜测剖析中,数据科学家或许会运用类似机器学习、高档的核算进程(后文将对这些术语进行介绍)等先进的技能去猜测气候、经济改变等。

5.标准剖析。沿袭信用卡买卖的事例,你或许想要找出哪方面的开销(级食物、服装、文娱等)对自己的全体开销发生巨大的影响。标准剖析建立在猜测剖析的根底之上,包含了“举动”记载(例如削减食物、服装、文娱开销),并剖析所得成果来“规则”最佳类别以削减整体开销。你能够测验将其发散到大数据,并想象高管们怎么经过检查各种举动的影响来做出数据驱动的决议计划。

6.批处理。虽然批量数据处理在大型机年代就早已出现,但大数据交给它更多大数据集处理,因而赋予了批处理更多的含义。关于一段时间内搜集到的一组事务,批量数据处理为处理许多数据供给了一种有用的办法。后文将介绍的Hadoop就是专心于批量数据处理。逾越批处理的国际:流核算 运用Spark SQL构建批处理程序。

7. Cassandra是由Apache Software Foundation办理的一款盛行的开源数据库办理体系。许多大数据技能都归功于Apache,其间Cassandra的规划初衷就是处理跨分布式服务器的许多数据。

8. 云核算。清楚明了云核算现已变得无所不在,所以本文或许无须赘述,但为了文章的完整性仍是佐以介绍。云核算的实质是在长途服务器上运转的软件和(/或)数据保管,并答应从互联网上的任何地方进行拜访。

9. 集群核算。它是一种运用多台服务器的聚集资源的“集群”来进行核算的独特办法。在了解了更多技能之后,咱们或许还会评论节点、集群办理层、负载平衡和并行处理等。

10. 漆黑数据。依我看来,这个词适用于那些吓得魂飞天外的高档办理层们。从根本上来说,漆黑数据是指那些被企业搜集和处理但又不用于任何有含义用处的数据,因而描绘它是“漆黑的”,它们或许永久被沉没。它们或许是交际网络信息流、呼叫中心日志、会议笔记,诸如此类。人们做出了许多估量,在60-90%的一切企业数据都或许是“漆黑数据”,但无人真实知晓。

11. 数据湖。当我第一次听到这个词的时分,我真的认为有人在开愚人节的打趣。但它真的是个术语!数据湖是一个原始格局的企业级数据的大型存储库。虽然此处评论的是数据湖,但有必要再一起评论下数据仓库,因为数据湖和数据仓库在概念上是极端类似的,都是企业级数据的存储库,但在整理和与其他数据源集成之后的结构化格局上有所区别。数据仓库常用于惯例数据(但不彻底)。听说数据湖能够让用户轻松拜访企业级数据,用户真实按需知道自己正在寻觅的是什么、怎么处理并让其智能化运用。拥抱开源技能的条件——知道数据湖 你知道数据湖泊(DATA LAKE)吗?

12. 数据发掘。数据发掘是指运用杂乱的形式识别技能从许多数据中找到有含义的形式、提取见地。这与咱们前文评论的运用个人数据做剖析的术语“剖析”密切相关。为了提取出有含义的形式,数据发掘者运用核算学(是呀,好老的数学)、机器学习算法和人工智能。

13.数据科学家。咱们议论的是一个如此抢手的作业!数据科学家们能够经过提取原始数据(莫非是从前文所说的数据湖中提取的?),处理数据,然后提出新见地。数据科学家所需具有的一些技能与超人无异:剖析、核算、核算机科学、创造力、故事叙述和了解事务环境。难怪他们能取得如此高的薪水酬劳。

14.分布式文件体系。因为大数据太大而无法在单个体系上进行存储,分布式文件体系供给一种数据存储体系,便利跨多个存储设备进行许多数据的寄存,并有助于下降许多数据存储的本钱和杂乱度。

15. ETL。ETL分别是extract,transform,load的首字母缩写,代表提取、转化和加载的进程。 它详细是指“提取”原始数据,经过数据清洗/润饰的办法进行“转化”以取得 “适宜运用”的数据,从而“加载”到适宜的存储库中供体系运用的整个进程。虽然ETL这一概念源于数据仓库,但现在也适用于其它情形下的进程,例如在大数据体系中从外部数据源获取/吸收数据。咱们需求什么样的ETL?

工程师要不要写ETL?——教你构建高效的算法/数据科学部分 ETL的经验总结

16. Hadoop。人们一想起大数据就能当即想到Hadoop。 Hadoop(具有心爱的大象LOGO)是一个开源软件结构,首要组成部分是Hadoop分布式文件体系(HDFS),Hadoop布置了分布式硬件以支撑大型数据集的存储、检索和剖析。假如你真的想给他人留下深入的形象,还能够谈谈YARN(Yet Another Resource Schedule,另一个资源调度器),正如其名,它也是一个资源调度器。我由衷敬服这些为程序命名的人。为Hadoop命名的Apache基金会还想出了Pig,Hive和Spark(没错,它们都是各种软件的称号)。这些姓名莫非不让你感到形象深入吗?

17. 内存核算。一般来说,任何能够在不拜访I / O的情况下进行的核算估计会比需求拜访I/O的速度更快。内存内核算是一种能够将作业数据集彻底转移到集群的团体内存中、并避免了将中心核算写入磁盘的技能。Apache Spark就是一种内存内核算体系,它与I / O比较,在像Hadoop MapReduce这样的体系上绑定具有巨大的优势。

18. IOT。最新的盛行语是物联网(Internet of things,简称IOT)。IOT是经过互联网将嵌入式目标(传感器、可穿戴设备、轿车、冰箱等)中的核算设备互连在一起,而且能够发送/接纳数据。IOT发生了许多的数据,这为出现大数据剖析供给了更多的时机。

19.机器学习。机器学习是为了规划一种根据供给的数据能够进行不断学习、调整、改善的体系的规划办法。机器运用猜测和核算的算法进行学习并专心于完成“正确的”行为形式和简见地,跟着越来越多的数据注入体系它还在不断进行优化改善。典型的使用有诈骗检测、在线个性化引荐等。

20.MapReduce。MapReduce的概念或许会有点紊乱,但让我试一试。MapReduce是一个编程模型,最好的了解办法是将Map和Reduce是看作两个独立的单元。在这种情况下,编程模型首先将大数据的数据集分红几个部分(技能术语上是称作“元组”,但本文并不想过分技能性),因而能够布置到不同方位的不同核算机上(即前文所述的集群核算),这些实质上是Map的组成部分。接下来该模型搜集到一切成果并将“削减”到同一份陈述中。 MapReduce的数据处理模型与hadoop的分布式文件体系相得益彰。

21.NoSQL。乍一听这像是针对传统联系型数据库办理体系(RDBMS)的面向目标的SQL(Structured Query Language, 结构化查询言语)的反对,其实NoSQL代表的是NOT ONLY SQL,意即“不仅仅是SQL”。 NoSQL实际上是指被用来处理许多非结构化、或技能上被称作“图表”(例如联系型数据库的表)等数据的数据库办理体系。NoSQL数据库一般十分适用于大型数据体系,这得益于它们的灵活性以及大型非结构化数据库所必备的分布式结构。

22.R言语。有人能想到比这个编程言语更糟糕的姓名吗?是的,’R’是一门在核算核算中体现十分优异的编程言语。假如你连’R’都不知道,那你就不是数据科学家。(假如你不知道’R’,就请不要把那些糟糕的代码发给我了)。这就是在数据科学中最受欢迎的言语之一的R言语。

23. Spark(Apache Spark)。Apache Spark是一种快速的内存内数据处理引擎,它能够高效履行需求快速迭代拜访数据集的流、机器学习或SQL作业负载。Spark一般比咱们前文评论的MapReduce快许多。

24.流处理。流处理旨在经过“接连”查询对实时和流数据进行操作。结合流剖析(即在流内一起进行接连核算数学或核算剖析的才能),流处了解决方案能够被用来实时处理十分大的数据。

25. 结构化和非结构化数据。这是大数据5V中的“Variety”多样性。结构化数据是能够放入联系型数据库的最基本的数据类型,经过表的安排办法能够联系到任何其他数据。非结构化数据则是一切不能直接存入联系数据库中的数据,例如电子邮件、交际媒体上的帖子、人类录音等。

声明:本文内容来自网络转载或用户投稿,文章版权归原作者和原出处所有。文中观点,不代表本站立场。若有侵权请联系本站删除(kf@86ic.com)https://www.86ic.net/zhishi/153478.html

为您推荐

联系我们

联系我们

在线咨询: QQ交谈

邮箱: kf@86ic.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

返回顶部