Spark和Redis结合使用到底有多大的性能提升呢?45倍

08-15 科技 投稿:谈茜茜
一、Spark和Redis结合使用到底有多大的性能提升呢?45倍

Spark代表着下一代大数据处理技术,并且,借着开源算法和计算节点集群分布式处理,Spark和Hadoop在执行的方式和速度已经远远的超过传统单节点的技术架构。但Spark利用内存进行数据处理,这让Spark的处理速度超过基于磁盘的Hadoop 100x 倍。

但Spark和内存数据库Redis结合后可显著的提高Spark运行任务的性能,这源于Redis优秀的数据结构和执行过程,从而减小数据处理的复杂性和开销。Spark通过一个Redis连接器可以访问Redis的数据和API,加速Spark处理数据。

Spark和Redis结合使用到底有多大的性能提升呢?结合这两者来处理时序数据时可以提高46倍以上——而不是提高百分之四十五。

二、Spark RDD到底是个什么东西

Spark RDD的英文是Resilient Distributed Datasets,即弹性分布式数据集。通俗一点讲,Spark是做大数据处理的,RDD是其中极为重要的数据抽象,海量数据会被拆分为多个分片放在不同的集群节点上,RDD就是这些分布式数据的集合。在Spark Scala中, RDD就是一个类,每个RDD的实例表示一个具体的分布式数据集合。详见:

三、spark中什么是dataframe

sparksql中为了将普通的rdd可以进行执行sql的操作,而将rdd封装成一个结构化的模型, 就是dataframe, 获得dataframe后就可以创建临时表进行sql操作了。

声明:生活头条网所有作品(图文、音视频)均由用户自行上传分享,仅供网友学习交流。若您的权利被侵害,请联系admin@gdcyjd.com