Spark内存管理及缓存策略研究

孟红涛余松平刘芳肖侬 · 2017

阅读量：555

大数据

Spark内存管理

RDD缓存

缓存策略

期刊名称：

计算机科学 2017 年 06 期

摘要：

Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试并分析了Shuffle Memory和Storage Memory的使用特点。RDD是Spark系统最重要的抽象,能够缓存在集群的内存中;在内存不足时,需要淘汰部分RDD分区。接着,提出了一种新的RDD分布式权值缓存策...