Spark最为重要的特性之一就是可以在多个操作(Action)之间,将一个或多个RDD关联的数据集(Dataset)以分区(Partition)为单位进行持久化(Persist)或缓存(Cache),存储介质通常是内存(Memory)。

被持久化或缓存的RDD A可以在两种情况下被很好地“重复”利用:
(1)直接依赖:操作(Action)直接应用于RDD A之上;
(2)间接依赖:操作(Action)间接应用于RDD B之上,而RDD B来源于RDD A;

持久化或缓存是迭代式计算和交互式应用的关键技术,通常可以提升10位以上的计算速度。

阅读原文 »

2 收藏


直接登录

推荐关注