RDD(Resilient Distributed Dataset),是Spark最令人青睐的抽象,是Spark设计的核心。其本质是一个只读的分区记录,并能够被并行操作的集合,它具有如下几方面的特点

阅读原文 »

1 收藏


直接登录

推荐关注