sparkApache Spark adalah sistem pemrosesan terdistribusi sumber terbuka yang dunakan untuk beban kerja b data. Sistem ini memanfaatkan caching dalam memoriSpark’s primary abstraction is a distributed collection of items called a Dataset. Datasets can be created from Hadoop InputFormats (such as HDFS files) or by transforming other Datasets.