大规模并行处理

大规模并行处理是大数据计算引擎的一个重要特性，可以提供高吞吐、低时延的计算能力。那么，当我们在讨论大规模并行处理时，究竟在讨论什么？

背景

企业或个人都可能会收集和存储大量的数据，特别是近年来大数据技术的兴起，人们拥有更多接触数据和利用数据的机会和意愿，那么随着数据量的增长，对存储容量和计算能力的要求也进一步提高了。

大规模并行处理（MPP，Massively Parallel Processing）意味着可以由多个计算节点（处理器）协同处理程序的不同部分，而每个计算节点都可能具备独立的系统资源（磁盘、内存、操作系统）。

计算节点将工作拆分成易于管理、调度和执行的任务执行，通过添加额外的计算节点可以完成水平拓展。随着计算节点数目的增加，对数据的查询处理速度就越快，从而减少大数据集上处理复杂查询所需的时间。

采用大规模并行处理架构设计的系统往往具备以下特性：