主成分分析(PCA)是一种用于强调变异和带出数据集中的强模式的技术。它经常被用来使数据易于探索和视觉化。
首先,考虑一个只有两个维度的数据集,如(身高,体重)。这个数据集可以被绘制成平面上的点。但是,如果我们想挑出变化,PCA会找到一个新的坐标系,其中每一个点都有一个新的(x,y)值。这些坐标轴实际上并不代表任何物理意义;它们是被称为 "主成分 "的身高和体重的组合,被选择来为一个坐标轴提供大量的变化。
在下面的可视化中拖动各点,看看PC坐标系的调整情况。
PCA对于降维是很有用的。下面,我们沿着一对线条绘制数据:一条由X值组成,另一条由Y值组成。
不过,如果我们只看一个维度的数据,那么把这个维度作为变化最大的主成分可能更好。由于PC2对数据集的变化贡献最小,所以我们放弃PC2并没有什么损失。
对于三维空间,PCA更有用,因为很难看透一团数据。在下面的例子中,原始数据是以三维形式绘制的,但你可以通过与寻找相机角度无异的转换将数据投射到二维:即旋转轴来寻找最佳角度。要看到 "官方的"PCA变换,请点击 "Show PCA "按钮。PCA转换确保水平轴PC1的变化最大,垂直轴PC2的变化次之,而第三轴PC3的变化最小。很明显,PC3就是我们放弃的那个。
如果我们的数据远远超过3维,怎么办?比如,17个维度?表中是英国每个国家每人每周17种食物的平均消费量,单位是克。
该表显示了不同食物类型之间的一些有趣的变化,但总体差异并不明显。让我们看看PCA是否可以消除维度来强调各国的差异。
这是沿第一主成分绘制的数据图。我们已经可以看到北爱尔兰的一些不同之处。
现在,看到第一和第二主成分,我们看到北爱尔兰是一个主要的异常点。一旦我们回头看看表中的数据,这就说得通了:北爱尔兰人吃的新鲜土豆的克数要多得多,而新鲜水果、奶酪、鱼和酒精饮料的克数要少得多。这是一个很好的迹象,我们可视化的结构反映了现实世界地理的一个重要事实。北爱尔兰是这四个国家中唯一不在大不列颠岛上的国家。(如果你对英格兰、英国和大不列颠之间的区别感到困惑,请参阅。这个视频.)