简介
本文的目的是介绍一种探索性数据分析的新方法,其中“探索性数据分析”被 Tukey (1977) 定义为旨在探索数据空间而不是确认结构存在的方法的集合.这种方法基于可调整的网格系统,其中数据集中的每个观察值都分配给指定的子空间。这些子空间称为“n 立方体”。 n 立方体的大小是可调的,以便可以对 n 立方体大小范围内的每个值进行分析。这种能力使研究人员能够避免因选择 n 立方体大小而产生的偏见。这种方法的第二部分是 n 立方体的聚类分析。簇由彼此靠近但与其他 n 立方体隔离的填充 n 立方体形成。目的是在结构存在时在数据中找到结构,在结构不存在时验证结构不存在。当前的聚类算法会在不存在聚类时报告聚类的存在。...