DGIST于7月4日宣布,信息和通信工程部的Min-Soo Kim教授团队开发了DistME(分布式矩阵引擎)技术,该技术可以比现有技术快14倍地分析数据。这项新技术有望用于需要大数据处理或各种行业领域的机器学习,以便将来分析大规模数据。
“矩阵”数据表示行和列中的数字,是机器学习和科学技术等各种领域中使用最广泛的数据形式。虽然'SystemML'和'ScaLAPACK'被评估为分析矩阵数据的最流行的技术,但是随着数据量的增长,现有技术的处理能力最近已达到极限。对于数据处理所需的乘法,使用现有方法进行大数据分析尤其困难,因为它们不能执行弹性分析和处理,并且需要大量的网络数据传输来进行处理。
作为回应,Kim教授的团队开发了一种与现有方法不同的分布式矩阵乘法方法。也称为CuboidMM,此方法在三维六面体中形成矩阵乘法,然后将其分割并处理为多个称为长方体的片段。根据矩阵的特征,即矩阵的大小,尺寸和稀疏度,灵活地确定长方体的最佳尺寸,以便最小化通信成本。CuboidMM不仅包括所有现有方法,还可以以最小的通信成本执行矩阵乘法。此外,Kim教授的团队通过结合GPU(图形处理单元)设计了一种信息处理技术,该技术大大提高了矩阵乘法的性能。
由Kim教授团队开发的DistME技术通过将CuboidMM与GPU相结合,提高了处理速度,分别比ScaLAPACK和SystemML快6.5和14倍,并且可以分析比SystemML大100倍的矩阵数据。预计将在需要大规模数据处理的各个领域(包括在线购物中心和SNS)开启机器学习的新适用性。
金信教授在信息与通信工程系表示,机器学习技术一直受到全世界的关注,在矩阵式大数据分析的速度和分析处理的大小方面存在局限性。这次开发的信息处理技术可以克服这些限制,不仅可以用于机器学习,还可以用于更广泛的科学技术数据分析应用。“