IBM与EPFL的研究人员合作,创造了一种用于处理大型数据集以训练机器学习算法的新方法。这种被称为Duality-gap based Heterogeneous Learning(DuHL)的新算法能够每60秒推送30GB的数据,比以前的方法提高了10倍。 通常,需要TB的内存才能模拟某些机器学习模型。所需的 服务器 硬件相当昂贵,甚至一旦建立操作,计算能力仍然是研究人员的一个问题。运行一个测试几天甚至几个星期,使得研究人员难以按小时租用硬件进行机器学习。 利用GPU进行并行计算已经有好多年了,但目前的显卡还没有达到IBM研究所需的太字节内存需求。目前针对GPU,有不同节点分割计算需求的方法,但不是所有的任务都适合分配。对此,IBM现在允许其机器学习工具随着算法的进展而改变对单个数据片段的调用。简而言之,过去的成就将贯穿整个验证阶段,以便为系统提供反馈,使系统比以前更快地指向正确的方向。 在初步测试期间,IBM使用了配有8GB GDDR5内存的NVIDIA Quadro M4000显卡。在这种价格适中的专业图形卡上IBM证明,与标准的顺序操作方法相比,使用DuHL系统可以将支持向量机训练速度提高10倍以上。