影视聚合站 科技 文章内容

GPU或创纪录时间内分析10亿个复杂向量

发布时间:2021-07-28 18:15:09来源:IEEE电气电子工程师

点击蓝字关注我们

SUBSCRIBEtoUS

ISTOCKPHOTO

数码照片的复杂性不能低估。

每个像素包含许多数据点,一张照片中可能有数百万像素。如果你在数据库中搜索相似的照片,这些相互关联的许多数据点被称为“高维(high-dimensional)”数据,并且可能需要巨大的计算能力来分析。计算机程序员和人工智能专家称之为“thecurseofhighcurseofhighdimensionality”。

在7月1日发表在IEEETransactionsonBigData上的一项研究中,FacebookAIResearch的研究人员提出了一种新的解决方案,旨在减轻这种问题的负担。但是,与传统的计算机中央处理单元(centralprocessingunits,CPUs)分析高维媒体的方法不同,他们利用了图形处理单元(GraphicalProcessingUnits,GPUs)。这一进步使得4GPUs可以在35分钟内分析9500多万张高维图像。这种速度比以前使用GPUs分析高维数据的技术快8.5倍。

“搜索和索引(高维数据)最直接的技术是通过硬算比较(brute-forcecomparison),即你需要对照数据库中的每一幅图像来检查,”FacebookAIresearch的研究工程师JeffJohnson解释道。CPUs具有很高的内存存储,因此可以处理大量的数据,能够完成这样的任务。然而,CPUs在其他各种超级计算机组件之间传输数据需要大量的时间,这导致了计算时间的整体滞后。

相比之下,GPUs提供了更多的原始处理能力。因此,Johnson和他的团队开发了一种算法,允许GPUs托管和分析向量库。通过这种方式,数据由一小部分执行所有工作的GPUs管理。值得注意的是,GPUs通常比CPUs具有更少的总体内存存储,但是Johnson和他的同事使用一种压缩向量数据库的技术克服了这个缺陷,使它们更易于GPUs分析。

Johnson解释说:“通过将计算完全放在GPU上,我们可以利用加速器上可用的更快的内存,而不是处理CPU服务器上较慢的内存,甚至是传统超级计算机集群中较慢的机器到机器网络互连。”

研究人员用一个包含384G原始数据的10亿个向量的数据库测试了他们的方法。他们的方法将需要分析的向量组合的数量减少了至少4个数量级,这些组合通常是aquintillion(1018)。

他同时还表示:“无论是速度的提高还是数据库大小的缩小,都可以解决那些需要数百台CPU机器才能解决的问题,实际上,这使得使用更少硬件的大规模索引和搜索技术大众化了。”

据了解,他们的方法已经通过FacebookAISimilaritySearch(Faiss)开源库免费提供。Johnson指出,计算技术巨头Nvidia已经开始使用这种方法构建扩展,并在该公司2021年GPU技术会议上发布了这种方法。

微信号|IEEE电气电子工程师

新浪微博|IEEE中国

·IEEE电气电子工程师学会·

往期推荐

推荐阅读

7-07IEEE

7-26IEEE

7-05MichelleHampson

7-01EvanAckerman

© 2016-2017 ysjhz.com Inc.

站点统计| 举报| Archiver| 手机版| 小黑屋| 影视聚合站 ( 皖ICP备16004362号-2 )