为什么对象存储对于AI和机器学习工作量而言可能是最佳的

2019-10-06 10:16:17

如果说IT是电视节目,那将是“ Ho积者”。组织每天都在创建和存储越来越多的数据,并且他们很难找到有效的方式来放置所有数据。

实际上,根据IDC的研究,到2020年,我们将达到44 ZB的标记,其中大约80%的数据不在数据库中。随着如此空前的数据增长,IT团队正在寻找灵活,可扩展,易于管理的方式来保存和保护数据。这是对象存储大放异彩的地方。

对象存储(也称为基于对象的存储)是一种将数据作为对象进行管理的存储体系结构,与其他存储体系结构(例如,将文件作为文件层次结构管理数据的文件系统和将数据作为扇区内的块进行管理的块存储)相反和轨道。每个对象通常包括数据本身,可变数量的元数据和全局唯一标识符。

专门(至少提供)对象存储选项的公司包括Cloudian,Pure Storage,Digital Ocean,IBM / Cisco,Dell EMC Virtustream,Spectra Logic,SwiftStack,Qumulo,Minio,NetApp,Hitachi Data Systems,Cohesity和Veritas等其他。

Cloudian首席执行官兼联合创始人Michael Tso是一位非常了解市场的人,他向eWEEK提供了一些行业信息,确切地说明了为什么他认为对象存储系统对于大数据类型的工作负载(包括运行机器学习和数据存储的工作负载)最有效。人工智能用例-一直变得越来越普遍。

以下是这些数据集的八个特定存储要求,以及AI和ML应用程序为何需要企业对象存储解决方案提供的数据管理功能的原因。

存储要求1:可伸缩性

人工智能系统可以在短时间内处理大量数据。此外,更大的数据集可提供更好的算法。这种组合带来了巨大的存储需求。微软教会计算机使用五年的连续语音记录来进行语音交谈。特斯拉正在教汽车以13亿英里的行驶数据行驶。管理这些数据集需要一个可以无限扩展的存储系统。

对象存储如何提供帮助:对象存储是唯一在单个名称空间内无限扩展的存储类型。此外,模块化设计允许随时添加存储,因此您可以根据需求进行扩展,而不是先于需求。

存储要求2:成本效益

一个有用的存储系统必须具有可扩展性和可承受性,这两个属性在企业存储中并不总是共存:从历史上看,以成本/容量为基础,高度可扩展的系统更加昂贵。

对象存储如何提供帮助:对象存储建立在业界成本最低的硬件平台上。加上低管理开销和节省空间的数据压缩功能,结果是成本比传统企业磁盘存储低70%。

存储要求3:软件定义的存储选项

庞大的数据集有时会需要具有专用服务器架构的超大规模数据中心。其他配置可能会受益于预配置设备的简单性。

对象存储的帮助方式:对象存储使您可以选择存储设备或软件定义的存储,从而保持部署选项的打开状态。

存储要求4:混合架构

不同的数据类型具有不同的性能要求,而硬件必须反映出来。系统必须包含正确的存储技术组合,以满足同时满足的规模和性能需求,而不是一种同类通用的方法。

对象存储如何提供帮助:对象存储采用混合架构,其中旋转磁盘用于存储用户数据,而SSD用于存储对性能敏感的元数据,从而优化了成本和性能。

存储要求5:并行架构

对于无限制增长的数据集,并行访问体系结构至关重要。否则,系统将产生限制增长的瓶颈。

对象存储如何提供帮助:对象存储采用无共享群集架构,这意味着系统的所有部分都可以并行工作。随着系统扩展,数据吞吐量不断增长。

存储要求6:数据持久性

备份多PB训练数据集是不可行的;这通常是成本和时间的限制。但是,您也不能不加保护。相反,存储系统需要自我保护。

对象存储的帮助方式:对象存储具有内置的冗余设计,因此无需单独的备份过程即可保护数据。此外,您可以选择每种数据类型所需的数据保护级别,以优化效率。系统可以配置为容忍多个节点故障,甚至可以容忍整个数据中心的丢失。

存储要求7:数据局部性

尽管某些培训数据将驻留在云中,但出于多种原因,大部分培训数据仍将保留在数据中心中:性能,成本和法规遵从性是其中三个。为了具有竞争力,本地存储必须提供与基于云的同类存储相同的成本和可伸缩性优势。

对象存储如何提供帮助:对象存储是云的存储。许多云提供商将其用作公共云基础结构。云可扩展性和经济性现在可以在本地使用。

存储要求8:云集成

无论数据位于何处,由于两个原因,云集成仍将是重要的要求。首先,许多AI / ML创新都发生在云中。与云集成的本地系统将为使用云原生工具提供最大的灵活性。其次,随着信息的生成和分析,我们很可能会看到往返于云的数据流动。本地解决方案应该简化流程,而不是限制流程。

对象存储如何提供帮助:对象存储应通过三种方式与云集成:首先,解决方案可以采用S3 API,这是事实上的云存储标准语言。其次,它们可以促进与Amazon,Google和Microsoft公共云之间的分层,并允许您在单个命名空间中查看本地和基于云的数据。第三,应该直接从基于云的应用程序访问存储到云的数据。这种双模式访问使您可以交替使用云资源和本地资源。

要充分发挥AI / ML的潜力,就需要支持创新的基础架构。当今的对象存储解决方案应提供可扩展性,成本效率和互操作性,从而增强这些新兴技术的功能。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。