使用Waterline Data的元数据和机器学习 可以轻松实现多云数据目录

2019-06-28 17:09:48    来源:    作者:

跟踪您的所有数据 - 它的位置,它的去向,访问者以及他们使用它做什么 - 既不好玩也不令人兴奋。但它是整体数据管理的必要基础,在GDPR和CCPA 时代,它也是法律要求。这就是数据治理的内容。

数据目录是数据治理的无名英雄。一个数据目录被宽泛地定义为旨在帮助企业查找和管理大量数据的元数据管理工具。今天,数据目录领域的主要参与者之一Waterline Data正在宣布其产品的更新,ZDNet借此机会与创始人兼首席技术官Alex Gorelik进行了讨论。

水线数据目录获得更新:DATAOPS仪表板和混合多云

Waterline Data是一家单一产品公司。它的数据目录是它提供的每个解决方案都基于,从元数据管理和数据沿袭到敏感数据发现和数据合理化。今天的发布以新的DataOps仪表板为中心,Waterline表示可以作为监管中心,公司可以了解其数据产业的宏观风险。

DataOps仪表板允许用户轻松查找和查看包含受管制敏感数据的特定文件,并帮助加快识别,修复和文档处理过程,以满足GDPR和CCPA要求。然而,Gorelik指出,还有另一项重大改进:支持混合多云支持的新代理架构。

“Waterline现在可以编目并自动标记多个云中的数据,如AWS,Azure和Google Cloud Platform;内部大数据系统,如Cloudera和MapR;云数据库,如Snowflake和RedShift;以及内部部署的关系数据库。代理可以运行本地用于Apache Spark或容器中,用于没有Spark集群的环境,“Gorelik说。

另一个新功能是支持限制将数据发送出国的数据驻留法。可以将代理配置为在本地执行所有处理和发现,并仅将非敏感元数据发送到中央目录。最后,围绕可用性,个性化和协作进行了改进。

集成和开源

元数据确实是关键,而Waterline通过机器学习对其进行补充,以尽可能多地自动化苦差事。这是我们与Gorelik讨论的焦点,从管理的元数据的确切性质开始,以及与Waterline所引用的其他系统的集成。

Gorelik说,对于关系数据库,Waterline通常使用标准JDBC。然而,有时他们必须做特定于平台的事情。Waterline自动识别文件格式并解析文件系统和对象库中的文件(AVRO,镶木地板,JSON,XML,ORC,CSV等)。爬行自动完成并递增:将Waterline指向文件夹或数据库,它会检测任何更改并处理新数据。

集成通过REST API完成,它支持双向集成。Gorelik提到Waterline提供了预先构建的适配器,可以从Atlas和Cloudera Navigator导入沿袭,并将标签和标签关联导出到Atlas和Cloudera Navigator,这些标签用于驱动Ranger和Cloudera Sentry基于标签的访问控制策略。

这些REST API有自己的JSON数据定义,但我们真正希望听到的是对Egeria的某种支持。Egeria是一个ODPi开源项目,它实现了一组开放的API,类型和交换协议,以允许所有元数据存储库共享和交换元数据。

Hortonworks是ODPi成员,Egeria于2018年在Hortonworks的DataWorks活动中亮相,就Hortonworks而言,似乎这是Hadoop世界中元数据管理的前进方向。显然Cloudera - Hortonworks合并的事情很复杂,因为现在它都是Cloudera Navigator的元数据管理。然而,Egeria也在2019年的新Cloudera DataWorks活动中亮相,所以可能还有希望。利用Egeria是个好主意。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。