来自 计算机 2019-06-16 04:41 的文章
当前位置: 金沙国际唯一官网 > 计算机 > 正文

AWS黑科技RedShift Spectrum全表扫描 1000 PB 级别数据库

  在今天于旧金山召开的AWS峰会上,公共云基础设施提供商亚马逊网络服务公司(AWS)宣布推出Redshift Spectrum,这是AWS的Redshift托管数据仓库服务的延伸版,能够查询驻留在传统的AWS S3存储服务里面的数据。

  Redshift Spectrum的推出将让某些类型的数据查询更加经济实惠,原因是包括计算功能和存储功能的Redshift是一种比较复杂、比较费钱的服务,它是专门为针对大量数据进行数字处理而设计的。

  为了让大家有一个直观的了解,亚马逊首席技术官沃纳·沃格尔斯(Werner Vogels)举了一个例子:使用Apache Hive开源数据查询软件对艾字节(EB)数据执行查询。这项任务需要五年的时间和1000个节点――也就是说,成本相当高昂。沃格尔斯表示,但是借助Spectrum,只要花155秒和区区几百美元。

  AWS首席宣传官杰夫·巴尔(Jeff Barr)在一篇博文中写道:“如果你开始执行查询,Redshift先对查询进行拆分,生成一个查询方案,尽量减少需要读取的S3数据的数量,并充分利用面向列的格式以及按日期或另一个键划分的数据。然后,Redshift向庞大的共享池请求Spectrum worker,并引导这些worker预测、过滤和整合S3数据。最后的处理在Redshift集群里面加以执行,结果返回给你们用户。”

  竞争对手包括初创公司Snowflake的云数据仓库。微软Azure和IBM的公共云也提供数据仓库服务。

https://www.penganxian.com/jisuanji/219.html