Monthly Archive: 八月 2016

大数据Hive之入门必备

在「聊聊大数据平台的典型应用场景」这篇文章中介绍了团队目前搭建大数据平台的实践,以及如何在实际生产环境中应用我们的大数据平台也就是寻找典型的应用场景。至于Hadoop生态系统中的Hive工具则是点到为止,并没有展开详细讨论,在这边文章中我们来入门Hive,了解Hive工具的作用,执行原理,数据类型以及数据模型。

引用官网的一段说明

The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL. Structure can be projected onto data already in storage. A command line tool and JDBC driver are provided to connect users to Hive.

Hive本质上是一个数据仓库,但不存储数据(只存储元数据),用户可以借助Hive使用sql对存储在分布式文件系统中的大数据集进行读写。

(更多…)