hive的特点和要点总结-成都创新互联网站建设

关于创新互联

多方位宣传企业产品与服务 突出企业形象

公司简介 公司的服务 荣誉资质 新闻动态 联系我们

hive的特点和要点总结

这篇文章主要讲解了“hive的特点和要点总结”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“hive的特点和要点总结”吧!

作为一家“创意+整合+营销”的成都网站建设机构,我们在业内良好的客户口碑。创新互联提供从前期的网站品牌分析策划、网站设计、成都做网站、成都网站设计、创意表现、网页制作、系统开发以及后续网站营销运营等一系列服务,帮助企业打造创新的互联网品牌经营模式与有效的网络营销方法,创造更大的价值。

 一.什么是Hive与其特点
       官网介绍:The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL 。 也就是说:hive数据仓库软件使用sql读取、写入和管理驻留在分布式存储中的大型数据集。说明Hive的开发语言是SQL,而实际我们常见的分布式计算框架也就spark,MapReduce,Storm等,那么Hive如何使用SQL语言去进行分布式计算呢?

1.1Hive可以看做是MapReduce的客户端

         因为Hive的底层运算是MapReduce计算框架,Hive只是将可读性强,容易编程的SQL语句通过Hive软件转换成MR程序在集群上执行。hive可以看做mapreduce客户端,能用mapreduce程序完成的任务基本都可以对应的替换成hql(Hive SQL)编写的hive任务。所以因为hadoop和hdfs的本身设计的特点,也限制了hive所能胜任的工作特性。Hive最大的限制特点就是不支持基于行记录的更新,删除,增加。但是用户可以通过查询生成新表,或者将查询结果导入文件中来“实现”hive基于行记录的操作。

1.2.Hive是批处理系统

    因为mapreduce是批处理系统,所以hive也是基于海量数据的批处理的。同样因为mapreduce具有高延迟(1.启动时间长2.中间结果放在本地而非内存中),造成hive执行也耗时过长。

1.3.hive不支持事物

   所以不支持OLTP(连接事物处理),更适用与OLAP(联机分析处理),同样Hive还有不支持很多SQL的用法 ,后面会说。

 二.hive和hdfs,MySQL,mapreduce之间的关系
   1.举例说明hive,mysql和hdfs之间的关系
          下面是一个完成的流程,从hive中创建表,到往表里导入数据,1-9说明了hive,mysql,hdfs之间的流程。

hive的特点和要点总结

   2.要点总结
  1.Hive不存储数据,Hive需要分析计算的数据,以及计算结果后的数据实际存储在分布式系统上,如HDFS上。

  2.Hive某种程度来说也不进行数据计算,只是个解释器,只是将用户需要对数据处理的逻辑,通过SQL编程提交后解释成MapReduce程序,然后将这个MR程序提交给Yarn进行调度执行。所以实际进行分布式运算的是MapReduce程序

  3.因为Hive为了能操作HDFS上的数据集,那么他需要知道数据的切分格式,如行列分隔符,存储类型,是否压缩,数据的存储地址等信息。为了方便以后操作所以他需要将这些信息通过一张表存储起来,然后将这张表(元数据)存储到mysql中。为了啥存储到mysql里(实际是远程mysql),因为hive本身就是一个解释器,所以他不存储数据 ,为啥存到远程mysql里,后面会说。

mysql中的hive数据库是自己手动创建的,然后执行下面语句:

schematool -dbType mysql -initSchema 

该语句的作用是在mysql的hive数据库下建立一大堆的表格.

------------下面是hive操作-------------

hive> show databases;
OK
default
hive
Time taken: 0.018 seconds, Fetched: 2 row(s)

------------下面是mysql操作-------------

mysql> use hive
Database changed
mysql> select * from DBS;
+-------+-----------------------+-----------------------------------+---------+------------+------------+-----------+
| DB_ID | DESC                  | DB_LOCATION_URI                   | NAME    | OWNER_NAME | OWNER_TYPE | CTLG_NAME |
+-------+-----------------------+-----------------------------------+---------+------------+------------+-----------+
|     1 | Default Hive database | file:/user/hive/warehouse         | default | public     | ROLE       | hive      |
|    11 | NULL                  | file:/user/hive/warehouse/hive.db | hive    | appleyuchi | USER       | hive      |
+-------+-----------------------+-----------------------------------+---------+------------+------------+-----------+
2 rows in set (0.00 sec)

感谢各位的阅读,以上就是“hive的特点和要点总结”的内容了,经过本文的学习后,相信大家对hive的特点和要点总结这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是创新互联,小编将为大家推送更多相关知识点的文章,欢迎关注!


网站名称:hive的特点和要点总结
标题路径:http://kswsj.cn/article/pgphcg.html

其他资讯