spark on hive

news/2024/4/30 3:09:57

由于spark不存在元数据管理模块,为了能方便地通过sql操作hdfs数据,我们可以通过借助hive的元数据管理模块实现。对于hive来说,核心组件包含两个:

  1. sql优化翻译器,翻译sql到mapreduce并提交到yarn执行
  2. metastore,元数据管理中心

hive执行sql命令架构图

我们先来介绍下hive怎么去执行一个sql命令的,我们在提交一个sql语句后,首先会经由hive sql翻译器翻译sql到MR并提交到Yarn,但sql语句中的表字段、要选择哪个表,表放在什么地方,是需要去询问metastore服务的,metastore服务返回查询必须的的表信息,sql语句翻译成mr任务并提交到yarn上执行,mr任务从hdfs中拿到所需数据再返回。
在这里插入图片描述

spark on hive原理

了解hive的基本原理后,再来看spark on hive,也就是借助了hive的metastore服务,来获取表位置,然后spark sql解释器将sql翻译成rdd代码执行。也即集成hive的metastore服务即可。
对于Spark来说,自身是一个执行引擎
但是Spark自己没有元数据管理功能,当我们执行:
SELECTFROM person WHERE age>10的时候,Spark完全有能力将SQL变成RDD提交
但是问题是,Personl的数据在哪?Person有哪些字段?字段啥类型?Spark完全不知道了
不知道这些东西,如何翻译RDD运行.
在SparkSQL代码中可以写SQL那是因为,表是来自DataFrame注册的.
DataFrame中有数据,有字段,有类型,足够Spark用来翻译RDD用.
如果以不写代码的角度来看,SELECT
FROM person WHERE age>10 spark无法翻译,因为没有元数据
在这里插入图片描述

配置spark on hive

配置spark的元数据为hive,只要保证spark能连接上hive的metastore即可。需要保证两点:
(1)hive的metastore服务正常运行;
(2)spark需要知道metastore的ip端口

配置步骤一

我们只需要在spark的conf目录中,创建hive-site.xml,然后配置以下内容:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl"href="configuration.xsl"?>
<configuration><!--告知Spark创建表存到哪里-><property><name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value></property><property><name>hive.metastore.local</name><value>false</value></property><!-一告知Spark Hive的MetaStore在哪--><property><name>hive.metastore.uris</name><value>thrift://node1:9083</value></property>
</configuration>

上面的thrift://node1:9083替换成自己的metastore服务地址,
/user/hive/warehouse替换成自己的元数据管理仓库路径即可

配置步骤二

将mysqlE的驱动jar包放入sparkl的jars目录,驱动jar包可自行网上去找
因为要连接元数据,会有部分功能连接到mysql/库,需要mysql驱动包

配置步骤三

确保Hive配置了MetaStore相关的服务
检查hive配置文件目录内的:hive-site.xml
确保有如下配置:

<configuration><property><name>hive.metastore.uris</name><value>thrift://node1:9083</value></property>
</configuration>

配置好之后就可以直接通过spark-sql工具创建表和操作表了,如果我们在hive中执行表操作,走的是map-reduce,而在spark-sql中操作则走的rdd,这是有细微区别的地方,翻译的操作不同,但元数据市一致的,但对开发者来说都一样,都是直接通过sql操作。同样,也可以在代码里面进行连接hive操作:

coding:utf8
import ..
if __name__ == '__main__':#O.构建执行环境入口对象SparkSessionspark = SparkSession.builder.\appName("test").\master("local[*]").\config("spark.sql.shuffle.partitions",2).\config("spark.sql.warehouse.dir","hdfs://node1:8020/user/hive/warehouse").\config("hive.metastore.uris","thrift://node3:9083").\enableHiveSupport().\getorCreate()sc = spark.sparkContextspark.sql("SELECT * FROM student").show()

可以看到,我们上面不用创建任何临时视图,但可以直接操作student表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.cpky.cn/p/11724.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

llama.cpp运行qwen0.5B

编译llama.cp 参考 下载模型 05b模型下载 转化模型 创建虚拟环境 conda create --prefixD:\miniconda3\envs\llamacpp python3.10 conda activate D:\miniconda3\envs\llamacpp安装所需要的包 cd G:\Cpp\llama.cpp-master pip install -r requirements.txt python conver…

【项目新功能开发篇】开发编码

作者介绍&#xff1a;本人笔名姑苏老陈&#xff0c;从事JAVA开发工作十多年了&#xff0c;带过大学刚毕业的实习生&#xff0c;也带过技术团队。最近有个朋友的表弟&#xff0c;马上要大学毕业了&#xff0c;想从事JAVA开发工作&#xff0c;但不知道从何处入手。于是&#xff0…

谷粒商城实战(008 缓存)

Java项目《谷粒商城》架构师级Java项目实战&#xff0c;对标阿里P6-P7&#xff0c;全网最强 总时长 104:45:00 共408P 此文章包含第151p-第p157的内容 简介 数据库承担落盘&#xff08;持久化&#xff09;工作 拿map做缓存 这种是本地缓存&#xff0c;会有一些问题 分布…

GIS与数字孪生共舞,打造未来智慧场景

作为一名数字孪生资深用户&#xff0c;近日我深刻理解到GIS&#xff08;地理信息系统&#xff09;在构建数字孪生体中的关键作用。 数字孪生技术旨在构建现实世界的虚拟镜像&#xff0c;而GIS则是这一镜像中不可或缺的空间维度框架和导航灯塔。数字孪生的核心是通过数字化方式…

MySQL 底层数据结构 聚簇索引以及二级索引 Explain的使用

数据结构 我们知道MySQL的存储引擎Innodb默认底层是使用B树的变种来存储数据的 下面我们来复习一下B树存储 B树存储 哈希存储的区别 哈希存储,只能使用等值查询 B树与B树存储 我们知道B树实际上就是B树的变种 那么为啥使用B树而不是使用B树呢? 我们知道效率的高低主要取决于…

Verilog基础【二】

3.1 Verilog 连续赋值 关键词&#xff1a;assign&#xff0c; 全加器 连续赋值语句是 Verilog 数据流建模的基本语句&#xff0c;用于对 wire 型变量进行赋值。&#xff1a; assign LHS_target RHS_expression &#xff1b;LHS&#xff08;left hand side&#xff09;…