【大数据】-- 创建 Paimon 外部表

news/2024/5/16 0:12:35

       如今,在数据湖三剑客(delta lake、hudi、iceberg)之上,又新出一派: apache paimon。我们恰好在工作中遇到,以下介绍在 dataworks 上,使用 maxcompute odps sql 创建 apache paimon 外部表的一些操作和注意事项。参考:创建MaxCompute Paimon外部表_云原生大数据计算服务 MaxCompute(MaxCompute)-阿里云帮助中心

1、前提条件

  • 当前执行操作的账号已具备创建MaxCompute表(CreateTable)的权限。更多表权限信息,请参见MaxCompute权限。

  • 已创建MaxCompute项目。具体操作,请参见创建MaxCompute项目。

  • 已创建存储空间(Bucket)以及对应的文件目录。具体操作,请参见创建存储空间。

2、注意事项

  • 当前MaxCompute仅支持对Paimon外部表的读取操作。要创建Paimon外部表,您可以使用阿里云实时计算Flink版或开源大数据平台E-MapReduce。

  • Paimon当前暂时不支持开启了Schema操作的MaxCompute项目。

  • Paimon外部表不支持cluster属性。

3、步骤

步骤一:在MaxCompute项目中上传Paimon插件

选择以下其中一种方式,在已创建的MaxCompute项目中上传Paimon插件。

方法一:在 dataworks 上创建

方法二:在 odpscmd 客户端创建

步骤二:通过Flink创建MaxCompute Paimon外部表

  1. 登录实时计算控制台,创建自定义Catalog类型。创建自定义Catalog类型操作详情,请参见创建自定义Catalog类型。

    说明

    创建自定义Catalog类型,需要上传Paimon自定义catalog插件。Paimon自定义catalog插件的下载链接,请参见下载链接。

  2. 在创建完自定义Catalog类型后,在自定义Catalog页签,单击刚创建好的自定义Catalog类型 paimon-06-1,然后单击下一步

  3. 填写Catalog代码信息及参数值后,单击确定

CREATE CATALOG `<catalog name>` WITH ('type' = 'paimon-06-1','metastore' = 'maxcompute','warehouse' = '<warehouse>','fs.oss.endpoint' = '<oss endpoint>','fs.oss.accessKeyId' = '<oss access key id>','fs.oss.accessKeySecret' = '<oss access key secret>','maxcompute.endpoint' = '<maxcompute endpoint>','maxcompute.accessid' = '<maxcompute access id>','maxcompute.accesskey' = '<maxcompute access key>','maxcompute.project' = '<maxcompute project>','maxcompute.oss.endpoint' = '<maxcompute oss endpoint>'
);

4.创建Paimon外部表。

  1. 云数据管理页面,选择paimon-06-1 > default,然后单击创建表,如下图所示。

    image.png

  2. 添加表对话框,选择Apache Paimon连接器,然后单击下一步

  3. 执行以下语句,单击确定。本文以创建test_tbl为例。

    CREATE TABLE `catalogname`.`default`.test_tbl (dt STRING,id BIGINT,data STRING,PRIMARY KEY (dt, id) NOT ENFORCED
    ) PARTITIONED BY (dt);
  4. SQL 开发页面,创建包含如下语句的SQL作业,部署并运行作业。关于如何创建并运行SQL作业详情,请参见SQL作业开发。

    INSERT INTO `catalogname`.`default`.test_tbl VALUES ('2023-04-21', 1, 'AAA'), ('2023-04-21', 2, 'BBB'), ('2023-04-22', 1, 'CCC'), ('2023-04-22', 2, 'DDD');

    说明

    • 请确认SQL作业的引擎版本为vvr-8.0.1-flink-1.17及以上版本。

    • 若SQL作业有限流作业(例如执行INSERT INTO ... VALUES ...语句),需要在作业运维页面,编辑运行参数配置,在其他配置设置execution.checkpointing.checkpoints-after-tasks-finish.enabled: true代码。关于如何配置作业的运行参数详情,请参见配置作业部署信息。

步骤三:通过MaxCompute读取Paimon外部表

  1. 通过使用本地客户端(odpscmd)连接或其他可以运行MaxCompute SQL的工具,执行以下命令。

    SET odps.sql.common.table.planner.ext.hive.bridge = true;
    SET odps.sql.hive.compatible = true;
  2. 执行以下命令,查询MaxCompute Paimon外部表test_tbl。

    SELECT * FROM test_tbl WHERE dt = '2024-02-21';

    返回结果如下。

    +------------+------------+------------+
    | id         | data       | dt         |
    +------------+------------+------------+
    | 1          | AAABB        | 2024-02-21 |
    | 2          | BBBCC        | 2024-02-21 |
    +------------+------------+------------+

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.cpky.cn/p/10163.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

初识JS

目录 javascript的作用: 浏览器如何执行JS代码&#xff1a; JS的三部分组成&#xff1a; ECMAScript: DOM: BOM: JS的三种书写导入方式&#xff1a; JS注释&#xff1a; JS的输入输出语句&#xff1a; JS变量,数据&#xff1a; 变量的使用&#xff1a; 声明变量&…

综合实验nginx+nfs+kpa

综合实验 实验目的&#xff1a; 静态资源和动态资源分别存放在远端存储NFS上&#xff0c;NFS上数据实现实时备份&#xff0c;用户通过负载访问后端的web服务。实现ngixn负载高可用&#xff0c;当keepalived master宕机&#xff0c;vip能自动跳转到备用节点 实验环境&#xff…

30m二级分类土地利用数据Arcgis预处理及获取

本篇以武汉市为例&#xff0c;主要介绍将土地利用数据转换成武汉市内各区土地利用详情的过程以及分区统计每个区内各地类面积情况&#xff0c;后面还有制作过程中遇到的面积制表后数据过小的解决方法以及一些相关的知识点&#xff1a; 示例数据下载链接&#xff1a;数据下载链…

maven 包管理平台-05-multi module 多模块

拓展阅读 maven 包管理平台-01-maven 入门介绍 Maven、Gradle、Ant、Ivy、Bazel 和 SBT 的详细对比表格 maven 包管理平台-02-windows 安装配置 mac 安装配置 maven 包管理平台-03-maven project maven 项目的创建入门 maven 包管理平台-04-maven archetype 项目原型 ma…

2023年第十四届蓝桥杯大赛软件类省赛C/C++大学A组真题

2023年第十四届蓝桥杯大赛软件类省赛C/C大学A组部分真题和题解分享 文章目录 蓝桥杯2023年第十四届省赛真题-平方差思路题解 蓝桥杯2023年第十四届省赛真题-更小的数思路题解 蓝桥杯2023年第十四届省赛真题-颜色平衡树思路题解 蓝桥杯2023年第十四届省赛真题-买瓜思路题解 蓝桥…

2-web端管理界面使用rabbitmq

Web管理界面可以直接操作RabbitMQ&#xff0c;下面进行操作并记录步骤 1、添加交换器&#xff1a; Add a new exchange 中&#xff0c;Name是交换器名称&#xff0c;Type是交换器类型&#xff0c;有direce、fanout、heders、topic 4种。 2、将四种类型的交换器都添加一个&…