Hive的“分区”

🕗 发布于 2024-05-16 00:42 hive hadoop 数据仓库

partition by

根据表中的字段名进行分区，常用在建表语句、窗口函数。

-- 建表
create table test(log string) partitioned by(etl_date string);
-- 窗口函数
select row_number() over(partition by user_id order by exec_time desc) as rn from dual;

distribute by

根据表中的字段值进行分区，
首先确定要分区的数量，然后拿字段值%分区个数，余数相同的进入同一分区。

set mapred.reduce.tasks=2;
insert overwrite local directory '/home/hadoop/distri_data' select * from user_install_status_limit distribute by country sort;
-- 相同hashcode的国家名分到同一个reducer文件中.

在这里插入图片描述

cluster by

cluster by column = distribute by column + sort by column
(必须是相同的column才能相等,否则distribute by和sort by 要各自指定列),
即：又分桶又进行内部排序.cluster by可以保证组内有序.
注意,都是针对column列,且采用默认ASC(升序),不能指定排序规则为asc或者desc.

set mapred.reduce.tasks=2;
insert overwrite local directory '/home/hadoop/cluster_data' select * from user_install_status_limit cluster by country;
--等于
insert overwrite local directory '/home/hadoop/cluster_data' select * from user_install_status_limit distribute by country sort by country;

在这里插入图片描述

实现降序
需要用distribute by and sort by 组合的方式,
在创建桶表的语法中clustered by桶内是否有序要根据sort by决定.

set mapred.reduce.tasks=2;
insert overwrite local directory '/home/hadoop/dis_sort_data' select * from user_install_status_limit distribute by country sort by country desc;

在这里插入图片描述

原文地址：https://blog.csdn.net/weixin_44872470/article/details/138905805

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：Linux端口状态含义
下一篇：每日5题Day3 - LeetCode 11 - 15

数据结构从入门到精通二 ~ 数组和链表
在计算机科学和软件工程领域，数据结构是指在计算机中组织和存储数据的方式，数组和链表是其中最基础也是最常用的两种数据结构之一。数组（Array）：是一种线性表数据结构，它使用连续的内存空间来存储一组相同
阅读更多2024-07-27
OD C卷 - 体育场找座位
python算法、逻辑分析
阅读更多2024-07-27
Java学习笔记（五）数组、冒泡排序
数组可以存放多个同一类型的数据。数组也是一种数据类型，是引用类型。即:数组就是一组数据数据类型数组名[]=new数据类型【大小】//创建了一个数组，名字a,存放5个int说明:这是定义数组的一种方法。
阅读更多2024-07-27
Artix7系列FPGA实现SDI视频编解码+图像缩放+多路视频拼接，基于GTP高速接口，提供4套工程源码和技术支持
Artix7系列FPGA实现SDI视频编解码+图像缩放+多路视频拼接，基于GTP高速接口，提供4套工程源码和技术支持
阅读更多2024-07-27
Tomcat 部署及优化
Tomcat属于轻量级应用服务器，在中小型系统和并发访问用户不是很多的场合下被普遍使用，是开发和调试JSP程序的首选。一般来说，Tomcat虽然和Apache或者Nginx这些web 服务器一样，具有
阅读更多2024-07-27
IPD推行成功的核心要素（十五）项目管理提升IPD相关项目交付效率和用户体验
在这个阶段，项目经理需要制定详细的项目计划，这个计划需要详细描述项目目标、交付物、范围、时间表、预算、风险管理策略和沟通计划，作为指引项目团队整个项目周期的路线图，同时也用于决策和跟踪绩效。例如：华为
阅读更多2024-07-27
nginx的学习（二）：负载均衡和动静分离
nginx的负载均衡和动静分离的简单使用。
阅读更多2024-07-27
【日常运维】mongoDB学习-入门介绍-其强大之处以及用武之地
关系型数据库对数据要求严格，而非关系型数据库没有那么严格，对于大量不同字段的数据，存储更加方便
阅读更多2024-07-27
Apache Flink窗口详解
Apache Flink 的核心功能之一是窗口处理，它允许开发人员以基于时间或基于计数的方式分组和处理数据流。窗口技术是一种根据某些标准将数据流划分为有限块（称为窗口）的技术。窗口（Window）是处
阅读更多2024-07-27
如何快速抓取小红书帖子评论？两大实战Python技巧揭秘
本文将深入探讨两种高效的Python方法，助您迅速获取小红书文章下方的所有评论，提升市场分析与用户洞察力。通过实战示例与详细解析，让您轻松掌握数据抓取技巧，为您的内容营销策略提供有力支持。
阅读更多2024-07-27

Hive的“分区”

partition by

distribute by

cluster by

相关文章