博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hive数据抽样
阅读量:6864 次
发布时间:2019-06-26

本文共 562 字,大约阅读时间需要 1 分钟。

hot3.png

首先,我们了解一下抽样查询的SQL语法。

分桶抽样TABLESAMPLE (BUCKET x OUT OF y [ON colname])百份比抽样TABLESAMPLE (n PERCENT)行抽样TABLESAMPLE (n ROWS)大小抽样TABLESAMPLE (n{'b' | 'B' | 'k' | 'K' | 'm' | 'M' | 'g' | 'G'})

分桶抽样

根据hash(uid) % 20进行分桶,抽取第一个桶的数据。SELECT * FROM TABLE1 TABLESAMPLE(BUCKET 1 OUT OF 20 ON uid) t随机分桶,并抽取第一个桶的数据。SELECT * FROM TABLE1 TABLESAMPLE(BUCKET 1 OUT OF 20 ON rand()) t

百份比抽样

SELECT * FROM TABLE1 TABLESAMPLE(10.5 PERCENT) t

行抽样

SELECT * FROM TABLE1 TABLESAMPLE(105 ROWS) t

大小抽样

SELECT * FROM TABLE1 TABLESAMPLE(500M) t

转载于:https://my.oschina.net/u/561917/blog/669236

你可能感兴趣的文章
log file sycn 概述
查看>>
Javascript对于不同浏览器的兼容性
查看>>
开源在线阅读技术资源
查看>>
慎用jQuery中的submit()方法
查看>>
HBase java 开发
查看>>
openldap 2.3 安装配置详解
查看>>
python---骰子游戏
查看>>
淘宝样式初始化代码
查看>>
ubuntu14 安装JDK
查看>>
STL源码剖析之算法:lower_bound
查看>>
ARP病毒查找与防范
查看>>
git安装和使用案例
查看>>
最长回文子序列
查看>>
我的友情链接
查看>>
Java Timer定时器 使用
查看>>
事务的应用demo1-------采用JDBC硬编码方式模拟"银行转账"。
查看>>
我的友情链接
查看>>
初始 lucene
查看>>
Cent6.5 64位yum安装mysql5.5
查看>>
我的友情链接
查看>>