sparksql 2.3.2开启全阶段生成代码后limit执行很慢

背景最近在查Hive metastore的mysql主从同步延迟的问题,需要分析mysql的binlog,所以写了一个binlog datasource大概是这么使用的:spark.sql( ...
  • 2018-10-18 21:31

Hive类型转换的坑2——未知分区

背景下面sql中,dt是abc表的分区字段,是字符串类型的,但是用户用了整数去比较explain dependency select * from abc where dt = 20180101...
  • 2018-9-28 18:42

Hive类型转换表现不一致的坑

背景看下面两个SQL,虽然都是比较01和'01',但结果相反hive (test)> select 01 in ('01'); OK _c0 false Time taken: 1.959...
  • 2018-9-28 18:06

F1 Query- Declarative Querying at Scale读后感

论文:F1 Query- Declarative Querying at Scale.pdf背景最近我们组想开发统一的SQL层,解决维护多套查询引擎(Hive、Presto、Kylin、Palo...
  • 2018-9-18 12:34

分区过滤和日期遍历优化

问题假如有一张表A,有分区字段dt string,dt字段是日期格式的,比如'20180101', '20180102等等那么下面这句HiveSQL将会从Hive metastore中拉取多少分...