Spark SQL 抽样函数 ——TABLESAMPLE 的坑点 最近需要实现一段 Spark SQL 逻辑,对数据集进行抽样指定的行数。 由于数据集较大,刚开始的逻辑是,取窗口函数随机排序后 row_number 的前 n 行。但运行速度较慢,所以想起了 TABLESAMLE 函数,支持直接取 Rows, 尝试后发现速度特别快,基本上几秒内就完成对亿级数据的采样。所以好奇就去查看文档和代码逻辑。 The TABLESAMPLE statement is use 数据运维 2024-04-22 醒在深海的猫