could anyone please share some material on con-joint analysis?# Business - 商学院
o*8
1 楼
目前在做的数据仓库的一个项目。维度表需要drop掉几个column,drop完以后要重新合
并数据,删掉相同的行,然后update fact 表里的FK。
维度表一共400M 行, 需要清理其中的300M 行 (4年的数据),清理目标目前看能压缩
到15M,所以值得清理。
有6个FACT 表,每个表大概 2.5B 行
每个维度表和fact 表都有大概10个左右的index
初步的策略是
1, 在维度表里加一个flag 列 和 NEW PK 列,把要删掉的行 flag = 1,并且给一个
新值给NEW PK
2,用维度表里的 NEW PK 去update fact 的FK
3,等 UAT 通过后 把维度表里 flag = 1 的删除
4,目前不太想动index,因为建一个index 很费时间
这个过程SQL 不难写,无非就是计算NEW PK 和 flag 的值,然后 update。
难点是数据量太大,时间太长,有哪些好办法可以大大缩短时间的?
并数据,删掉相同的行,然后update fact 表里的FK。
维度表一共400M 行, 需要清理其中的300M 行 (4年的数据),清理目标目前看能压缩
到15M,所以值得清理。
有6个FACT 表,每个表大概 2.5B 行
每个维度表和fact 表都有大概10个左右的index
初步的策略是
1, 在维度表里加一个flag 列 和 NEW PK 列,把要删掉的行 flag = 1,并且给一个
新值给NEW PK
2,用维度表里的 NEW PK 去update fact 的FK
3,等 UAT 通过后 把维度表里 flag = 1 的删除
4,目前不太想动index,因为建一个index 很费时间
这个过程SQL 不难写,无非就是计算NEW PK 和 flag 的值,然后 update。
难点是数据量太大,时间太长,有哪些好办法可以大大缩短时间的?