20.离散化

离散化

离散化是一种将无限空间中的有限个体映射到有限空间中的方法,常用于处理数据范围很大但实际数据量较小的问题。

离散化的核心思想是将大范围的数据映射到小范围,同时保持数据之间的相对关系。通常用于处理以下情况:

  1. 数据范围很大(如 \(-2^{31}\)\(2^{31}\)
  2. 实际数据点较少
  3. 需要处理区间或线段

场景举例:

差分专题中的区间改变问题,如果区间是 \([(1, 3353), (534543, 231876390), (3353, 5667)]\) 这样的大范围,没法开数组到这么大规模做差分标记,但区间的数量不会太多,比如\(10000\) 个区间,那就至多 \(20000\) 个坐标点(区间起止会提供 \(2\) 个坐标,以及有一些起止点可能重叠)。

离散化处理

  • \((1, 3353, 534543, 231876390, 3353, 5667)\) 平铺排开
  • 排序:\((1, 3353, 3353, 5667, 534543, 231876390)\)
  • 去重:\((1, 3353, 5667, 534543, 231876390)\) (去掉了一个重复的 \(3353\)
  • 用序号代替: \(([0]=1,[1]=3353,[2]=5667,[3]=534543,[4]=231876390)\)
  • 区间系列 \([(1, 3353), (534543, 231876390), (3353, 5667)]\) 改变为序号 \([(0, 1), (3, 4), (1, 2)]\)
  • 序号范围显然是坐标点个数以内的,用序号代替原坐标点,就可以开数组做差分或其它区间操作了
  • 最后处理数据时,用序号查询原始数值,做进一步处理

例:区间合并

给定 \(n\) 个区间 \([a_i, b_i)\),求所有区间覆盖的总长度。

  • 第一行一个整数 \(n\),表示区间数量

  • 接下来 \(n\) 行,每行两个整数 \(a_i, b_i\),表示一个区间的起点和终点(左闭右开)

  • \(1 \leq n \leq 2 \times 10^4\)

  • \(-2^{31} \leq a < b < 2^{31}\)

  • 答案小于 \(2^{31}\)

输出一行一个整数,表示所有区间覆盖的总长度

输入:

1
2
3
4
3
-1 1
5 11
2 9

输出

1
11
  1. 将所有区间的端点收集并排序
  2. 去重得到离散化后的值
  3. 使用差分数组或扫描线算法计算覆盖长度

参考代码,顺便提供一个离散化参考通用模板

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
#include<cstdio>
#include<cstring>
#include<vector>
#include<unordered_map>
#include<algorithm>
const int maxn = 2e4 + 10;

// 一个相对通用的离散化模板,把一个数组传入 Make,会执行去重与排序
// 之后可以用序号找去找第 k 个元素, d[k],也可以用 Loc 找 x 离散后的序号 d.Loc(x)
template<typename TP_V>
struct Discretization {
std::vector<TP_V> b;
std::unordered_map<TP_V, int> mp; // 二分或hash找离散值对应的序号
void Init(){b.clear(); mp.clear();}
Discretization(){Init();}
Discretization(std::vector<TP_V> &a){Make(a);}
void Make(std::vector<TP_V> &a) {
Init();
Add(a);
}
void Add(std::vector<TP_V> &a) {
for(auto i : a) b.push_back(i);
std::sort(b.begin(), b.end());
b.erase(std::unique(b.begin(), b.end()), b.end());
for(int i = 0; i < b.size(); i ++) mp[b[i]] = i;
}
unsigned size() {
return b.size();
}
TP_V &operator[](int ith){return b[ith];}
int Loc(TP_V x) {return mp.count(x) ? mp[x] : -1;}
};


int fd[maxn << 1]; // 差分数组,下标是离散后的序号,而非真实坐标
int a[maxn << 1];
int main() {
int n, s, e;
std::vector<int> a;
Discretization<int> d;
memset(fd, 0, sizeof(fd)); // 注意差分数组初始化为 0
scanf("%d", &n);
for(int i = 0; i < n; i ++) {
scanf("%d%d", &s, &e);
a.push_back(s);
a.push_back(e);
}
d.Make(a);
for(int i = 0; i < n; i ++) {
// 第 i * 2 个元素是一个起点坐标, i * 2 + 1 是它的终点坐标
int s = a[i << 1], e = a[i << 1 | 1];
// Loc找离散化后的序号,用序号做差分,[s,e) 左闭右开
fd[d.Loc(s)] ++;
fd[d.Loc(e)] --;
}
int ans = 0;
for(int i = 0; i < d.size() - 1; i ++) {
// 还原为点位值,fd[i]的值是 [ d[i], d[i+1] ) 这个左闭右开区间的覆盖次数
fd[i] += i == 0 ? 0 : fd[i - 1];
ans += (fd[i] > 0)* (d[i + 1] - d[i]);
}
printf("%d\n", ans);
}

例:过度种植

在笛卡尔平面坐标系中,有 \(N\) (\(1 \leq N \leq 1000\)) 个矩形,第 \(i\) 个矩形的左上角坐标是 \((x_1,y_1)\),右下角坐标是 \((x_2,y_2)\)。求这 \(N\) 个矩形所覆盖的总面积(被重复覆盖的区域只计算一次)。

  • 第一行,一个整数 \(N\) (\(1 \leq N \leq 1000\))

  • 接下来 \(N\) 行,每行四个整数 \(x_1,y_1,x_2,y_2\) (\(-10^8 \leq x_1,y_1,x_2,y_2 \leq 10^8\))

  • 输出一个整数,表示被覆盖的总面积

输入

1
2
3
2
0 5 4 1
2 4 6 2

输出

1
20

解题思路:

  1. 这是一个二维离散化问题,需要对 \(x\)\(y\) 坐标分别进行离散化
  2. 使用二维差分记录每个小矩形的覆盖情况
  3. 统计被覆盖的小矩形的面积总和

参考代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
#include <cstdio>
#include <cstring>
#include <vector>
#include <algorithm>
#include <unordered_map>

// 离散化模板
template<typename TP_V>
struct Discretization {
std::vector<TP_V> b;
std::unordered_map<TP_V, int> mp;
void Init(){b.clear(); mp.clear();}
Discretization(){Init();}
Discretization(std::vector<TP_V> &a){Make(a);}
void Make(std::vector<TP_V> &a) {
Init();
Add(a);
}
void Add(std::vector<TP_V> &a) {
for(auto i : a) b.push_back(i);
std::sort(b.begin(), b.end());
b.erase(std::unique(b.begin(), b.end()), b.end());
for(int i = 0; i < b.size(); i ++) mp[b[i]] = i;
}
unsigned size() {
return b.size();
}
TP_V &operator[](int ith){return b[ith];}
int Loc(TP_V x) {return mp.count(x) ? mp[x] : -1;}
};

// 矩形结构体
struct Rectangle {
int x1, y1, x2, y2;
};

int main() {
int n;

scanf("%d", &n);

// 存储所有矩形的坐标
std::vector<Rectangle> rects(n);
std::vector<int> x_coords, y_coords;

for(int i = 0; i < n; i++) {
scanf("%d%d%d%d", &rects[i].x1, &rects[i].y1, &rects[i].x2, &rects[i].y2);
x_coords.push_back(rects[i].x1);
x_coords.push_back(rects[i].x2);
y_coords.push_back(rects[i].y1);
y_coords.push_back(rects[i].y2);
}

// 对x和y坐标分别进行离散化
Discretization<int> dx(x_coords), dy(y_coords);

// 创建二维差分数组
std::vector<std::vector<int>> diff(dx.size(), std::vector<int>(dy.size(), 0));

// 对每个矩形进行差分标记
for(int i = 0; i < n; i++) {
int loc_x1 = dx.Loc(rects[i].x1);
int loc_y1 = dy.Loc(rects[i].y1);
int loc_x2 = dx.Loc(rects[i].x2);
int loc_y2 = dy.Loc(rects[i].y2);
// 本题是直角坐标系,“左上”的y更大,“右下”的y更小
// 调整为“左下”和“右上”,以便一个端点的xy坐标都比另一个端点的xy坐标小
std::swap(loc_y1, loc_y2);

// 二维差分:左上角+1,右上角-1,左下角-1,右下角+1
// 最大坐标位置有哨兵(建diff的时候dx.size()和dy.size()都 + 1 了)
// 参考差分章节的例子:
// x方向差分: x差分结果再进行y方向差分:
// 0 0 0 0 0 0 0 0 0 0 0 0
// 0 0 0 0 0 0 0 -1 0 0 0 +1
// 0 +1 0 0 0 -1 0 0 0 0 0 0
// 0 +1 0 0 0 -1 ===> 0 0 0 0 0 0
// 0 +1 0 0 0 -1 0 +1 0 0 0 -1
// 0 0 0 0 0 0 0 0 0 0 0 0
// PS:上“图”是按二维坐标系,(0,0)坐标在左下绘制,注意别混淆
// 但注意:本题坐标是矩形端点,而不是方格,端点可以理解为左闭右开,不需要将端点序号加1
diff[loc_x1][loc_y1] ++; // 左下 + 1
diff[loc_x2][loc_y1] --; // 右下 - 1
diff[loc_x1][loc_y2] --; // 左上 - 1
diff[loc_x2][loc_y2] ++; // 右上 + 1
}

long long ans = 0;
for(int i = 0; i < dx.size() - 1; i++) {
for(int j = 0; j < dy.size() - 1; j++) {
if(j > 0) diff[i][j] += diff[i][j-1]; // y方向差分恢复原值
}
}
for(int i = 0; i < dx.size() - 1; i++) {
for(int j = 0; j < dy.size() - 1; j++) {
if(i > 0) diff[i][j] += diff[i-1][j]; // x方向差分恢复原值
}
}
for(int i = 0; i < dx.size() - 1; i++) {
for(int j = 0; j < dy.size() - 1; j++) {
// 统计答案
ans += 1LL * (diff[i][j] > 0) * (dx[i+1] - dx[i]) * (dy[j+1] - dy[j]);
}
}

printf("%lld\n", ans);
return 0;
}