mir.pe (일반/밝은 화면)
최근 수정 시각 : 2024-11-05 01:59:09

기대 승점

xPTS에서 넘어옴

1. 개요2. 계산 방법
2.1. 시뮬레이션 이용2.2. 수학적 확률 계산
3. xG의 합이 같을 경우

1. 개요

기대 승점(Expected Points)이란 한 팀이 단일 경기, 혹은 리그 전체에서 받았어야 했을 승점의 기댓값을 의미하며, xPTS라고도 줄여쓸 수 있다. 승점이라는 것은 리그에서의 순위와 직접 관련되어 있기 때문에, 승점의 기댓값을 보는 것은 기대 득점을 보는 것과는 또 다른 방식으로 유의미한 결과를 가져다준다. 기대 득점이 더 높은 팀이 승점 3점을 가져갈 가능성이 높긴 하지만 실제 득점은 확률적으로 정해지기 때문에 꼭 xG가 높은 팀이 승점 3점을 가져간다는 보장은 없다. 즉 운좋게 이겨서 얻는 승점과 압도적인 차이로 이겨서 얻는 승점은 모두 3점이지만 두 경기가 같은 가치를 지니지는 않는다.

편차값인 (실제 승점 - xPts)이 클수록 기대 수준보다 더 많은 승점을 얻었다[1]는 뜻이며 작을수록 기대 수준보다 적은 승점을 얻었다[2]는 뜻이다.

미국 축구 분석학회에서 기대 승점에 대해 남긴 칼럼이 있다.

2. 계산 방법

2.1. 시뮬레이션 이용

한 경기에서의 승점의 기댓값을 보기 위해서는, 같은 경기를 다시 똑같이 진행한다고 가정하였을 때 양 팀의 각 슈팅이 동일하게 다시 이루어진다는 전제가 필요하다. 이 때 각 슈팅에서 성공할 확률인 기대 득점도 각 시뮬레이팅에서 동일하여야 한다.

한 경기에서 팀 A가 총 [math(m)]번, 팀 B가 [math(n)]번의 슈팅을 시도했을 때, 각 팀이 각각 [math(a)], [math(b)]개의 득점을 성공했다고 하자.

이 때 총 [math(m+n)]개의 동일한 슈팅이 이루어진 한 경기를 컴퓨터로 1만 경기 이상 아주 많이 시뮬레이팅하면, 각 시뮬레이션에서 확률적으로 얻어진 [math(a)]와 [math(b)]들을 비교할 수 있다. 이때 [math(a)]가 [math(b)]보다 더 컸다면 A가 득점을 더 많이 한 것이므로 팀 A가 이긴 것이고, 같다면 비긴 것이고, 더 작다면 팀 A가 진 것이다. 이때 경기를 아주 많이 시뮬레이팅하면, 팀 A가 이긴 비율 [math(w)][3], 비긴 비율 [math(d)][4], 진 비율 [math(l)][5]을 구하면 실제 수학적 확률에 충분히 수렴[6]하게 된다. 이를 몬테 카를로 방법이라고 한다. 그 원리는 큰 수의 법칙을 이용한 것이다.

한편 축구에서 한 경기에 대한 승점은 경기에서 이겼을 시 3점, 비겼을 시 1점, 졌을 시 0점을 부여한다. 따라서 팀 A의 승점의 기댓값은 [math(\displaystyle 3 \times w + 1 \times d + 0 \times l)]로 계산할 수 있다. 또한 팀 B의 기대 승점은 [math(\displaystyle 3 \times l + 1 \times d + 0 \times w)]로 계산할 수 있다. 그러나 이 두 값의 합이 항상 3이 되지는 않음에 주의하여야 한다.

따라서 기대 승점을 계산하기 위해서는 양 팀의 xG값의 합 뿐만 아니라 양팀이 시도한 각 슈팅의 xG값을 모두 알아야 한다. 즉 기대 승점이라는 지표는 기대 득점 기대 실점을 승점으로 환산해주는 역할을 한다고 볼 수 있다. 여기서 각 슈팅의 xG를 입력하면 기대 승점을 계산해준다.

understat.com에 접속할 시 리그 테이블에서 볼 수 있는 xPTS값은 각 경기에서의 xPTS값의 합이다.

2.2. 수학적 확률 계산

몬테 카를로 방법을 이용하지 않고 수학적 확률을 직접 구할 수도 있으나 슈팅 수가 많아질수록 점점 계산이 복잡해진다.
아래 계산의 참고 자료

[ 계산 과정 펼치기 · 접기 ]
한 경기에서 팀 A가 [math(m)]번의 슈팅을 시도했을 때, 팀 A의 선수들이 시도한 [math(i)]번째 슈팅의 xG값을 [math(a_i (i=1,2,...,m))], [math(i)]번째 슈팅에서 성공한 득점의 수를 확률변수 [math(A_i (i=1,2,...,m))]라고 하고, 팀 B가 [math(n)]번의 슈팅을 시도했을 때, 팀 B의 선수들이 시도한 [math(i))]번째 슈팅의 xG값을 [math(b_i (i=1,2,...,n))]라고 하고, [math(i)]번째 슈팅에서 성공한 득점의 수를 확률변수 [math(B_i (i=1,2,...,n))]라고 하자. 이 때 [math(\displaystyle \sum_{i=1}^{m} A_i)]와 [math(\displaystyle \sum_{i=1}^{n} B_i)]는 팀 A, B가 얻은 총 득점이 된다.

여기서 [math(\displaystyle \sum_{i=1}^{m} A_i)]와 [math(\displaystyle \sum_{i=1}^{n} B_i)]의 확률분포표를 작성할 수 있다. 그러나 이 확률분포표는 [math(m)] 혹은 [math(n)]이 커짐에 따라 복잡해진다.

다음은 [math(m=2)]에서 [math(\displaystyle \sum_{i=1}^{m} A_i)]의 확률분포표를 작성한 것이다.
[math(a)] [math(0)] [math(1)] [math(2)]
[math(\displaystyle Pr \bigg( \sum_{i=1}^{m} A_i = a \bigg))] [math(a_1 a_2)] [math(a_1(1-a_2) + (1-a_1)a_2)] [math((1-a_1)(1-a_2))]

다음은 [math(n=3)]에서 [math(\displaystyle \sum_{i=1}^{n} B_i)]의 확률분포표를 작성한 것이다.
[math(b)] [math(0)] [math(1)] [math(2)] [math(3)]
[math(\displaystyle Pr \bigg( \sum_{i=1}^{n} B_i = b \bigg))] [math(b_1 b_2 b_3)] [math(b_1(1-b_2)(1-b_3) + (1-b_1)b_2(1-b_3) + (1-b_1)(1-b_2)b_3)] [math(b_1 b_2 (1-b_3) + b_1 (1 - b_2) b_3 + (1-b_1) b_2 b_3)] [math((1-b_1)(1-b_2)(1-b_3))]

이 때 각 팀의 각 득실점이 서로 모두 독립이라 가정할 때 결합확률분포표를 작성할 수 있다.

다음은 [math(m=2, n=3)]에서 A, B 득점의 결합확률분포표이다. 여기서 편의상 [math(\displaystyle P_A(a) = Pr \bigg( \sum_{i=1}^{m} A_i = a \bigg) )]로 쓴다. 이때 여기서 각 팀의 각 득실점은 서로 모두 독립이므로, [math(\displaystyle Pr \bigg( \sum_{i=1}^{m} A_i = a \cap \sum_{i=1}^{n} B_i = b \bigg) = Pr \bigg( \sum_{i=1}^{m} A_i = a \bigg) Pr \bigg( \sum_{i=1}^{n} B_i = b \bigg) = P_A(a)P_B(b))]이다.
[math(\displaystyle Pr \bigg( \sum_{i=1}^{m} A_i = a \cap \sum_{i=1}^{n} B_i = b \bigg))] [math(a=0)] [math(a=1)] [math(a=2)]
[math(b=0)] [math(P_A(0)P_B(0))] [math(P_A(1)P_B(0))] [math(P_A(2)P_B(0))]
[math(b=1)] [math(P_A(0)P_B(1))] [math(P_A(1)P_B(1))] [math(P_A(2)P_B(1))]
[math(b=2)] [math(P_A(0)P_B(2))] [math(P_A(1)P_B(2))] [math(P_A(2)P_B(2))]
[math(b=3)] [math(P_A(0)P_B(3))] [math(P_A(1)P_B(3))] [math(P_A(2)P_B(3))]

우선 여기서 양 팀이 비길 확률은 각 팀의 득점이 같은 상황에서의 확률의 합이므로 위의 결합확률분포상에서 노란색 대각선 상에 존재하는 값을 모두 더하면 되므로 [math(\displaystyle Pr \bigg( \sum_{i=1}^{m} A_i = \sum_{i=1}^{n} B_i \bigg))]은 [math(\displaystyle \sum_{i=0}^{\min(m,n)} P_A(i)P_B(i))]이다. 그리고 A가 이길 확률(B가 질 확률) [math(\displaystyle Pr \bigg( \sum_{i=1}^{m} A_i > \sum_{i=1}^{n} B_i \bigg))]는 A의 총 득점이 B의 총 득점보다 큰 경우의 확률을 모두 더한 것이므로, 주황색 칸에 존재하는 값의 합과 같아 [math(\displaystyle \sum_{i=1}^{m} \sum_{j=0}^{i-1} P_A(i)P_B(j))]이다. 같은 논리에 의해 초록색 칸에 존재하는 값의 합은 A가 질 확률(B가 이길 확률)과 같으므로 [math(\displaystyle Pr \bigg( \sum_{i=1}^{m} A_i < \sum_{i=1}^{n} B_i \bigg) = \sum_{i=1}^{n} \sum_{j=0}^{i-1} P_A(j)P_B(i))]이다.

따라서 A의 기대 승점은 다음처럼 적을 수 있다.


[math(\displaystyle = 3Pr \bigg( \sum_{i=1}^{m} A_i > \sum_{i=1}^{n} B_i \bigg) + 1Pr \bigg( \sum_{i=1}^{m} A_i = \sum_{i=1}^{n} B_i \bigg) + 0Pr \bigg( \sum_{i=1}^{m} A_i < \sum_{i=1}^{n} B_i \bigg))]



[math(\displaystyle = 3 \sum_{i=1}^{m} \sum_{j=0}^{i-1} P_A(i)P_B(j) + \sum_{i=0}^{\min(m,n)} P_A(i)P_B(i) )]


또한 B의 기대 승점은 다음처럼 적을 수 있다.


[math(\displaystyle 3Pr \bigg( \sum_{i=1}^{m} A_i < \sum_{i=1}^{n} B_i \bigg) + 1Pr \bigg( \sum_{i=1}^{m} A_i = \sum_{i=1}^{n} B_i \bigg) + 0Pr \bigg( \sum_{i=1}^{m} A_i > \sum_{i=1}^{n} B_i \bigg))]



[math(\displaystyle = 3 \sum_{i=1}^{n} \sum_{j=0}^{i-1} P_A(j)P_B(i) + \sum_{i=0}^{\min(m,n)} P_A(i)P_B(i) )]


수학적으로 구한 값과 통계적으로 구한 값 사이에 약간의 차이는 있다. 예를 들어 팀 A의 xG값의 집합이 {0.2, 0.2, 0.2, 0.2, 0.2, 0.2}이고, 팀 B의 xG값의 집합이 {0.4, 0.4, 0,4}일 경우 수학적으로 유도된 식으로 계산한 팀 A, B의 기대 승점 값은 각각 1.3160점, 1.3815점이지만 시뮬레이션 사이트에서는 각 1.33점, 1.37점으로 계산하고 있다.

3. xG의 합이 같을 경우

위에서 예시로 보였던 팀 A의 xG값의 집합이 {0.2, 0.2, 0.2, 0.2, 0.2, 0.2}이고, 팀 B의 xG값의 집합이 {0.4, 0.4, 0,4}일 경우 수학적으로 유도된 식이나, 몬테 카를로 방법으로 계산한 팀 A, B의 xG 합은 같으나 기대 승점 값은 둘 다 팀 B가 높았다. 이는 xG 총합이 똑같더라도 각 슈팅의 질에 따라 승률이 달라짐을 의미한다. 이는 xG 합계만으로는 볼 수 없는 점이며, 동시에 xPTS는 이를 보완하는 역할을 한다.

따라서 총 xG 합이 같더라도 더 득점으로 이어지기 수월하도록 박스 안 쪽에서 슈팅을 한 팀이, 득점으로 이어지기 어렵게 박스 바깥에서 슈팅을 한 팀보다 근소한 차이로 승률과 기대 승점이 더 높다는 의미로 해석할 수 있다. 또는 양 팀의 xG값이 같더라도 더 적은 슈팅으로 xG를 쌓은 팀이 승률이 높다는 뜻으로 받아들일 수 있다.
[1] 운이 좋았다는 뜻으로도 해석한다. [2] 운이 나빴다는 뜻으로도 해석한다. [3] A가 이기면 B가 지게 되므로, [math(w)]는 B가 진 비율이기도 하다. [4] A가 비기면 B도 비기게 되므로, [math(d)]는 B가 비긴 비율이기도 하다. [5] A가 지면 B가 이기게 되므로, [math(l)]는 B가 이긴 비율이기도 하다. [6] 다만 10000번 이상의 시뮬레이션 수행했음에도 당연히 오차가 생기지만 아무 문제는 없다.