Skip to content

Instantly share code, notes, and snippets.

@yonghanjung
Last active July 11, 2019 17:11
Show Gist options
  • Save yonghanjung/9a1b4b2e54d53251f880e65b4388aecb to your computer and use it in GitHub Desktop.
Save yonghanjung/9a1b4b2e54d53251f880e65b4388aecb to your computer and use it in GitHub Desktop.

2. 인과관계란?

이번 글에서는, 인과관계 (Causation)의 개념을 구체화하고자 합니다.

일반적으로 경제학/예방의학 등의 학문에서는 ceterius paribus ('다른 모든 조건이 동일할 때' 를 뜻하는 라틴어) 라는 널리 사용되는 가정이 있습니다. $X,Y$ 두 변수 사이의 관계를 설명할 때, 제 3의 변수 ($Z$) 가 개입하여 $(X,Y)$ 사이의 관계를 혼동시키는 것을 막기 위해서, 다른 모든 조건 (i.e., $Z$)이 동일할 때, $X$가 변하면 $Y$가 어떻게 변하는지 설명하기 위한 조건입니다. 위의 예시에 이 조건을 적용하면 ‘연령’ 이라는 제 3의 변수가 (운동, 콜레스테롤) 의 관계를 혼동시키고 있는 것을 알 수 있습니다. 이를 막기 위해서 우리는 ‘다른 모든 조건 (i.e., 연령) 가 동일할 때’ 운동과 콜레스테롤의 관계를 보아야 합니다.

Ceterius Paribus 를 수학적 개념으로 정의하고 이론으로 발전시킨 사람은 Donald Rudin (https://en.wikipedia.org/wiki/Donald_Rubin) 입니다. $X,Y$ 가 각각 관심있는 원인, 결과에 해당하는 변수일 때, Rudin 은 다른 모든 조건이 동일할 때, $X=x$ 일 때 확률변수 $Y$ 을 표현하기 위해 $Y_x$ 라는 변수를 도입했습니다.

이 새로운 변수 $Y_x$ 는 처음에는 상당히 생소하고 이질적으로 보일 것입니다. 구체적으로, $X=x$ 가 주어져있을 때 확률변수 $Y$ (즉, $Y\vert x$) 와 무엇이 다른지 언뜻 구분이 가지 않을 것입니다. 따라서, $Y_x$$Y \vert x$ 를 명징히 구분해 보겠습니다. 논의를 실제 예시와 연관지어 진행하기 위해서, 이 글에서는 $X=1$ 은 운동을 함 / $X=0$ 은 운동을 안함이라고 정의하겠습니다. 또한, $Y$ 는 콜레스테롤 수치라고 가정하겠습니다. 우리가 수집한 환자집단을 $\Pi$ 라고 적겠습니다.

그림

이와 같은 세팅에서 $\left(Y\vert X=0 \right) - \left(Y \vert X=1\right)$ 은 환자집단 $\Pi$ 를 '운동을 하는 부분집합' $\Pi_{X=1}$ 과 '운동을 하지 않는 부분집합' $\Pi_{X=0}$ 로 구분하고, 각 부분집합의 $Y$ 확률변수의 차이를 뜻합니다. 한편, $\left(Y\vert X=0 \right) - \left(Y \vert X=1\right)$ 는 '다른 모든 조건이 동일할 때' 운동으로 인한 콜레스테롤의 차이 $Y_{X=1} - Y_{X=0}$ 과 일반적으로 같지 않습니다. 부분집합 $\Pi_{X=1}$$\Pi_{X=0}$ 의 환자집단들이 '다른 모든 조건이 동일할 때' 를 꼭 만족하리라는 법은 없기 때문이죠.

이렇게 생각해보면 어떨까요? 우리가 가진 환자집단 $\Pi$ 의 모든 환자들이 운동을 한다고 가정하죠. 이러한 새로운 가상의 모집단을 $\Pi^{X=1}$ 이라고 하겠습니다. 마찬가지로, 모든 환자들이 운동을 안하는 가상의 모집단을 $\Pi^{X=0}$ 이라고 적겠습니다. 즉, $\Pi_{X=1}$$\Pi_{X=0}$ 두 집단의 유일한 차이는 환자들이 운동을 하느냐/마느냐 입니다. 따라서, 이 가상의 모집단에서의 확률변수 $Y$ 의 차이는 '다른 모든 조건이 동일할 때' 를 만족합니다. 바로 이렇게, '부분집합 단위에서 정의되느냐, 모집단 단위에서 정의되느냐' 의 차이가 $Y \vert x$$Y_x$의 차이입니다. 정리하면 이렇습니다.

  • $Y \vert x$
  • $Y_x$

Rudin 은 $Y_x$ 에 관련된 이론을 전개함에 있어서, 통계학에서 missing data 를 분석하는 방법론을 활용하였습니다. 왜냐하면, $Y_x$ 는 missing data analysis 와 밀접한 관계가 있기 때문입니다.

재미있는 성질을 하나 소개해보겠습니다. 만일 우리가 관심있는 모집단을 축소시키면 어떨까요? 예를 들어서, 환자집단 $\Pi$ 에서 운동을 하는 환자들 $\Pi_{X=1}$ 만 남겼다고 가정해보겠습니다. 이 축소된 모집단에서 확률변수 $Y$$Y \vert X=1$ 일 것입니다. 그리고 당연하게도 이 축소된 모집단 $\Pi_{X=1}$ 은 곧 '모든 환자들이 운동을 하는' 모집단 $\Pi^{X=1}_{X=1}$ 과 같을 것입니다. 왜냐하면 애초에 축소된 모집단에서는 모든 환자들이 운동을 하기 때문입니다. 즉, '축소된 모집단에서 모든 환자들이 운동을 하는'

$$Y$$

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment