이번 글에서는, 인과관계 (Causation)의 개념을 구체화하고자 합니다.
일반적으로 경제학/예방의학 등의 학문에서는 ceterius paribus ('다른 모든 조건이 동일할 때' 를 뜻하는 라틴어) 라는 널리 사용되는 가정이 있습니다. $X,Y$ 두 변수 사이의 관계를 설명할 때, 제 3의 변수 ($Z$) 가 개입하여 $(X,Y)$ 사이의 관계를 혼동시키는 것을 막기 위해서, 다른 모든 조건 (i.e., $Z$)이 동일할 때, $X$가 변하면 $Y$가 어떻게 변하는지 설명하기 위한 조건입니다. 위의 예시에 이 조건을 적용하면 ‘연령’ 이라는 제 3의 변수가 (운동, 콜레스테롤) 의 관계를 혼동시키고 있는 것을 알 수 있습니다. 이를 막기 위해서 우리는 ‘다른 모든 조건 (i.e., 연령) 가 동일할 때’ 운동과 콜레스테롤의 관계를 보아야 합니다.
Ceterius Paribus 를 수학적 개념으로 정의하고 이론으로 발전시킨 사람은 Donald Rudin (https://en.wikipedia.org/wiki/Donald_Rubin) 입니다. $X,Y$ 가 각각 관심있는 원인, 결과에 해당하는 변수일 때, Rudin 은 다른 모든 조건이 동일할 때, $X=x$ 일 때 확률변수 $Y$ 을 표현하기 위해 $Y_x$ 라는 변수를 도입했습니다.
이 새로운 변수 $Y_x$ 는 처음에는 상당히 생소하고 이질적으로 보일 것입니다. 구체적으로, $X=x$ 가 주어져있을 때 확률변수 $Y$ (즉, $Y\vert x$) 와 무엇이 다른지 언뜻 구분이 가지 않을 것입니다. 따라서, $Y_x$ 와 $Y \vert x$ 를 명징히 구분해 보겠습니다. 논의를 실제 예시와 연관지어 진행하기 위해서, 이 글에서는 $X=1$ 은 운동을 함 / $X=0$ 은 운동을 안함이라고 정의하겠습니다. 또한, $Y$ 는 콜레스테롤 수치라고 가정하겠습니다. 우리가 수집한 환자집단을 $\Pi$ 라고 적겠습니다.