Skip to content

Instantly share code, notes, and snippets.

@hyunjun

hyunjun/etc.md Secret

Last active November 16, 2018 07:01
Show Gist options
  • Save hyunjun/248eb9072f307ab4109f2b872674708b to your computer and use it in GitHub Desktop.
Save hyunjun/248eb9072f307ab4109f2b872674708b to your computer and use it in GitHub Desktop.
조건부 확률
  • 통계적으로 유의미한 차이 vs 현실적으로 유의미한 차이

    거의 뻘소리에 가까운 글입니다.
    대단한 이야기를 하려는 것이 아니기에, 서두는 치우고, 바로 본론으로 들어가겠습니다.
    
    "이상의 연구에 따르면, 양 집단 간에는 통계적으로 유의미한 차이가 있다고 볼 수 있습니다"
    
    라는 말을 받아들을 때에는 상당히 조심해야 합니다. 왜냐하면 저 말이 "현실적으로 유의미한 차이가 있다" 라는 뜻이 아니기 때문이죠.
    어떤 동전을 100,000 번 던졌더니 앞면이 50,100 번 나왔다고 칩시다. 이 동전은 앞뒤가 나올 확률이 50-50 인 동전일까요 아닐까요?
    
    이런 질문에 대한 답변을 하기 위해서 만든 개념이 p-value 입니다. 앞뒤가 나올 확률이 50-50 인 동전을 100,000 번 던졌을 때, 앞면이 50,100 번 이상 나올 확률을 계산해보면 대충 2.3% 정도가 됩니다. 이 2.3% 를 우리는 p-value 라고 부릅니다. 즉 p-value 란,
    "테스트 대상 집단에 아무런 바이어스가 없을 경우에, 우연에 의해 해당 바이어스가 일어날 확률"
    을 뜻합니다. 보통 사회과학자들이 통계를 해석할 때 p-value 가 5% 아래라면 해당 테스트 대상 집단에 바이어스가 있다고 결론을 내린다고 합니다. 즉, 위에서 예로 든 동전은 50-50 의 동전이 아닐 확률이 훨씬 더 높다는 거지요. 주어진 자료만 가지고 결론을 내려야 한다면 해당 동전은 50.1% - 49.9% 정도로 기울어진 동전일 겁니다. 즉, 50,100 와 49,900 사이에는 통계적으로 유의미한 차이가 있습니다.
    근데 그런 동전이라고 해서 우리가 점심 내기용으로 사용하기에는 아무런 부족함이 없지요. 즉, 해당 동전의 바이어스는 "통계적으로는 유의미" 하지만, "현실적으로는 무의미" 합니다.
    해서, 어떤 논문에 사용된 문구가 "양 집단 간에는 통계적으로 유의미한 차이가 있다" 라는 식이라면, 접할 때 어느 정도는 의구심을 가지고 접근해야하는 것 같습니다.
    
    --
    본인이 가진 정치 성향에 따라서 사람들이 동일한 삼단논법에 대해서 정/부 판정을 내릴 때 "통계적으로 유의미한 차이가 있다" 라는 논문이 있더라고요. 아니 정말? 이라는 생각이 들어서 읽어봤더니, 71% vs 68% 의 차이가 난 것이고, 그 작은 차이가 모집단의 사이즈를 고려해볼 때 "통계적으로 유의미한 차이가 있다" 라는 소리더군요. 해서 급분노한 김에 글을 써봅니다.
    
  • 자동차 판매원 중 우수 집단과 보통 집단이 있음. 우수 집단은 전체 판매원의 20%, 보통 집단은 80%에 해당
    • 우수 집단이 1년에 판매할 수 있는 차의 대수를 나타내는 확률변수는 X, 보통 집단이 판매할 수 있는 차의 대수를 나타내는 확률변수는 Y임. 확률변수 표는 다음과 같음.

      X 0대 1대 2대 3대 이상 
      p 0.05 0.15 0.2 0.6
      
      Y 0대 1대 2대 3대 이상
      p 0.1 0.2 0.25 0.45
      
    • 어느 자동차 판매원이 한 해동안 자동차 2대만을 판매했음. 이 판매원이 다음 해에는 자동차를 1대 이하만을 판매할 확률은?

  • 어느 산악회 전체 회원의 60%가 남성. 이 산악회에서 남성의 50%가 기혼이고 여성의 40%가 기혼이다
    • 이 산악회의 회원 중에서 임의로 뽑은 한 명이 기혼일 때 이 회원이 여성일 확률은?
  • 사원이 100명있다고 가정하면 20명은 우수사원 80명은 보통사원
    • 20명중에 2대만 판 사람은 4명(20%니까), 80명중에 2대만 판 사람은 20명(25%니까)
    • 2대만 판 사람은 이 24명중에 한명
    • 이 2대만 팔았다는 사람은 4/24확률로 우수사원일 수도, 20/24확률로 일반사원일 수도 있음
    • 따라서 4/24 * (0.05+0.15) = 1/30
    • 20/24 * (0.1+0.2) = 1/4
    • 1/30 + 1/4 = 17/60
  • 전체 회원의 수가 a라면 남자는 6a/10 이고 여자는 4a/10
    • 여기서 기혼과 미혼을 나누면 남자 기혼은 3a/10, 남자미혼 3a/10, 여자기혼 (4a/10) * (4/10) 여자미혼 (4a/10) * (6/10)
    • 구하는 확률은 전체 기혼자중에 여자 기혼자의 비율
    • (16/100) / (3/10 + 16/100)이 되어 16/46, 즉, 8/23
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment