open:think-bayes

Think Bayes

일반적으로 다음 단계를 밟는 프로세스를 권장한다.

  1. 문제를 탐색할 때 간단한 모델을 사용하여 이를 명확하고, 읽기 쉽고, 확실히 맞는 코드로 구현하는 것부터 시작하라. 모델 최적화가 아닌, 좋은 모델을 선택하는 것에 초점을 맞춰라.
  2. 단순한 모델이 일단 동작하면, 오류의 가장 큰 원인을 정의하라. 이산적 추정 값의 수를 늘리거나, 몬테카를로 시뮬레이션 반복 횟수를 증가하거나, 모델의 세부 사항을 추가해야 할 수도 있다.
  3. 도출한 해답의 성능이 어플리케이션을 사용하는 데 충분히 좋다면 더 이상 어떤 최적화도 할 필요가 없다. 하지만 만약 최적화를 해야 한다면 두 가지 사항을 고려해야 한다. 예를 들어 이전에 계산한 결과를 저장하여 중복 계산을 피하고 싶다면 코드를 검토하고 최적화 항목을 찾아볼 수 있다. 혹은 계산을 단축할 수 있는 분석 방법을 찾아볼 수도 있다.
  • 확률 질량 함수 Probability mass function : PFM
  • 누적 분포 함수 cumulative distribution function : CDF

추천책 : Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법(한빛미디어, 2013)

1. 베이즈 이론

베이지안 통계에 깔린 기본 개념이 바로 베이즈 이론이다.

  • 조건부 확률
  • 베이즈 이론
  • 베이지안 통계

조건부 확률의 일반적 표기법은 $p(A|B)$로 이는 B라는 조건이 주어졌을 때의 A가 참일 확률이라는 뜻이다.

데이터 D의 관점에서 봤을 때 가설 H의 확률을 수정해준다.

통시적diachronic 은 무언가가 시간에 따라 일어나는 것으로 이 경우 가설에 대한 확률이 시간에 따라 새로운 데이터를 접하게 되면서 달라진다는 뜻이다.

$$ p(H|D) = \frac{p(H)p(D|H)}{p(D)} $$

  • $p(H)$는 데이터를 보기 전의 가설의 확률로, 사전 확률이라고 한다.
  • $p(H|D)$는 여기서 계산하고자 하는 데이터를 확인한 이후의 가설 확률로, 사후 확률이라고 한다.
  • $p(D|H)$는 데이터가 가설에 포함될 확률로, 우도(가능도)라고 한다.
  • $p(D)$는 어떤 가설에든 포함되는 데이터의 비율로, 한정 상수라고 한다.

보통은 다음 가정 집합을 단순화하여 정의한다.

  • 상호 배제 : 집합 중 하나의 가설만 참일 경우
  • 전체 포괄 : 다른 가능성이 전혀 없는 경우. 단 하나의 가설이라도 참일 경우

이런 성격의 가설 집합을 스윗suite 이라고 하겠다.

조건부 확률을 포함하는 많은 문제에서, 베이즈 이론은 분할-정보(divide-and-conquer) 전략을 제시해 준다. 만약 p(A|B)를 계산하기 어렵거나 실험적으로 측정하기 어렵다면 베이즈 이론의 다른 계수인 p(B|A), p(A), p(B)를 계산하는 것이 더 쉬운지 확인해보자.

몬티 홀 문제를 재미있게 풀었다면 <당신의 모든 베이즈 문제를 우리가 가지고 있다. All your Bayes are belong to us 에 비슷한 여러 문제를 모아 놓았으니 읽어보길 바란다.

2. 계산 통계

통계에서 분포는 어떤 값과 그 값이 나타날 확률의 집합이다.

3. 추정 1

4. 추정 2

5. 공산과 가산

6. 의사 결정 분석

7. 예측

통계학에서, 프로세스는 물리 시스템에 대한 추계 모델이다.

추계(stochastic) 란 모델에 몇 가지 임의성을 포함된다는 뜻이다.

베르누이 프로세스(Bernoulli process)는 시도라는 사건의 나열로 이루어진 모델인데,

이 때 각 시도는 성공과 실패 같은 두 가지 결과가 나올 수 있다.

따라서 베르누이 프로세스는 연속적으로 동전 던지기나 골에 공을 넣는 것에 대한 자연적 모델이다.

포아송 프로세스는 베르누이 프로세스의 연속형으로 사건이 어떤 시점에서든 동일한 확률로 발생할 수 있는 형태다.

포아송 프로세스는 가게에 손님이 도착하는 것, 버스 정류장에 버스가 도착하는 것, 하키 게임에서 골이 성공하는 것 같은 모델에 사용될 수 있다.

8. 관측 편향

9. 두 차원

  • 결합 분포(Joint Distribution): 다차원 공간에서 각 가능한 값과 이 값에 대한 확률을 나타내는 분포
  • 주변 분포(Marginal Distribution): 다른 변수를 모르는 상태로 둘 때 결합 분포 안에 있는 한 변수의 분포
  • 조건 분포(Conditional distribution): 결합 분포 내에서 한 개 이상의 다른 변수의 상태에 따른 다른 한 변수의 분포

10. 근사 베이지안 계산

11. 가설 검증

12. 증거

13. 시뮬레이션

14. 계층 모델

15. 차원 다루기

  • 베이지안 사고: 베이지안 분석의 기본은 불확실한 믿음을 확률 분포를 사용해서 표현하고, 데이터를 사용해서 이 분포를 갱신하고, 결과를 통해서 예측을 하고 의사를 결정한다는 개념이다.
  • 계산적 접근: 이 책에서는 수학보다는 컴퓨터 계산을 사용해서 베이지안 분석을 이해하는 것이 더 쉽고, 베이지안 방법을 재사용 가능한 빌딩 블럭을 통해 구현해서 실제 문제를 빠르게 풀 수 있도록 재배열하도록 하는게 더 쉽다는 것이다.
  • 반복적 모델링: 대부분의 실제 문제에서는 모델링을 결정해야 하고 실제에 가깝게 구현하는 것과 복잡성 사이의 교확이 필요하다. 어떤 팩터가 모델에 포함되어야 하는지, 어떤 팩터는 무시할 수 있는지 에상하는 것은 불가능한 경우가 많다. 가장 좋은 방법은 간단한 모데에서부터 시작해서 복잡도를 서서히 증가시키면서, 각 모델이 서로 다른 모델들을 검증하게 하는 식으로 반복하는 것이다.

  • open/think-bayes.txt
  • 마지막으로 수정됨: 2020/06/02 09:25
  • 저자 127.0.0.1