Notice
Recent Posts
Recent Comments
Link
«   2025/03   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
Archives
Today
Total
관리 메뉴

행복의 히읗

🧑‍🏫 통제집단합성법(Synthetic Control Method, SCM) 본문

카테고리 없음

🧑‍🏫 통제집단합성법(Synthetic Control Method, SCM)

정히읗_ 2024. 11. 24. 19:22

Flowchart for Causal Inference

 

통제집단합성법(Synthetic Control Method, SCM)의 컨셉
  1. 여러 대조군의 ‘처치 전’ 데이터에 가중치를 조합해서 실험군과 유사한 가상 대조군(synthetic control)을 만든다
  2. 위 가중치를 그대로 이용*해서 실험군이 처치를 받지 않았을 경우의 ‘반사실(counterfactual)’ 케이스를 추정
    *위 대조군의 ‘처치 후’ 데이터에 가중치를 그대로 조합
  3. 처치 후 기간의 실험군 결과값과 가상 대조군에서 추정한 결과값(=counterfactual) 차이를 비교하여 처치 효과 추정
이중차분법(DID)과의 공통점과 차이점

— 공통점
  • Random assignment와 비슷한 T/C 구조 필요
  • 처리 전/후를 모두 관측할 수 있는 경우에 사용 가능
— 차이점
  • DID는 기간(T)보다 많은 실험 대상(N)이 있으면 잘 작동하지만 적은 수의 실험 대상이 있다면 잘 작동하지 않을 수 있음 → SCM은 잘 작동함
    • DID는 실험 그룹과 통제 그룹 간의 평균 차이를 비교
      → 통계적으로 유의미한 결과를 얻기 위해 충분한 수의 관찰값(표본 수)이 필요함
  • DID는 컨셉 자체가 대조군과 실험군의 trend가 평행해야함(parallel trend assumption)
    • 각 T/C의 단순 평균 사용
    • 처치 전에 평행 가정이 성립하지 않으면 적용하기 어렵다
    → SCM은 대조군에 가중 평균를 사용해서 가상 대조군을 만들어서 target unit과 처치 전 기준 유사한 추세를 만듦

 

 

온라인 마케팅 데이터셋
  • 광고를 하지 않았어도 어차피 다운로드했을 유저를 제외한 순수 광고 효과를 알고 싶다!
    — 대도시 Sao Paulo(상파울루)의 앱 다운로드 수를 시장 규모에 따라 정규화
    → 일별 다운로드 비율(앱 다운로드 수 / 인구 수) = Y

 

ATT를 추정하려면 먼저 반사실을 추정하고 이를 관측된 결과와 비교해야 함

$$ ATT = E[Y|D=1, Post=1]-E[Y_0|D=1,Post=1] $$

* D: 처치변수

* Post: 개입 이후 여부(1이면 개입 이후)

  • $E[Y|D=1,Post=1]$ : 관측된 값
  • $E[Y_0|D=1,Post=1]$ : 반사실(추정 필요)
행렬 표현

$ATT = Y(1){post, tr} - Y(0){post, tr}$ 추정 ⇒ $Y(0)_{post,tr}$ 추정 필요

 

 

통제집단합성법과 수평 회귀분석

 

 

처치 이전 기간 동안의 가상 대조군 데이터가 실험군의 결과를 잘 근사하는 가중치 찾기 ⇒ 최적화 문제

  • 각 실험 대상 결과에 가중치($w_i$)를 곱한 값이 실험 군의 결과와 비슷해지는 $w_i$ 찾기 (=차이가 0에 가까운 $w_i$ 찾기)

 

>> SCM과 선형 회귀의 목표가 같다?!

대조군의 결과를 특성($X_i$)으로 사용해서 실험군의 평균 결과($Y$)를 예측하는 회귀

  1. 처치 전 데이터를 X로 활용한 회귀 분석으로 처치 전의 $E[Y_0|D=1]$ 추정
  2. 추정된 회귀 계수 = 각 대조군의 가중치
  3. 위 가중치를 활용해서 처치 전/후 전체의 $E[Y_0|D=1]$ 예측

선형 회귀를 활용한 SCM 결과 (1)

  • 처치 전 기간 동안에는 유사했던 그래프가 처치 이후 차이 발생
    → 실험군이 더 높음 = 긍정적인 효과 확인

선형 회귀를 활용한 SCM 결과 (2)

  • 앗! 처치 전 ATT(OLS 모델의 잔차)가 너무 작다면 OLS 모델이 과적합되었을 수 있음
    → 반사실을 추정할 때 사용하는 표본 외의 예측이 잘못되었을 수 있음

⇒  결론: 단순 회귀 분석 활용 멈춰!🤚

 

표준 통제 집단 합성법

 

가중치에 대한 제약 조건 (볼록성 제약 조건, convex hull condition)

  1. 가중치는 모두 양수여야 한다
  2. 가중치의 합은 1이어야 한다

  • 가상 대조군을 구성하는 데 있어서 기존 대조군의 interpolation만 허용(convex hull 공간 안에만 존재하도록 만듦)
     만약 extrapolation을 허용하게 되면, overfitting 문제 발생할 수 있음

  • 가상 대조군를 구성하는 요소에 대한 해석이 굉장히 모호해짐

“독일의 통일이 서독의 경제 성장에 미친 영향” — (제약 조건 o) Synthetic control은 각각의 국가가 어떤 이유로 가중치가 주어졌는지 해석할 수 있지만, — 제약 조건 없이 일반 회귀로 만든 control은 설명이 어려운 값들이 존재

 

표준 통제 집단 합성법을 사용한 SCM 결과

  • 정규화 전보다 학습(처치 전) 오차는 약간 커졌지만 ATT는 잡음이 줄어듦

 

통제집단합성법과 공변량

 

일반적으로 통제집단합성법은 대조군의 처치 전 결과를 특성으로 사용(이건 필수!)해서 $\overline{Y_{tr}}$ 을 예측함

  • 단, 결과값에 중요한 영향을 미친다고 판단되는 공변량은 명시적으로 고려해서 모델에 추가할 수 있음(이건 선택!)
    → 공변량을 포함하면 가상 대조군을 추정할 때 bias의 bound를 좁힐 수 있음*
    *bias의 bound를 좁힐 수 있음: pre-treatment period는 길수록 SC prediction accuracy를 높일수있지만, 요소간 구조/배경적 변화가 있을 수 있어 trade-off임

공변량을 포함하여 가상 대조군 추정하기

  1. 가중치($w_i$)를 $y_{co}$와 공변량 $x_{co}$에 모두 적용해서 $\overline{Y_{tr}}$ 를 근사하는 가상 대조군 생성
    1. 단, $x_{co}$, $y_{co}$가 완전히 다른 단위를 가질 수 있고, 그에 따라 특정 공변량이 결과 변수에 더 큰 영향을 미칠 수 있음
  2. 1-a를 해결하기 위해 $y$를 포함한 각 공변량에 척도 인자($v$)*를 곱해서 척도를 맞춰줌
    *공변량의 척도(크기/단위)를 조정해서 결과 변수와 같은 수준에서 비교할 수 있게 함
  3. $y$를 공변량 중 하나로 취급해서 공변량($X$)의 관점으로만 목적 함수를 재구성
  4. 아래의 목적 함수를 최적화 목적 함수로 다시 묶어서 최적의 척도 인자($v$) 찾기

목적함수

 

* 4. 최적의 척도 인자($v$) 찾기

  • 가상의 통제집단 만들기:
    - 처치집단(새로운 수학 교육 프로그램을 받은 학생들)과 비슷한 특성을 가진 여러 통제집단(프로그램을 받지 않은 학생들)의 데이터를 모아.
    - 각 통제집단에 가중치 w를 부여해서 가상의 통제집단을 만들어.
  • 최적의 v 찾기:
    - 공변량(가정환경, 학교 재정 상태, 교사의 경험 등)에 대해 각각 가중치 v를 부여해.
    - 이 가중치 v가 결과(학생 성적)에 얼마나 영향을 미치는지를 평가해.
    - 가상의 통제집단과 실제 처치집단 간의 차이를 최소화하는 v 값을 찾기 위해 최적화 목적 함수를 사용

  • 결과적으로 최종 결과가 공변량을 고려하지 않은 것과 크게 다르지 않을 수 있다
    → 가끔 매우 예측력있는 공변량을 찾을 수도 있다!

 

통제집단합성법과 편향 제거

 

처치 전의 $T_{pre}$ 수가 적으면 과적합이 발생하기 쉽기 때문에 통제집단합성법은 편향될 수 있다.

→ 실제로는 ATT=0 이지만, SCM ATT 추정 시뮬레이션 평균은 0이 아니다 → 편향

 

7장에서 배운 교차 예측(cross-fitting)을 이용해서 과적합 편향을 해결하면…

→ 아래 편향식을 기준으로 k개의 다른 ATT를 얻을 수 있고 이에 대한 평균인 최종 ATT 추정값을 얻을 수 있음

 

  • 일반적으로 편향 제거가 ATT 추정값을 약간 높임

편향이 제거된 ATT 분포

 

추론

SCM은 회귀처럼 SE나 p-value를 가지고 통계적 유의성을 판단하는 게 어렵다

 

편향 제거 과정을 통해 ATT 추정값 주위에 신뢰구간을 설정할 수 있음

  • 편향 제거 시, K개의 폴드와 처치 후 시점 하나 당 한 개의 ATT 추정값을 얻을 수 있음
    → 전체 ATT 추정값에 대한 신뢰구간을 구해보자!
    1. $\widehat{ATT}$ = 데이터프레임 행의 평균의 평균
    2. ATT에 기반한 표준오차 추정값(SE)
      $$ \hat{\sigma} = \sqrt{1 + \frac{\text{BlockSize} * K}{T_{\text{post}}}} * \sqrt{\frac{1}{K-1} \sum_{k=1}^{K} \left( \text{ATT}^k - \text{ATT} \right)} $$
      $$ \widehat{SE}=\hat{\sigma}/\sqrt{K} $$
    3. $H_o:ATT=0$ 하에서 자유도가 $K-1$인 t분포를 갖는 검정통계량 $\widehat{ATT} / \widehat{SE}$을 구할 수 있음
      → t분포를 이용해서 ATT의 신뢰구간을 구할 수 있음
      $$ \widehat{ATT} \pm t_{\alpha/2,K-1}\widehat{SE} = \widehat{ATT} \pm t_{\alpha/2,K-1}\widehat\sigma/\sqrt{K} $$
  • K(분모)가 클수록 더 좁은 신뢰 구간을 가짐
    • 단, 처치 전 기간이 짧은 경우 K값이 커지면, $1-\alpha$의 신뢰구간이 $1-\alpha$보다 더 낮은 확률로 실제 ATT를 포함함 = 신뢰구간이 ATT를 포함할 확률이 낮아짐
    • → K=3이 적당~ $T_0$가 N보다 더 크면 신뢰구간의 길이를 줄이기 위해 더 큰 K값을 시도해볼 수 있음

 

합성 이중차분법(Sythetic DID, SDID)

 

합성 이중차분법(Sythetic DID, SDID)의 컨셉

  1. Sythetic Control Method를 이용하여 가상 대조군 구성
  2. 이중차분법에서의 대조군으로 사용하여 처치 효과를 추정

 

1. 이중차분법

$$ Y_{it}=\alpha_i+\delta_t+\beta D_{it}+\epsilon_{it} $$

  • $Y_{it}$: 단위 i의 시간 t에서의 결과 변수
  • $\alpha_i$: 단위 고정 효과
  • $\delta_t$: 시간 고정 효과
  • $D_{it}$: 단위 i가 시간 t에 처치를 받았는지 여부를 나타내는 이진 변수
  • $\beta$: 우리가 추정하고자 하는 처치 효과(ATT)
  • $\epsilon_{it}$: 오차항

2. 합성통제법

$$ Y_{synthetic,t}=∑_{j=1}^Jw_jY_{jt} $$

  • $Y_{synthetic,t}$: 합성 통제집단의 결과 변수
  • $w_j$: 통제집단 j의 가중치
  • $Y_{jt}$: 통제집단 j의 시간 t에서의 결과 변수

 

⇒ 합성 이중 차분법 (Synthetic Difference-in-Differences, SDID)

  1. 사전 기간 합성 통제집단 구성:
    • 처치가 발생하기 전의 데이터를 사용하여 합성 통제집단 구성
    • 사전 기간의 결과 변수 $Y_{it}$와 공변량 $X_i$를 사용하여 가중치 $w_j$ 추정
    $$ Y_{synthetic,t}=∑_{j=1}^Jw_jY_{jt} $$
  2. 이중 차분법 적용:
    • 사전 기간의 합성 통제집단과 처치집단의 결과 변수 차이 계산
    • 사후 기간의 합성 통제집단과 처치집단의 결과 변수 차이 계산
    • 이 두 차이의 차이를 사용하여 처치 효과 추정
    $$ DiD_{synthetic}=(\bar{Y}{treated, post}−\bar{Y}{synthetic, post})−(\bar{Y}{treated, pre}−\bar{Y}{synthetic, pre}) $$
  • $\bar{Y}_{treated, post}$: 처치 집단의 사후 평균 결과 변수
  • $\bar{Y}_{synthetic, post}$: 합성 통제집단의 사후 평균 결과 변수
  • $\bar{Y}_{treated, pre}$: 처치 집단의 사전 평균 결과 변수
  • $\bar{Y}_{synthetic, pre}$: 합성 통제집단의 사전 평균 결과 변수

 

합성 이중차분법이 흥미로운 이유

  1. $E[Y(0)_{ti}|D=1]$에 대한 가상의 대조군을 만들기 때문에 이중차분법에 필요한 평행 추세 가정이 훨씬 더 타당해짐
    1. DID나 SCM보다 편향이 더 낮은 경향을 보임
    2. 분산도 더 낮은 경향이 있음
  2. 이중차분법을 사용함으로써 통제집단합성법은 실험군의 추세를 파악하는 데 집중할 수 있음
    1. 실험군이 서로 다른 수준의 $Y_0$를 가질 수 있기 때문
- 시간 고정 효과 통제: DiD의 시간 고정 효과 통제 기능을 활용하여 시간에 따른 일반적인 변화를 제거
- 반사실 추정: SCM의 반사실 결과 추정 기능을 활용하여 보다 정교한 통제 집단을 구성합니다.
- 과적합 방지: SCM의 과적합 문제를 DiD의 시간 고정 효과 통제를 통해 완화할 수 있습니다.