정답은 1번입니다.
지니 지수는 데이터 집합의 불순도를 나타내는 지표입니다. 지니 지수 값이 낮을수록 분할된 데이터가 순수하고, 이는 의사결정나무 모델에서 더 좋은 분할로 평가됩니다. 지니 지수는 \(Gini = 1 - \sum_{i} p_i^2\) 공식으로 계산하며, 여기서 \(p_i\)는 특정 클래스(i)의 비율입니다. 분할된 지니 지수는 각 서브셋의 지니 지수를 가중 평균하여 계산합니다.
1. 속성 A 분할 계산
• 첫 번째 서브셋: 긍정 25개, 부정 5개 (총 30개)
- 긍정 비율: 25/30, 부정 비율: 5/30
- 지니 지수:
수식이 가로 폭을 초과할 경우, 수식 중간에서 줄바꿈이 되도록 CSS를 개선했습니다.
문장 속 짧은 인라인 수식은 중간에서 줄바꿈되지 않고, 수식 전체가 다음 줄로 이동합니다.
하지만 인라인 수식이라도 가로 폭보다 길면, 수식 중간에서 줄바꿈이 일어납니다.
\[Gini_{A1} = 1 - \left( \left(\tfrac{25}{30}\right)^2 + \left(\tfrac{5}{30}\right)^2 \right)
= 1 - \left( \tfrac{625}{900} + \tfrac{25}{900} \right)
= 1 - \tfrac{650}{900} \approx 0.278\]
\(Gini_{A1} = 1 - \left( \left(\tfrac{25}{30}\right)^2 + \left(\tfrac{5}{30}\right)^2 \right)
= 1 - \left( \tfrac{625}{900} + \tfrac{25}{900} \right)
= 1 - \tfrac{650}{900} \approx 0.278\)
$$Gini_{A1} = 1 - \left( \left(\tfrac{25}{30}\right)^2 + \left(\tfrac{5}{30}\right)^2 \right)
= 1 - \left( \tfrac{625}{900} + \tfrac{25}{900} \right)
= 1 - \tfrac{650}{900} \approx 0.278$$
\\ 로 수식 줄바꿈을 하려면, aligned, gathered, array 환경을 사용해야 합니다.
※주의※ \[ ... \] 코드는 한줄로 입력합니다.
\begin{aligned} ... \end{aligned} 환경
수식 중심, 줄바꿈과 정렬에 최적화
& 기호를 붙여 나누면 우정렬, 좌정렬, .. 할 수 있다.
대체로 등호 앞에 붙여 정렬한다. (& =)
\[
\begin{aligned}
Gini_{A1} & = 1 - \left( \left(\tfrac{25}{30}\right)^2 + \left(\tfrac{5}{30}\right)^2 \right)\\
& = 1 - \left( \tfrac{625}{900} + \tfrac{25}{900} \right)\\
& = 1 - \tfrac{650}{900} \approx 0.278
\end{aligned}
\]
\[
\begin{aligned}
Gini_{A1} & = 1 - \left( \left(\tfrac{25}{30}\right)^2 + \left(\tfrac{5}{30}\right)^2 \right)\\
& = 1 - \left( \tfrac{625}{900} + \tfrac{25}{900} \right)\\
& = 1 - \tfrac{650}{900} \approx 0.278
\end{aligned}
\]
\begin{gathered} ... \end{gathered} 환경
줄바꿈만 필요할 때
\[
\begin{gathered}
Gini_{A1} = 1 - \left( \left(\tfrac{25}{30}\right)^2 + \left(\tfrac{5}{30}\right)^2 \right)\\
= 1 - \left( \tfrac{625}{900} + \tfrac{25}{900} \right)\\
= 1 - \tfrac{650}{900} \approx 0.278
\end{gathered}
\]
\[
\begin{gathered}
Gini_{A1} = 1 - \left( \left(\tfrac{25}{30}\right)^2 + \left(\tfrac{5}{30}\right)^2 \right)\\
= 1 - \left( \tfrac{625}{900} + \tfrac{25}{900} \right)\\
= 1 - \tfrac{650}{900} \approx 0.278
\end{gathered}
\]
\begin{array}{rcl} ... \end{array} 환경
테이블/행렬 느낌, 수식들을 표처럼 정렬
& 기호를 수식 등호 앞 뒤에 붙여 정렬한다. (& = & )
{array} 뒤의 {rcl} 는 정렬 방식 지정값으로
첫 열(좌변)은 right, 두 번째 열(등호)은 center, 세 번째 열(우변)은 left 정렬
\[
\begin{array}{rcl}
Gini_{A1} & = & 1 - \left( \left(\tfrac{25}{30}\right)^2 + \left(\tfrac{5}{30}\right)^2 \right)\\
& = & 1 - \left( \tfrac{625}{900} + \tfrac{25}{900} \right)\\
& = & 1 - \tfrac{650}{900} \approx 0.278
\end{array}
\]
\[
\begin{array}{rcl}
Gini_{A1} & = & 1 - \left( \left(\tfrac{25}{30}\right)^2 + \left(\tfrac{5}{30}\right)^2 \right)\\
& = & 1 - \left( \tfrac{625}{900} + \tfrac{25}{900} \right)\\
& = & 1 - \tfrac{650}{900} \approx 0.278
\end{array}
\]
\\[6.875pt] 또는 \\[1em]
줄 간격 조정하려면
\\ 뒤에 [값]을 붙인다.
이 화면에서 확인해보니 [6.875pt] 와 [1em] 줄간격이 비슷함.
\[
\begin{array}{rcl}
Gini_{A1} & = & 1 - \left( \left(\tfrac{25}{30}\right)^2 + \left(\tfrac{5}{30}\right)^2 \right)\\[6.875pt]
& = & 1 - \left( \tfrac{625}{900} + \tfrac{25}{900} \right)\\[1em]
& = & 1 - \tfrac{650}{900} \approx 0.278
\end{array}
\]
\[
\begin{array}{rcl}
Gini_{A1} & = & 1 - \left( \left(\tfrac{25}{30}\right)^2 + \left(\tfrac{5}{30}\right)^2 \right)\\[6.875pt]
& = & 1 - \left( \tfrac{625}{900} + \tfrac{25}{900} \right)\\[1em]
& = & 1 - \tfrac{650}{900} \approx 0.278
\end{array}
\]
아래는 수식 라인별로 \[ ... \] 로 감싸서 줄바꿈을 하였으나,
글작성 시 자동으로 줄바꿈 br 태그가 생성되어 줄 간격이 너무 벌어졌다.
\[ ... \] 로 줄바꿈 하는 방법은 권장하지 않는다.
( 줄 간격 개선 위해, br 태그 감추도록 CSS 보완하였음! )
• 두 번째 서브셋: 긍정 5개, 부정 25개 (총 30개)
- 긍정 비율: 5/30, 부정 비율: 25/30
- 지니 지수:
\[Gini_{A2} = 1 - \left( \left(\tfrac{5}{30}\right)^2 + \left(\tfrac{25}{30}\right)^2 \right) \]
\[= 1 - \left( \tfrac{25}{900} + \tfrac{625}{900} \right) \]
\[= 1 - \tfrac{650}{900} \approx 0.278\]
▶ 가중 평균 지니 지수:
\[Gini(A) = \frac{30}{60} \times 0.278 + \frac{30}{60} \times 0.278\]
\[= 0.5 \times 0.278 + 0.5 \times 0.278 \]
\[= 0.278\]
2. 속성 B 분할 계산
• 첫 번째 서브셋: 긍정 20개, 부정 10개 (총 30개)
- 긍정 비율: 20/30, 부정 비율: 10/30
- 지니 지수:
\[Gini_{B1} = 1 - \left( \left(\tfrac{20}{30}\right)^2 + \left(\tfrac{10}{30}\right)^2 \right)\]
\[= 1 - \left( \tfrac{400}{900} + \tfrac{100}{900} \right)\]
\[= 1 - \tfrac{500}{900} \approx 0.444\]
• 두 번째 서브셋: 긍정 10개, 부정 20개 (총 30개)
- 긍정 비율: 10/30, 부정 비율: 20/30
- 지니 지수:
\[Gini_{B2} = 1 - \left( \left(\tfrac{10}{30}\right)^2 + \left(\tfrac{20}{30}\right)^2 \right)\]
\[= 1 - \left( \tfrac{100}{900} + \tfrac{400}{900} \right)\]
\[= 1 - \tfrac{500}{900} \approx 0.444\]
▶ 가중 평균 지니 지수:
\[Gini(B) = \frac{30}{60} \times 0.444 + \frac{30}{60} \times 0.444\]
\[= 0.5 \times 0.444 + 0.5 \times 0.444\]
\[= 0.444\]
1. 속성 A 분할이 더 좋다
: 속성 A의 지니 지수는 약 0.278이고, 속성 B의 지니 지수는 약 0.444입니다. 지니 지수는 불순도를 나타내므로 값이 낮을수록 더 순수한 분할이며, 이는 더 좋은 분할을 의미합니다. 속성 A의 지니 지수가 속성 B보다 낮기 때문에 속성 A의 분할이 더 좋다고 볼 수 있습니다.
2. 속성 B 분할이 더 좋다
: 속성 B의 지니 지수는 속성 A보다 높습니다. 따라서 더 불순한 분할이며, 지니 지수 기준으로는 속성 A보다 좋지 않은 분할입니다.
3. 두 속성은 동일한 지니 지수를 가진다
: 두 속성의 지니 지수를 비교하면, 속성 A의 가중 평균 지니 지수는 0.278이고, 속성 B의 가중 평균 지니 지수는 0.444입니다. 따라서 두 속성은 동일한 지니 지수를 가지지 않습니다. 속성 A의 분할이 더 나은 결과를 제공합니다.
4. 지니 지수로는 판단할 수 없다
: 지니 지수는 분류 문제에서 데이터의 분할 성능을 평가하는 데 사용되는 대표적인 척도입니다. 계산을 통해 두 속성의 지니 지수를 명확히 비교할 수 있으므로, 판단할 수 없다는 설명은 틀렸습니다.
속성 A의 분할은 가중 평균 지니 지수가 0.278로, 속성 B의 0.444보다 낮습니다. 이는 속성 A의 분할이 데이터의 불확실성을 더 많이 줄였음을 의미합니다. 따라서 지니 지수 기준으로 속성 A의 분할이 더 좋은 분할입니다.
따라서, 정답은 '1. 속성 A 분할이 더 좋다' 입니다.