[데이터사이언스] pgmpy를 사용한

백분율(개연성)

어떤 사건이 일어날 가능성의 척도를 그 사건의 확률이라고 하며 사건이 입력되면 확률값 출력 기능모두.

확률은 세 가지 규칙을 따라야 합니다.

하나) 각 이벤트에 대해 확률은 실수입니다. 0 또는 긍정적. $P(A) \leq 0$

2) 리허설 룸(전체 세트)~의 경우에(부분 집합)에 대한 확률입니다 하나오전. $P(\오메가) = 1$

삼) 공통 요소가 없는 두 사건의 결합 확률은 사건 확률의 합입니다.. $P(A \cup B) = P(A) + P(B) – PA \cap B)$

조건부 확률

사건 B에 대한 사건 A의 조건부 확률(조건부 확률) 다음과 같이 정의됩니다..

$ P(A|B) = \frac{P(A \cap B)}{P(B)}, P(B)>0 $

독립적인 (독립적인)

두 사건 A와 B가 서로 독립이라면, 정의하다.

$ P(A \캡 B) = P(A) \캡 P(B) $

$ P(B|A) = P(A), P(A|B) = P(B)$

확률 분포(확률 분포)

랜덤 변수는 값 범위가 샘플 공간에서 발생하는 요소이고 해당 실제 값이 범위인 함수입니다.

확률 분포는 범위에 해당하는 실제 값의 확률입니다.

확률질량함수 (확률 질량 함수, pmf)

사건의 수가 유한하다면 각 사건에 대한 확률을 정의하는 함수일 뿐입니다. 확률 질량 함수는 소문자 $p(X)$로 표시됩니다.

분포 함수(누적 분포 함수; cdf)

사건의 수가 무한하다면 간격으로 표현할 수 있습니다. 간격을 정의하려면 두 개의 숫자가 필요하지만 하나의 숫자로만 간격을 정의하려고 합니다. 따라서 시작점이 모두 음의 무한대인 특수 간격 $S_x$를 사용합니다.

$ S_x = \{ – \infty < X \leq x\} $

이러한 이벤트의 확률 분포를 설명하는 함수 누적 분포 함수라고 하며 다음과 같이 정의됩니다.

$F(x) = P(S_x) = P(\{X < x\})$

다음은 누적 분포 함수 cdf의 특징입니다.

하나) 음의 무한대에 대한 누적 분포 함수의 값은 다음과 같습니다. 0오전. $F(-\infty) = 0$

2) 양무한대에서 누적 분포 함수의 값은 다음과 같습니다. 하나오전. $F(\infty) = 1$

삼) 입력이 크면 누적 분포 함수의 값이 크거나 같습니다.. $x > y \; \오른쪽 화살표 \; F(x) \leq F(y)$

확률 밀도 함수

누적분포함수를 미분하여 구한 도함수는 확률밀도함수속담 확률 질량 함수와 마찬가지로 $p(x)$로 표현됩니다..

$p(x) = \frac{dF(x)}{dx}$

$ F(x_2) – F(x_1) = \int_{x_1}^{x_2} p(u) du $

다음 확률 밀도 함수 cdf의 속성

하나)적분함수인 누적분포함수의 기울기는 음수가 될 수 없기 때문에 이것이 확률밀도함수이다. 0같거나 큼. $p(x) \leq 0$

2) $ \int_{- \infty}^{\infty} p(u) du = 1$

베이지안 규칙

조건부 확률에 대한 다음 공식은 베이즈 정리말하다.

$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $

입증하다.

$P(A|B) = \frac{P(A \cap B)}{P(B)} \;$ 및 $\; P(B|A) = \frac{P(A \cap B)}{P(A)}$,
그러면 $P(A \cap B) = P(A|B)P(B) \;$ 및 $\; P(A \cap B) = P(B|A)P(A)$.

따라서 $P(A \cap B) = P(A|B)P(B) = P(B|A)P(A)$.

$P(A|B) \;$: 나중에 확률(뒤쪽). 사례 비발생 후 업데이트된 이벤트 ㅏ확률
$P(A) \;$: 이전 확률(더 일찍). 사례 비발생 이전에 있었던 사건 ㅏ확률

$P(B|A) \;$: 개연성(개연성). 사례 ㅏ사건이 발생했을 때 비확률
$피(B) \;$: 정규화 상수(정규화 상수) 또는 증거(증거). 스케일링 확률

Bayes 1 정리의 확장

이벤트 $A_i$가 상호 배타적이고 완전하다고 가정합니다.

\시작{정렬*}
P(A_1|B) = \frac{P(B|A_1)P(A_1)}{P(B)} \\
= \frac{P(B|A_1)P(A_1)}{\Sigma_i P(A_i \cap B)} \\
= \frac{P(B|A_1)P(A_1)}{\Sigma_i P(B|A_i)P(A_i)}
\end{정렬*}

Python의 PGPMPy 패키지는 Bayes의 정리를 응용한 것입니다. 베이지안 모델 제공 클래스. 베이즈 정리를 적용하려면 조건부 확률을 구현해야 합니다. 표 형식 CPD 클래스를 사용하여 사전 확률 및 우도 구현. 표 형식 CPD 클래스 개체는 다음과 같이 만들 수 있습니다.

    TabularCPD(variable, variable_card, value, evidence=None, evidence_card=None)

variable : 임의의 변수 이름 문자열
variable_card: 랜덤 변수가 가질 수 있는 경우의 수
value : 조건부 확률의 배열입니다. 열은 동일한 조건을 나타내므로 열의 확률 합은 1이어야 합니다.
증명: 조건이 되는 무작위 변수 이름 시퀀스 목록
evidence_card: 조건부 변수가 가질 수 있는 경우의 수 목록

표 형식 CPD 이 클래스는 원래 조건부 확률을 구현하기 위한 것이었지만 증명 = 없음 , proof_card=없음 인수를 로 지정하면 일반 확률도 구현할 수 있습니다..