728x90

일단 확률이란 과목 전반에 대해 간단히 살펴보았다.

 

 

이전에 확률 공부하면서

 

 

확률에는 이산 확률과 연속 확률이 있고

 

 

각 이산 확률 분포와 연속 확률 분포에는 어떠한 확률 분포들이 종류로 있는지는 대강 알고 잇엇다

 

 

하지만 후반부의 내용인

 

모집단, 모수, 표본집단(샘플), 통계량 등에 대한 개념은 대강 알기는 했었으나 다소 불명확하게 이해하고 있었다.

 

하지만 모집단 분포를 따라는 샘플 몇개를 추출해서 이 샘플의 평균과 분산을 통해 모집단을 추론해낸다.

 

라는 대략적인 과정을 이해할수 있었다.

 

 

 

또, 간단하게 시간의 변화에 대한 확률인 확률 과정과

 

임의의 난수를 생성시켜서 활용하는 몬테카를로 방법에 대해 간단히 살펴보았다.

 

이정도로만 살펴보고 마치기에는 확률론에 대해서

 

다소 부족한감은 있지만

 

 

 

 

대강 전체적인 범위와 무엇을 알아야하는지 정도는 파악되었고

 

중간에 애매했던 개념들을 이만큼 복습하였으면 충분할것 같다.

 

부족한 내용들은 다음에 다시 복습하는걸로 하고 확률 공부는 여기까지 하고자 한다.

 

 

 

 

다음으로 해야할 내용들은

 

대학 수학, 통계론, 제어 시스템, opencv-python 등이 있을것 같다.

 

추가적으로 가능하다면 공업수학 내용들을 한번 더 복습이 필요할것 같으나

 

 

 

 

지금 프로토타이핑을 공부하는 와중에 너무 많이 늘리기는 힘든 상황이다.

 

그나마 빨리 끝낼수 있는건 대학 수학정도 될것같긴한데,

 

하고싶을때 해야z

300x250

'수학 > 공업수학, 확률' 카테고리의 다른 글

확률 - 10. 몬테 카를로 방법  (0) 2020.08.13
확률 - 9. 확률 과정  (0) 2020.08.13
확률 - 8. 표본 분포  (0) 2020.08.12
확률 - 7. 다변량 확률분포  (0) 2020.08.12
확률 - 6. 연속 확률 분포  (0) 2020.08.12
728x90

몬테카를로 방법 monte carlo method

- 특정 확률 분포로 난수를 수없이 생성

 -> 복잡한 문제의 해를 근사적으로 구하여 확률 문제 해결

- 표본 평균의 표본 수가 커지면 모집단 평균에 술며하는 성질 이용

 

 

몬테카를로 방법 예시

- 뷔퐁의 바늘 문제 : 수많은 평행선에 바늘던져, 평행선에 닿는 바늘 갯수에 대한 확률로 원주율 구함

https://suhak.tistory.com/59

- 폰 노이만의 실험

=> 확률분포 생성, 최적화 문제, 수학적 적분 등에서 많이 사용

300x250

'수학 > 공업수학, 확률' 카테고리의 다른 글

확률 정리를 마치며  (0) 2020.08.13
확률 - 9. 확률 과정  (0) 2020.08.13
확률 - 8. 표본 분포  (0) 2020.08.12
확률 - 7. 다변량 확률분포  (0) 2020.08.12
확률 - 6. 연속 확률 분포  (0) 2020.08.12
728x90

확률 과정 stochastic process

- 시간의 흐름에 따라 관찰되는 확률 변수들의 모임

- 시간 t에서 관측값 X(t)

- 여러 시간 t1, t2 ...에서 확률 변수 모임 {X(t1), X(t2), . . } => 이 모임이 학률 과정

- ex. 주식 거래일의 종가, 일자별 날씨

 

 

마르코브 연쇄 markov chain

- 미래 상태는 과거가 아닌 현재 상태만의 영향을 받음

 => 확률과정이 무기억성을 가짐. 이를 마르코브 연쇄

 

 

 

 

확률과정과 정상 stationary 성질

1. 손자 수(X2)가 3명에서 증손자 수(X3)가 5명으로 늘어날 확률과

2. 10대 후손의 수 (X10) 3에서 11대 후손의 수 (X11)가 5명으로 변화할 확률은 같음

- 단계 n 상태 i에서 다음 단계에서 상태 j로 변화될 확률이 n에 의존하지 않는경우

 * 위 예시에선 2단계 상태 3에서 3단계 상태 5(1), 10단계 상태 3에서 11단계 상태 5로 변화

 => 확률 가정이 정상 성질을 가짐

 

 

전이 확률 transition probability

- 위 예시를 보면 상태 i에서 상태 j로 변화시 현재 단계 n과는 상관 없음.

- 이 확률을 i와 j만으로 나타낼 수 있음

- 상태 i에서 j로의 전이확률은 아래와 같음.

 

전이 확률 행렬 transition probability matrix

- 상태 i에서 상태 j로 변화할 확률을 (i + 1)번째 행, (j + 1)번쨰 열의 원소로 나타낸 행렬 P

 * (i + 1)인 이유는 상태가 0인 경우도 고려하기 때문

 

 

300x250

'수학 > 공업수학, 확률' 카테고리의 다른 글

확률 정리를 마치며  (0) 2020.08.13
확률 - 10. 몬테 카를로 방법  (0) 2020.08.13
확률 - 8. 표본 분포  (0) 2020.08.12
확률 - 7. 다변량 확률분포  (0) 2020.08.12
확률 - 6. 연속 확률 분포  (0) 2020.08.12
728x90

모집단 population

- 관심의 대상 전체

 

표본 sample

- 모집단의 일부분

 

모수 parameeter

- 모집단은 특정 분포를 따름

- 모집단의 특성을 나타내는 값(모집단이 변경되지 않는 이상 상수)

 

통계값

- 표본으로부터 얻은 값

 * ex. 임의로 선정한 1000가구의 평균 지출이 100만원인 => 100만원이 통계값

 

통계량 statistic

- 통계 값을 구하기 위한 수식

- 대표적인 통계량으로 표본 평균

 

 

표본 평균 구하기

- 확률 변수 X1, ..., Xn가 평균 mu, 분산 sigma^2인 모집단에서 추출된 경우

- 모집단의 평균 mu를 추정 inference 하기위한 표본 평균은 아래와 같음

 

주사위에 대한 확률 분포와 모수 구하기

- 주사위는 1 ~ 6까지 확률 변수값을 가지는 이산 균일 확률 분포를 따름

 => 모집단의 평균과 분산은 다음과 같이 구함

 

표본 크기가 2인 경우 주사위 표본 평균 구하기

- 이번에는 확률 변수 X1, X2가 주어질때 표본 평균을 구하면 다음과 같이 정의함

 

- X1과 X2가 아래와 같이 주어질때 표본 평균 bar{X}는 아래와 같다.

 

 

 

 

표본의 크기가 2인 표본 평균의 확률분포표

- 주사위를 두번 던질때 얻을수 있는(X1, X2의 조합) 표본 평균에 대한 확률 분포표는 아래와 같다.

 

 

표본의 크기가 2인 표본의 통계값

- 위 표본 평균에 대한 확률 분포가 주어질때 기대값과 분산은 아래와 같다.

 

=> 모 평균과 표본 평균은 7/2로 동일하나 표본 분산은 모 분산의 1/2가 됨.

 

 

 

 

 

 

 

표본 크기가 n인 표본 평균 bar{X}의 기댓값과 평균

- 다음과 같이 n개의 표본들이 주어질 때

- 이들을 샘플링하여 뽑은경우 표본 평균 bar{X}의 기댓값과 평균은 아래와 같다.

 => 1. 모 평균과 표본 평균은 동일

      2. 표본 분산은 모 분산/n

 

 

 

 

 

 

 

대수의 법칙

- 표분의 수가 커지면 표본 평균 bar{X}는 모 평균 mu에 수렴

 

 

모집단이 정규분포일때 표본 평균 분포

- 표본 평균은 모집단을 추정하는데 사용되므로 매우 중요

- 모집단이 정규 분포를 따르면 -> 표본 평균도 정규 분포를 따름

 

 

중심 극한 정리 central limit theorem

- 모집단이 정규 분포가 아니어도 표본 n이 충분히 크면 표본 평균은 정규 분포에 근사

 

 

 

 

 

300x250

'수학 > 공업수학, 확률' 카테고리의 다른 글

확률 - 10. 몬테 카를로 방법  (0) 2020.08.13
확률 - 9. 확률 과정  (0) 2020.08.13
확률 - 7. 다변량 확률분포  (0) 2020.08.12
확률 - 6. 연속 확률 분포  (0) 2020.08.12
확률 - 5. 이산 확률 분포  (0) 2020.08.12
728x90

자료 분석의 주요 관심사

- 두 변수 사이의 관련성

 * ex. 광고비와 순익의 연관성

 

 

결합 분포 joint distribution

- 2개 이상의 확률 변수들을 같이 고려한 확률 분포

 * ex. 키에 대한 확률 변수 X와 몸무게에 대한 확률 변수 Y => 키가 180cm 이상이고, 몸무게가 80kg 이상일 확률

 

 

다변량 확률 분포 multivariate distriubiton

- 여러 확률 변수들의 결합분포

 

이변량 확률 분포 bivariate distribution

- 두 확률 변수의 결합 분포

 

 

 

 

 

 

 

결합 확률 분포의 기대값, 공분산, 상관계수

1. 기댓값 expectation

- 이산/연속 확률 변수가 주어질때 결합확률질량/밀도 함수에 대한 기댓값은 아래와 같다.

 

2. 공분산 covariance

- 두 변수간의 관계를 나타내는값

 

 

3. 상관 관계 correlation

- 공분산은 각 확률 변수의 단위에 의해 정해짐

 => 각 변수의 표준편차를 나누어 표준화한 상관계수(rho)로 상관관계를 알 수있음

- 아래는 상관 계수의 식

 

 

 

 

 

 

조건부 확률 분포 conditional probabilistic distribution

- 조건부 분포 : 두 확률 변수 (X, Y) 중 Y의 값이 주어질때 X의 확률 분포

 * ex. X는 키, Y는 몸무게라고 할때, 몸무게가 80인 경우 키에 대한 확률 분포

- 두 확률 변수 X, Y가 주어질때 조건부 확률 분포는 다음과 같이 정의 가능

 

 

 

이변량 정규분포 bivariate normal distribution

- 정규분포를 2개의 변수에 대해 결합 분포로 확장한 것

 * ex. 키와 몸무게에 대한 확률 변수를 이변량 정규분포로 표현 가능

- 다음의 경우 두 확률 변수 X1과 X2에 대한 이변량 정규분포를 정리함

 

 

다변량 정규분포 multivariate normal distribution

- 이변량 정규분포와 마찬가지로 벡터와 행렬로 간편하게 표현 가능함

- p개의 확률 변수 X1, ..., Xp가 다변량 정규분포를 따르는경우 X1, .., Xp의 결합 확률 밀도함수는 다음과같음

 * 행렬식 determinant : 행렬의 역행렬이 존재하는지 판별하는 식

 

- 확률 변수 X가 다변량 정규분포를 따를때 다음과 같이 정리할 수 있다.

 

 

300x250

'수학 > 공업수학, 확률' 카테고리의 다른 글

확률 - 9. 확률 과정  (0) 2020.08.13
확률 - 8. 표본 분포  (0) 2020.08.12
확률 - 6. 연속 확률 분포  (0) 2020.08.12
확률 - 5. 이산 확률 분포  (0) 2020.08.12
확률 - 4. 확률 분포  (0) 2020.08.11
728x90

연속 확률 분포 continuous probability distribution

- 확률 변수가 연속(셀수 없는)인 경우에 대한 확률 분포

- 예시 : 균등 분포, 지수분포, 정규분포 등

 

 

 

연속 균등(균일) 분포 continuous uniform distribution

- 구간 [a, b]에 균일하게 분포된 확률 분포

 

- 균일 분포의 확률 밀도 함수와 표기를 다음과 같이 한다.

 

 

 

 

 

 

지수 분포 exponential distribution

- 사건이 독립일때, 일정 시간 동안 발생한 횟수가 포아송 분포를 따른다면, 다음 사건 발생까지 대기시간은 지수 분포를 따름

- 제품 수명에 대한 확률 분포로 자주 사용

  ex) 평균 수명이 1000시간인 부품이 있을때, 1000시간 이전에 고장날 확률은?

- 지수 분포의 확률 밀도 함수

- 지수 분포 예시 그림

 

https://ko.wikipedia.org/wiki/%EC%A7%80%EC%88%98%EB%B6%84%ED%8F%AC

 

 

 

 

 

 

정규 분포 normal distribution

- 평균점을 중심으로 좌우 대칭이며 종 모양의 확률 분포. 널리 사용됨

- 에시 : 학생들의 성적 분포, 남성의 콜레스테롤 수치 분포 등

- 정규분포는 다음과 같이 확률 밀도 함수와 표기를 한다.

 

 

- 정규 분포의 확률 밀도 함수

https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC

 

300x250

'수학 > 공업수학, 확률' 카테고리의 다른 글

확률 - 8. 표본 분포  (0) 2020.08.12
확률 - 7. 다변량 확률분포  (0) 2020.08.12
확률 - 5. 이산 확률 분포  (0) 2020.08.12
확률 - 4. 확률 분포  (0) 2020.08.11
확률 - 3. 조건부 확률  (0) 2020.08.11
728x90

이산 확률 분포 discrite probability distribution

- 주사위 눈의 값과같이 (셀수 있는) 이산적인 확률 변수를 갖는 확률 분포

 

 

 

이산 균등 분포 discrete uniform distribution

- 모든 확률변수에서의 확률 값이 동일(균일)한 확률 분포

https://en.wikipedia.org/wiki/Discrete_uniform_distribution

 

 

초기하 분포 hypergeometry distribution

- 표본 조사시 모집단에서 표본을 비복원 추출을 하는 경우 이용됨

 

https://en.wikipedia.org/wiki/Hypergeometric_distribution

 

 

 

베르누이 분포 bernoulli distribution

- 베르누이 시행 : 서로 배반인 두가지 경우만 발생하는 사건

    ex. 동전 앞면/뒷면,  양품/불량품

- 베르누이 시행 확률 질량 함수

 

- 기대값과 분산

 

http://wiki.analytica.com/Bernoulli

 

 

 

 

 

 

 

이항 분포 binomial distribution

- 일정 확률 p를 가진 독립시행을 n번 반복했을때의 확률 분포

- 이항분포의 확률 질량 함수 pmf와 이에 대한 표기를 다음과 같이 한다.

https://en.wikipedia.org/wiki/Binomial_distribution

 

 

 

포아송 분포

- 발생 가능성 p는 매우 작지만 시행횟수 n은 충분히 큰 경우 사용하는 분포

- 포아송 분포는 이항 분포의 근사라 할 수 있음

- 포아송 분포의 확률 질량 함수와 포아송 분포를 따르는 확률 변수 X에 대한 표기

 

- 아래의 그림에선 시행횟수는 k, 발생 게인은 lambda 

https://en.wikipedia.org/wiki/Poisson_distribution

 

 

 

300x250

'수학 > 공업수학, 확률' 카테고리의 다른 글

확률 - 7. 다변량 확률분포  (0) 2020.08.12
확률 - 6. 연속 확률 분포  (0) 2020.08.12
확률 - 4. 확률 분포  (0) 2020.08.11
확률 - 3. 조건부 확률  (0) 2020.08.11
확률 - 2. 고전적 확률과 공리적 확률  (0) 2020.08.07
728x90

확률 변수 random variable

- 관심 사건을 변수로 설정한 것

 => 확률 변수 X = 0, 1, 2, 3 중 하나의 값 -> X = 1, X = 2와 같이 표현

 

확률 분포표

- 확률 변수의 값과 그에 대한 확률을 나열한 표

 

 

 

이산 확률 변수 discrete random variable

- 확률 변수가 정수와 같이 셀수 있는 값을 가지는 경우 이산확률 변수라 부름

 => ex. 동전 앞면 수, 오타 수, 합격자 수 등

 

 

이산 확률 분포

- 이산 확률 변수에 대한 확률들의 분포

- 아래는 동전 2개를 던질때 앞면이 나온 수에 대한 이산 확률 분포

X 0 1 2 sum
P(X) 1/4 1/2 1/4 1

 

확률 질량 함수 probability mass function, pmf

- 각 확률 변수에 대한 이산 확률들, P(X=x_i) = p_i가 확률 질량 함수 pmf

 

 

 

 

연속 확률 변수 continuous random variable

- 확률 변수가 셀수 없는 경우 연속 확률 변수라 부름

 => ex. 시간, 무게 등

 

 

 

 

확률 밀도 함수 probability density function, pdf

- 어느 확률 변수가 어느 구간에 속할 확률을 결정짓는 함수

 => [1, 2]에 속할 확률, [1, 3]에 속할 확률 등

 

 

 

 기대값 expectation value

- 확률 변수 x_i와 해당 확률 p_i의 곱들의 합으로 시행시 기대되는 결과를 예측할 수 있음

 

 

 

 

 

복권 예제에서의 기댓값

- 복권을 뽑을때 받을수 있는 상금에 대해 아래와 같은 확률분포표가 제시된다고 하자.

등수 상금 확률
1등 10,000원 1/1000
2등 100원 1/100
3등 10원 1/10

 

- 한번 복권을 뽑는 경우 예상되는 상금은 다음과 같다.

 => 기대값 E(x)는 한번 시행시 예상 결과로 이 경우에는 12원의 상금이 기대된다.

 

 

 

분산 variance

- 확률 변수가 기댓값을 중심으로 얼마나 퍼져있는지 정도

- 기대값 E(x) = mu로 표기하나 mu가 음수인 경우도 존재하므로

 1. 확률 변수 X와 기대값 mu의 차이를 제곱

 2. 차이의 제곱에 대한 평균을 구함

 

 

 

표준 편차 standard variation

- 분산 Var(X)는 차이 제곱에 대한 평균을 구하므로 기존의 확률 변수 X와 단위가 다름

 => 단위 일치를 위해 제곱근을 수행하여 구함

 

 

 

 

 

 

300x250

'수학 > 공업수학, 확률' 카테고리의 다른 글

확률 - 6. 연속 확률 분포  (0) 2020.08.12
확률 - 5. 이산 확률 분포  (0) 2020.08.12
확률 - 3. 조건부 확률  (0) 2020.08.11
확률 - 2. 고전적 확률과 공리적 확률  (0) 2020.08.07
확률 - 1. 확률 개요  (0) 2020.08.07
728x90

조건부 확률 conditional probability

- 정보가 주어졌을 떄 어떤 사건이 발생할 확률

 

 

주사위와 조건부 확률 - 상황

- 주사위 던질때 1의 눈이 나올 확률 1/6

- 짝수가 나올 확률 1/2

 

 

주사위와 조건부 확률 

- 주시위가 3이하라는 정보가 주어짐. 짝수일 확률은 몇일까? 여전히 1/2?

- 위 경우 짝수인 경우는 세가지 중 하나

 => 3 이하라는 정보가 있을때, 짝수일 확률은  1/2(전체의 절반)가 아니라 1/3(3이하 수중 하나)

 

 

조건부 확률

- 주어진 정보로 사건 B가 발생하였다는 가정하에 사건 A가 발생할 확률

 

 

 

 

 

 

 

 

 

베이즈 정리

- 조건부 확률을 이용해 어느 사건의 발생 확률을 구하는데 사용되는 정리

 

 

베이즈 정리의 예시 - 공장

- 생산 라인 1(생산률 20%, 불량 비율 5%), 생산 라인 2(생산률 50%, 불량 비율 4%), 생산 라인3(생산률 30%,불량률 3%)

=> 문제 : 1) 전체 불량률은 몇일까? 2) 불량품이 첫 라인에서 만들어질 확률은?

 

전체 불량률

- 생산 라인 1 : 0.2 x 0.05 = 0.01

- 생산 라인 2 : 0.5 x 0.04 = 0.02

- 생산 라인 3 : 0.3 x 0.03 = 0.09

=> 전체 불량률 = 0.39

 

 

 

 

표본 공간 분할과 사건 A

- 표본 공간 S는 분할된 사건 B1, B2, B3, B4로 구성

 

사건 A가 주어졌을떄 조건부 확률

- 사건 A에 대한 정보가 주어진 경우, 사건 B_i에 대한 조건부 확률

 

 

 

 

베이즈 정리 bayes theorem

- 표본 공간을  B1 , ... Bk로 나눌 경우 사건 A와 조건부 확률 B_i는 아래와 같다.

    => 베이즈 정리 : 사전 확률과 분할 사건에 대한 사후확률을 구하는 아래의 식

 

 

 

 

 

베이즈 정리를 이용한 전체 불량률 구하기

- 전체 불량률 P(A)은 얼마나 되는가?

 

1. 사건 정의

- B1 : 제품이 생산 라인 1에서 만들어질 사건

- B2 : 생산 라인 2에서 만들어질 사건

- B3 : 생산 라인 3에서 만들어질 사건

 

 

2. 우도 likelihood 정리

- 각 라인에서 생산한 제품이 불량률일 확률

 

3. 베이즈 정리로 구한 전체 불량률

- 베이즈 정리로 사후확률과 사전 확률은 아래와 같이 정리할 수 있다.

- 지금 구하고자 하는것은 전체 불량률, 즉 사후확률 P(A)를 구하므로 다음과 같이 정리된다.

 

 

4. 베이즈 정리로  불량 제품을 뽑앗을때 1번 라인에서 생산한 제품일 확률

 

 

300x250
728x90

표본 공간 sample space

- 통계 실험 trial에서 발생가능한 결과들의 집합. S로 표기

- 표본의 값이 이산적이라면(ex. 주사위 숫자) 이산 표본공간

- 표본의 값이 연속적이라면(ex. 시간) 연속 표본 공간

 

사건 event

- 표본 공간의 한 원소나 원소들의 모임(부분집합)

 

 

확률의 고전적 정의

- 고전적 의미의 확률 P(A) = 사건 A의 모든 원소 수(k) / 표본 공간 S 전체 원소 수(n) = k / n

* 개념적 정의 : 어느 사건이 일어날 가능성에 대한 척도

https://m.blog.naver.com/mykepzzang/221857243092

 

 

고전적 확률의 문제

- 모든 원소들의 발생 가능성을 동일한 것으로 봄.  ( ex. 동전 앞뒷면의 확률, 주사위 숫자의 확률)

   => 하지만 이런 경우는 매우 드물며 고전적인 확률을 사용할 수 없음.

 

공리적 학률

- 수학자 콜모고로가 다음의 세 공리를 만족시키는 경우. 확률 P(A)에 대해 공리적 확률 정의

1. 0 <= p(A) <= 1

2. P(S) = 1

3. A1, ..., Ai 등 이 서로 배반이면(교집합이 공집합이면)

=> P(A)는 표본 공간 S에서의 사건 A에 대한 공리적 확률

- 사건 P가 0 ~ 1사이의 값이며, 전체 P의 합은 1이 되고, 각 사건의 합집합이 P의 합과 같으면(교집합이 없다) 

 => 확률 P(A)는 공리적 확률

 * 상대도수의 극한화 : 상대도수에서 횟수 n을 무한대로 늘림.

 

 

300x250

+ Recent posts