확률변수(Random Variable)
머신러닝과 딥러닝, 통계학을 사용하는 데 있어서
확률변수란 아주 중요한 개념이다.
확률변수란 말 그대로
변수인데, 확률에 의해 정해지는 변수이다.
때문에 확률변수는 상황에 따라 항상 변할 수 있다.
이때 우리는 셀 수 있는 확률변수를
- 이산확률변수(discrete random variable)
셀 수 없는 확률 변수를
- 연속확률변수(continuous random variable)
라 한다.
💡 이산 확률 변수 (discrete random variable)
확률 변수 X가 취할 수 있는 모든 값을 x1, x2, x3, ... 처럼 셀 수 있을 때 X를 이산확률변수라고 한다.
즉, 값이 무한히 있더라도 순서가 있으면 이산 확률 변수이다.
# 이산 : 연결되지않고 끊어진
💡 연속 확률 변수 (continuous random variable)
확률변수가 연속적인값 # 이산의 반대 즉 셀 수 없는 변수이다.
언뜻 무한대와 비슷한 개념 같지만
이와는 조금 다르다.
두 개념의 요점은 셀 수 있냐 없냐의 문제이다.
확률 분포 (probability distribution)
확률 분포란
확률 변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다.
갑자기 함수?
분포라는 것은 어떠한 기준에 의해 값들이 찍혀있다고 생각하면
왜 확률분포가 함수인지 어느 정도 느낌이 온다.
즉, 주사위의 값을 예측하는 확률변수가 있다면
모든 확률변수들을 확률 공식(함수)에 의해 찍어놓은 게
확률 분포이다.
확률분포 또한 확률 변수가 나뉘듯이
두 가지로 나뉜다.
💡 이산 확률 분포 (discrete probability distribution)
이산 확률 분포는 확률 질량 함수를 통하여 표현가능하다.
✔ 확률 질량 함수 (probability mass function)
특정 값에 대한 확률을 나타내는 함수이다.
즉, 이산 확률 분포를 함수로 표현하기 위한 식이다.
주사위에서 1이 나올 확률은 1/6인데
이는 셀 수 있기에 이산 확률 분포이며,
이때의 확률 질량 함수는 1/6이다.
누적 분포 함수로 표현할 경우 비약적 불연속으로만 증가한다.
✔ 누적 분포 함수
어떤 특정 값을 기준으로
주어진 확률 변수가 특정 값보다 작거나 같은 확률을
나타내는 함수
# 어떤 값까지의 확률변수의 확률을 나타내기에 이는 누적이라 볼 수 있다.
그 밖의 이산확률분포
💡 연속 확률 분포 (continuous probability distribution)
확률 밀도 함수를 이용해 분포를 표현할 수 있는 경우를 의미한다.
✔ 확률 밀도 함수 (probability density function)
연속 확률변수의 분포를 나타내는 함수로,
함수의 넓이가 확률이다.
대표적으로 정규 분포가 있다.
'Developer Diary' 카테고리의 다른 글
Toy Project 4일차 (0) | 2023.01.03 |
---|---|
NLP (자연어 처리) (0) | 2023.01.01 |
시계열 분석 (0) | 2022.12.25 |
Toy Project 3일차 (0) | 2022.12.23 |
Toy Project 2일차 (0) | 2022.12.23 |