728x90
반응형

R Studio 통계 7

통계학의 기본 개념: 모집단 분포, 확률 분포, 경험적 분포, 표본 분포, 측정분포

Population Distribution 모집단 분포 모집단(population)은 조사하고자 하는 전체 집단을 의미합니다. 모집단 분포는 이러한 모집단의 전체 데이터를 나타내는 확률 분포입니다. 모집단 분포를 알면, 해당 모집단에서 랜덤하게 추출한 샘플의 특성을 예측할 수 있습니다. 예를 들어, 어떤 도시의 모든 주민의 키를 측정하여 히스토그램으로 나타내면, 이것이 모집단 분포입니다. 이 모집단 분포를 이용하여, 도시 주민들의 평균 키, 분산, 중앙값 등의 통계적 특성을 추정할 수 있습니다. Empirical Distribution 경험적 분포 경험적 분포는 실제 데이터에서 추출한 빈도수를 이용하여 분포를 나타낸 것입니다. 이를 통해 데이터의 분포를 시각화하고, 이를 통해 데이터의 특성을 파악할 수 ..

R Studio 통계 2023.05.03

Sources of Error 오류의 원인- Types of Statistical Bias, Types of Variation- (selection, measurement )

Types of Statistical Bias Selection bias 선별편향 선별편향(Selection bias)은 표본 추출 과정에서 특정한 그룹이 다른 그룹보다 더 많이 선택되는 경우를 말합니다. 이는 샘플링 과정에서 임의성을 보장하지 못할 때 발생할 수 있습니다. 예를 들어, 인터넷 설문조사를 실시할 때, 인터넷 사용이 불편한 노인층이나 인터넷을 이용하지 않는 저소득층 등의 사람들은 샘플링 대상에서 제외되거나 샘플링 비율이 낮아질 가능성이 있습니다. 이 경우, 샘플이 전체 모집단을 대표하지 못하게 되어 결과에 선별편향이 발생할 수 있습니다. Measurement bias 측정편향 측정편향(Measurement bias)은 측정 도구나 방법의 문제로 인해 발생하는 편향입니다. 예를 들어, 성격 ..

R Studio 통계 2023.05.03

그래프의 종류 - 쓰임

Qualitative (질적 변수) Bar graph( Bar chart) Qualitative (질적 변수): Categorical 일때 사용 -Norminal(명목형 ) 일때 사용 예를 들어, 어떤 도시에서 각 음식점의 종류(한식, 중식, 양식 등)를 비교할 때, 각 카테고리(음식점 종류)를 x축에, 그리고 각 카테고리별 개수(빈도)를 y축에 나타내는 막대 그래프를 그릴 수 있다. Pie Chart Qualitative (질적 변수): Categorical 일때 사용 -Norminal(명목형 ) 일때 사용 예를 들어, 전체 학생 중 남학생과 여학생의 비율을 Pie chart로 시각화할 수 있습니다. Quantitative (양적변수) Bar Plot Quantitative (양적변수) :Numeric..

R Studio 통계 2023.05.03

데이터 분류(수치형 변수- 연속형, 이산형 & 범주형 변수 - 순서형, 명목형)

Types of Variables 데이터 분류를 위한 분류법 중 하나인 데이터 분류법(Taxonomy of Data)은 수치형 변수(numerical) 와 범주형 변수(categorical)로 구분된다. 수치형 변수 Numerical Variable = Quantitative(양적변수)숫자 값을 가지는 변수. 변수들은 수치적 의미가 있는 값들을 가집니다. 수치형 변수들은 "연속형 변수(Continuous Numerical Variable)"와 "이산형 변수 (Discrete Numerical Variable)"로 분류됩니다. - 연속형 변수Continuous Numerical Variable무한한 범위에서 값을 가질 수 있는 변수로, 예를 들어 키, 체중, 온도와 같은 값들이 이에 해당됩니다. - 이산형..

R Studio 통계 2023.05.02

확률 변수(random variable) 와 확률 분포(probability distribution)

확률 변수(random variable) 확률변수란, 어떤 확률적인 사건에서 발생한 결과값을 숫자로 나타내는 변수를 말합니다. 어떤 실험을 수행할 때, 가능한 결과들이 미리 정해져 있지만 그 중에서 어떤 결과가 실제로 나올지는 불확실한 현상을 의미합니다. 예를 들어, 주사위를 던지는 경우, 주사위의 각 면이 나올 확률은 1/6이며, 이를 이용하여 주사위를 던졌을 때 특정한 눈이 나올 확률을 계산할 수 있습니다. 확률 변수의 간단한 예제 예를들어, 도시에서 차량 사고가 발생하는 경우를 생각해보자. 이 경우, 차량 사고가 발생하는 횟수가 확률 변수가 됩니다. 확률 변수 X를 이용하여 "하루에 발생하는 차량 사고의 수"를 나타낼 수 있습니다. 확률 변수 X가 가질 수 있는 값은 0, 1, 2, 3, ...과 ..

R Studio 통계 2023.04.28

poly() - R studio 에서 다항식 회귀 분석을 간편하게 수행하는 방법

다항식 회귀 분석 또한 R Studio 에서 쉽게 수행할 수 있습니다. 그러나, 다항식 회귀 분석에서는 보통 다항식 모델을 만들어야 하므로, 변수들을 생성하는 등의 추가 작업이 필요합니다. 이러한 번거로움을 피하기 위해서는 R 언어에서 제공하는 poly() 함수를 사용할 수 있습니다. 예를 들어, 다음과 같은 데이터셋이 있다고 가정해 봅시다. x

728x90
반응형