728x90
반응형

R Studio 통계 10

통계학의 기본 개념: 모집단 분포, 확률 분포, 경험적 분포, 표본 분포, 측정분포

Population Distribution 모집단 분포 모집단(population)은 조사하고자 하는 전체 집단을 의미합니다. 모집단 분포는 이러한 모집단의 전체 데이터를 나타내는 확률 분포입니다. 모집단 분포를 알면, 해당 모집단에서 랜덤하게 추출한 샘플의 특성을 예측할 수 있습니다. 예를 들어, 어떤 도시의 모든 주민의 키를 측정하여 히스토그램으로 나타내면, 이것이 모집단 분포입니다. 이 모집단 분포를 이용하여, 도시 주민들의 평균 키, 분산, 중앙값 등의 통계적 특성을 추정할 수 있습니다. Empirical Distribution 경험적 분포 경험적 분포는 실제 데이터에서 추출한 빈도수를 이용하여 분포를 나타낸 것입니다. 이를 통해 데이터의 분포를 시각화하고, 이를 통해 데이터의 특성을 파악할 수 ..

R Studio 통계 2023.05.03

Sources of Error 오류의 원인- Types of Statistical Bias, Types of Variation- (selection, measurement )

Types of Statistical Bias Selection bias 선별편향 선별편향(Selection bias)은 표본 추출 과정에서 특정한 그룹이 다른 그룹보다 더 많이 선택되는 경우를 말합니다. 이는 샘플링 과정에서 임의성을 보장하지 못할 때 발생할 수 있습니다. 예를 들어, 인터넷 설문조사를 실시할 때, 인터넷 사용이 불편한 노인층이나 인터넷을 이용하지 않는 저소득층 등의 사람들은 샘플링 대상에서 제외되거나 샘플링 비율이 낮아질 가능성이 있습니다. 이 경우, 샘플이 전체 모집단을 대표하지 못하게 되어 결과에 선별편향이 발생할 수 있습니다. Measurement bias 측정편향 측정편향(Measurement bias)은 측정 도구나 방법의 문제로 인해 발생하는 편향입니다. 예를 들어, 성격 ..

R Studio 통계 2023.05.03

그래프의 종류 - 쓰임

Qualitative (질적 변수) Bar graph( Bar chart) Qualitative (질적 변수): Categorical 일때 사용 -Norminal(명목형 ) 일때 사용 예를 들어, 어떤 도시에서 각 음식점의 종류(한식, 중식, 양식 등)를 비교할 때, 각 카테고리(음식점 종류)를 x축에, 그리고 각 카테고리별 개수(빈도)를 y축에 나타내는 막대 그래프를 그릴 수 있다. Pie Chart Qualitative (질적 변수): Categorical 일때 사용 -Norminal(명목형 ) 일때 사용 예를 들어, 전체 학생 중 남학생과 여학생의 비율을 Pie chart로 시각화할 수 있습니다. Quantitative (양적변수) Bar Plot Quantitative (양적변수) :Numeric..

R Studio 통계 2023.05.03

데이터 분류(수치형 변수- 연속형, 이산형 & 범주형 변수 - 순서형, 명목형)

Types of Variables 데이터 분류를 위한 분류법 중 하나인 데이터 분류법(Taxonomy of Data)은 수치형 변수(numerical) 와 범주형 변수(categorical)로 구분된다. 수치형 변수 Numerical Variable = Quantitative(양적변수)숫자 값을 가지는 변수. 변수들은 수치적 의미가 있는 값들을 가집니다. 수치형 변수들은 "연속형 변수(Continuous Numerical Variable)"와 "이산형 변수 (Discrete Numerical Variable)"로 분류됩니다. - 연속형 변수Continuous Numerical Variable무한한 범위에서 값을 가질 수 있는 변수로, 예를 들어 키, 체중, 온도와 같은 값들이 이에 해당됩니다. - 이산형..

R Studio 통계 2023.05.02

확률 변수(random variable) 와 확률 분포(probability distribution)

확률 변수(random variable) 확률변수란, 어떤 확률적인 사건에서 발생한 결과값을 숫자로 나타내는 변수를 말합니다. 어떤 실험을 수행할 때, 가능한 결과들이 미리 정해져 있지만 그 중에서 어떤 결과가 실제로 나올지는 불확실한 현상을 의미합니다. 예를 들어, 주사위를 던지는 경우, 주사위의 각 면이 나올 확률은 1/6이며, 이를 이용하여 주사위를 던졌을 때 특정한 눈이 나올 확률을 계산할 수 있습니다. 확률 변수의 간단한 예제 예를들어, 도시에서 차량 사고가 발생하는 경우를 생각해보자. 이 경우, 차량 사고가 발생하는 횟수가 확률 변수가 됩니다. 확률 변수 X를 이용하여 "하루에 발생하는 차량 사고의 수"를 나타낼 수 있습니다. 확률 변수 X가 가질 수 있는 값은 0, 1, 2, 3, ...과 ..

R Studio 통계 2023.04.28

poly() - R studio 에서 다항식 회귀 분석을 간편하게 수행하는 방법

다항식 회귀 분석 또한 R Studio 에서 쉽게 수행할 수 있습니다. 그러나, 다항식 회귀 분석에서는 보통 다항식 모델을 만들어야 하므로, 변수들을 생성하는 등의 추가 작업이 필요합니다. 이러한 번거로움을 피하기 위해서는 R 언어에서 제공하는 poly() 함수를 사용할 수 있습니다. 예를 들어, 다음과 같은 데이터셋이 있다고 가정해 봅시다. x

데이터

데이터 과학의 가장 중요한 요소는 세상을 이해하기 위한 수단으로서 데이터의 중심적 역할입니다. "데이터"라는 단어는 다양한 방식으로 사용되므로, 모든 사람들이 동일한 페이지에서 출발하기 위해 정의를 작성해 보겠습니다. 데이터(Data)는 (대개 수치로 표현되는) 정보 항목으로, 과학 작업으로 얻어진 것이 주로며 일반적으로 참고, 분석 또는 계산을 위해 모아집니다. 라틴어 'datum(주어진 것)'에서 비롯되었으며 사실을 의미합니다. 이러한 광범위한 정의는 데이터가 취할 수 있는 형태에 대한 충격적인 다양성을 허용합니다. 고등학교에서 화학 실험을 수행하고 실험 결과를 실험 노트북의 표에 기록했을 때 그것은 데이터입니다. 제임스 웹 우주 망원경이 태양계의 먼 지점을 사진으로 찍어, 픽셀 단위로 빛의 레벨을 ..

R Studio 통계 2023.04.25

R Studio 배우기

R Studio를 배우기 시작하는 방법에 대해서 알아보겠습니다. R과 R Studio 설치: 먼저, 운영체제에 따라 CRAN 웹사이트 (https://cran.r-project.org/) 에서 R을 다운로드하고 설치합니다. R을 설치한 후에는 R Studio 웹사이트 (https://www.rstudio.com/products/rstudio/download/) 에서 R Studio를 다운로드하고 설치합니다. R 언어의 기초 학습: R Studio를 배우기 전에, R 프로그래밍 언어의 기초를 학습하는 것이 중요합니다. Hadley Wickham과 Garrett Grolemund의 R for Data Science과 같은 초보자를 위한 온라인 코스나 입문서를 참고할 수 있습니다. R Studio 인터페이스 ..

R Studio 통계 2023.04.25

스탯 헛소리 캠프에 오신 걸 환영합니다.

안녕하세요, 데이터의 시대에 오신 것을 환영합니다. 데이터에 기반한 주장들은 뉴스 기사, 과학 출판물, 정부 정책, 그리고 세계적인 기업들의 전략에서도 보이고 있습니다. 이 시리즈물은 데이터를 이용한 다양한 종류의 주장들, 데이터 구성과 관련된 소박한 주장부터 과학적 사실이나 미래 예측과 관련된 포괄적인 주장까지를 조사합니다. 이 헛소리 시리즈를 통해, 데이터에 의존하는 주장을 분석하고 구성하는 기술을 향상시킬 수 있습니다.

R Studio 통계 2023.04.25
728x90
반응형