데이터 과학의 가장 중요한 요소는 세상을 이해하기 위한 수단으로서 데이터의 중심적 역할입니다. "데이터"라는 단어는 다양한 방식으로 사용되므로, 모든 사람들이 동일한 페이지에서 출발하기 위해 정의를 작성해 보겠습니다.
데이터(Data)는 (대개 수치로 표현되는) 정보 항목으로, 과학 작업으로 얻어진 것이 주로며 일반적으로 참고, 분석 또는 계산을 위해 모아집니다. 라틴어 'datum(주어진 것)'에서 비롯되었으며 사실을 의미합니다.
이러한 광범위한 정의는 데이터가 취할 수 있는 형태에 대한 충격적인 다양성을 허용합니다. 고등학교에서 화학 실험을 수행하고 실험 결과를 실험 노트북의 표에 기록했을 때 그것은 데이터입니다. 제임스 웹 우주 망원경이 태양계의 먼 지점을 사진으로 찍어, 픽셀 단위로 빛의 레벨을 기록했을 때 그것도 데이터입니다.
이러한 데이터의 다양성은 데이터 세트에서 측정되는 변수 유형의 다양성으로 더욱 정확하게 설명될 수 있습니다.
변수(Variable)는 측정 및 기록될 수 있는 대상 또는 관측 단위의 특성입니다. 화학 노트북에서는 가스의 온도와 압력과 같이 과학적으로 중요한 두 가지 변수를 기록할 수 있습니다그러나 등록국이 기록할 수 있는 다른 변수들을 상상할 수 있습니다. 예를 들면, 당신의 캘린포니아 대학교 학년, 전공 등이 있습니다. 각각의 경우, 일반적으로 측정 값이 객체에서 다른 객체로 이동할 때 변화하기 때문에 변수라고 합니다. 이름 변수의 값이 JIWOO 인 경우, 다른 학생에 대해 같은 변수를 기록하면 다른 값이 나올 수 있습니다.
변수 유형 변수의 주요 특성은 숫자형 또는 범주형 여부입니다.
숫자형 변수 숫자를 값으로 취하고 숫자의 크기가 양적 의미를 갖는 변수입니다. 대부분의 사람들은 "데이터"라고 생각할 때 일반적으로 숫자형 변수 (예 : 실험 노트북에 기록된 온도와 압력)를 떠올리지만 범주형 변수 (도 매우 흔합니다.
모든 숫자형 변수는 연속적인 변수 또는 이산형 변수 중 하나로 분류할 수 있습니다.
연속적인 숫자형 변수 실수 축간의 구간에서 값을 취하는 숫자형 변수입니다. 온도가 좋은 예입니다. 지구상의 외부 공기 온도를 화씨로 측정하는 경우 대략 -125도 F에서 +135도 F 사이의 값을 기록할 수 있습니다. 우리는 측정값을 가장 가까운 정수 도수로 반올림할 수 있지만 온도 자체는 이 범위에서 부드럽고 연속적으로 변화한다고 상상할 수 있습니다.
이산형 숫자형 변수의 좋은 예는 가구 규모입니다. 미국 인구 조사국이 매년 집집마다 데이터를 수집할 때 그 집에 살고 있는 사람 수를 기록합니다. 한 가구는 1명, 2명, 3명 또는 4명일 수 있지만 2.83944 명은 있을 수 없습니다. 이것은 이산형이며 이산적입니다.
두 유형의 숫자형 변수를 모두 통합하는 것은 숫자의 크기가 의미를 갖고 수학적 연산을 수행할 수 있다는 것입니다. 세 곳의 위치에서 공기 온도 평균에 대해 이야기하는 것이 가능하고 의미가 있습니다. 열 가구에서 살고 있는 모든 사람들의 총 합계에 대해 이야기하는 것도 가능하고 의미가 있습니다.
서수 변수로 이동하면 수학 연산을 수행하는 능력이 사라집니다. 모든 범주형 변수는 서수형 또는 명목형으로 분류할 수 있습니다. 서열 (Ordinal)범주형 변수는 자연적인 순서가 있는 레벨을 갖는 범주형 변수입니다. 명목형 (Nominal) 범주형 변수는 순서가 없는 레벨을 갖는 범주형 변수입니다.
의견 조사를 한 적이 있다면 Ordinal에 대해 들어봤을 것입니다. 다음 질문을 고려해보세요. "개가 고양이보다 좋다"라는 문장에 대해 "강하게 동의한다", "동의한다", "중립적이다", "반대한다", "강하게 반대한다"라는 답변을 받았다고 가정해봅시다. 이 질문에 대한 답변을 기록할 때, "강하게 동의한다", "동의한다", "중립적이다", "반대한다", "강하게 반대한다"라는 값들을 가지는 범주형 변수의 측정치를 기록합니다. 이들은 범주형 변수의 레벨이며, 이들은 자연적인 순서를 갖습니다. "강하게 동의한다"는 "동의한다"보다 "강하게 반대한다"보다 더 가깝습니다.
Nominal Categorical Variable과 대조해보겠습니다. 등록기에서 묻는 두 번째 질문을 고려해봅시다. "당신의 이름은 무엇인가요?" 이 경우 가능한 레벨은 "지우", "반달", "소피아" 등이 많이 있습니다. 하지만 이러한 레벨은 자연적인 순서가 없습니다. 사실, 이것은 명목 범주형 변수의 매우 적절한 예시입니다. 왜냐하면 단어 자체가 라틴어 nomen, 즉 "이름"에서 파생되었기 때문입니다.
'R Studio 통계' 카테고리의 다른 글
그래프의 종류 - 쓰임 (0) | 2023.05.03 |
---|---|
데이터 분류(수치형 변수- 연속형, 이산형 & 범주형 변수 - 순서형, 명목형) (0) | 2023.05.02 |
확률 변수(random variable) 와 확률 분포(probability distribution) (0) | 2023.04.28 |
R Studio 배우기 (0) | 2023.04.25 |
스탯 헛소리 캠프에 오신 걸 환영합니다. (0) | 2023.04.25 |