목록Programming Language/R (13)
091
1. 회귀분석 이론- 회귀분석이란 과거 데이터로 변수들 간의 관계식을 찾아서 새 데이터의 결과값을 예측하는 지도 학습의 일종입니다. 이런 관계식은 독립변수, 종속변수 등으로 이루어집니다. 독립변수(x)종속변수(y)의미결과에 영향을 미치는 변수독립변수로 인해 나타난 결과다른 이름입력변수, 설명변수, 특성출력변수, 반응변수, 타겟 - 회귀 모델에는 여러 종류가 있지만 이 글에서는 다중회귀분석과 로지스틱 회귀분석에 대해 주로 다룰 것입니다. 일반 선형회귀분석은 아래 글에서 학습할 수 있습니다.종류독립변수종립변수함수예시단순선형 회귀1개연속형 숫자lm()키->혈당수치다중선형 회귀여러 개연속형 숫자lm()키+몸무게->혈당수치로지스틱 회귀여러 개범주형(분류)glm()키+몸무게->당뇨 여부-> lm()과 glm()의 ..
1. 군집분석 이론- 군집분석이란 정답(Label)이 없는 데이터에서 비슷한 것들끼리 자동으로 묶는 비지도 학습 중 일종입니다. 군집분석에는 계층적 군집과 분할적 군집으로 나뉩니다.• 계층적 군집은 각 관측지를 하나의 최초 군집으로 지정한 후, 한번에 두개씩 하나의 군집으로 생성합니다. 모든 군집들이 하나의 군집이 될 때까지 군집들을 결합해 나가는 방법입니다.• 분할적 군집은 처음에 군집수인 k를 지정한 후, 관측치들을 무작위로 k개의 집단으로 분할해줍니다. 다양한 기준(평균값, 최빈값 등)을 이용하여 centroid를 수정해 나가며 집단을 다시 재분류하는 방법입니다. 계층적 군집분할적 군집방법모든 데이터를 하나씩 합쳐가며 계층 형성처음에 k개 그룹으로 쪼개고 계속 재조정k 지정불필요필요결과트리 구조(..
1. 텍스트 마이닝 이론 - 텍스트 마이닝이란 비정형 텍스트 데이터를 숫자 데이터로 변환해주는 핵심 기술입니다. 머신 러닝은 숫자만을 다룰 수 있지만, SNS,리뷰, 뉴스 등의 대부분의 실제 데이터가 텍스트이기 때문에 분석 가능한 데이터로 만들기 위해 필요합니다. (ex) 자연어 처리, 데이터 마이닝, 기계 학습 - 감성분석(Sentiment Analysis)는 덱스트 데이터에서 감정,의견,태도를 자동으로 파악하고 분류하는 컴퓨터 과학 및 데이터 분석의 한 방법입니다. 감성분석 절차: (1)(2)(3)감성사전 구축 -> (4)(5)말뭉치 데이터 수집 및 저장 -> 감성 분석 -> 결과 시각화 및 분석* 말뭉치(Corpus)란 여러개의 문장을 모아놓은 텍스트 집합으로, 내부에서 이런 구조를 차용하여 분석..
1. 연관규칙분석 이론 - 머신러닝이란 학습 데이터의 패턴을 "학습"한 후 새로운 데이터에 대해 정확한 추론을 할 수 있는 알고리즘에 초점을 맞춘 인공 지능(AI)의 하위 집합입니다.(출처: ibm think) 머신 러닝이란 무엇인가요? | IBM머신 러닝은 새로운 데이터에 대한 정확한 추론을 하기 위해 학습 데이터의 패턴을 분석하고 "학습"하는 알고리즘에 초점을 맞춘 AI의 하위 집합입니다.www.ibm.com- 연관규칙분석이란 정답(Label)이 없는 데이터에서 항목 간의 숨겨진 패턴을 찾는 비지도 학습 중 일종입니다. 항목들 간의 조건->결과 패턴을 발견하는 기법이기도합니다.-> [ A -> B ](만약 A를 샀다면 B도 산다)라는 구조에서 A(LHS, Left Hand Side)는 조건부, B(..
1. 데이터 시각화- 데이터 시각화란 숫자 형태의 데이터를 그래프나 그림 등의 형태로 표현하는 과정을 의미합니다. 이 글에서는 treemap과 R 내장함수 중 버블차트를 만드는 함수와 그리고 ggplot을 이용해 이전에 설명했던 것보다 더 미적인 그래프를 그리는 것에 대해 설명합니다.par(family = "AppleGothic") #mac 그래프 한글install.packages("treemap")install.packages("ggplot2")library(treemap)library(ggplot2)-> 외부 라이브러리를 사용하기 위해 install.packages() 함수를 사용해 다운 받고 library() 함수를 통해 import 해줍니다. (1) treemap은 전체 데이터를 사각형으로 보고 ..
1. 결측값과 특이값- 결측값이란 데이터를 수집하고 저장하는 과정에서 저장할 값을 얻지 못하는 경우에 발생하는 값으로, R에서는 NA(Not Available)로 표현합니다. 결측값을 제거, 제외하거나 적당한 값으로 치환하는 방식으로 데이터를 전처리합니다.z -> 결측값이 있는 상태로, 백터의 연산을 시도하면 NA가 출력됩니다. NA를 0으로 치환하여 준 뒤에 다시 합을 해줘야 원하는 값을 받을 수 있습니다. -> 결측값을 찾을 때는 is.na() 함수를 통해 개수를 해당 백터의 요소가 NA인지에 대한 참/거짓을 출력하고 이를 sum() 함수를 통해 개수를 받을 수 있습니다.x -> 직접 만든 함수인 NA의 개수를 반환하는 함수인 col_na를 사용하여 na_count의 개수를 반환하는 로직으로 appl..
1. 자료- 자료의 특성과 변수의 개수에 따른 분류를 통해 범주/연속형 자료로, 단일/다중변수 자료로 나눌 수 있습니다.-> 자료의 특성에 따른 분류• 범주형 자료: 숫자의 크고 작음이 아니라, 종류나 그룹으로 구분하기 위해 수집된 데이터로, 성별, 혈액형, 선호하는 색 등이 있습니다. R에는 factor라는 타입으로 다룰 가능성이 높습니다.• 연속형 자료: 측정이나 계량을 통해 얻어진 숫자 형태의 데이터로, 값들끼리 대소 비교나 평균, 최소, 최대 등의 산술 연산이 가능합니다. -> 변수의 개수에 따른 분류• 단일변수 자료: 딱 한가지의 변수만 측정하여 모은 데이터로, 열이 하나인 상태라고 보면 됩니다. 일변량 자료라고도 합니다. • 다중변수 자료: 두 개 이상의 변수를 동시에 측정하여 모은 데이터이..
1. 조건문 & 반복문- if-else & ifelsescore 90){ grade 80){ grade -> if-else if-else문은 다른 언어 기타 언어들과 거의 같은 사용법을 가지고 있습니다. 중요한 점은 else는 이전 if문의 }(닫는 괄호)와 같은 주에 있어야 error가 발생하지 않습니다. 그리고 만약 길이가 1이상의 논리값을 any(...), all(...)없이 집어넣는 경우, 첫번째 값만을 사용하게 됩니다.job.type -> ifelse문은 다른언어의 삼항 연산자와 거의 같은 사용법을 가지고 있습니다. ifelse는 벡터화가 가능하기 때문에 여러 값이 test값에 들어가도 전부 적용 가능합니다. - for/whilefor(i in 6:10){ print(i)}#[1] 6..
