728x90

데이터마이닝 3

데이터 전처리(Sampling, Handling, Partition 등)

데이터의 처리에 대해서 알아보자. 데이터 전처리라 하면 너무 포괄적인 개념이지만 몇몇가지 중요 개념 위주로 살펴볼 것이다. 내용으로 들어가기 전에 데이터마이닝의 기본단계를 살펴보자 Define/understand purpose Obtain data (may involve random sampling) Explore, clean, pre-process Reduce the data; if suprevised DM, partition it Specify task (classification, clustering etc.) Choose the techniques(regression, Neural networks, etc) Iterative implementation and tuning Assess result ..

2. Data Visualization

오늘은 R을 이용한 데이터시각화 예제를 몇가지 다뤄볼 것이다. 데이터 분석을 크게 3가지로 나타내면 Data processing(데이터처리), Modeling(모델링), Visualization(시각화)로 나타낼 수 있다. 기본 통계적 방법을 이용한 시각화(회귀분석 그래프, 산점도, 히스토그램 등)의 예제는 제외하고 오늘은 titanic 데이터를 이용해 시각화 예제를 다뤄보자. 1) Data, package load #데이터 & 패키지 불러오기 library(data.table) library(ggplot2) titanic = read.csv('titanic.csv') https://cran.r-project.org/web/packages/data.table/vignettes/datatable-intro..

1. Introduction to Data Mining

오늘은 데이터마이닝에 대한 전반적인 개념, 바라봐야할 시각에 대해 알아볼 것이다. 1. 데이터마이닝이란 무엇인가? 데이터마이닝을 한줄로 설명하자면 "대량의 데이터 집합으로부터 유용한 정보를 추출하는 것" (A collection of systemic and reasonable ways to extract meaningful information from extensive data sets.) 데이터마이닝은 Traditional approach, Data-driven approach로 바라볼 수 있다. - Traditional approach 우리가 관심있는 Signal에 대한 모델 형성(주로 stochastic한 모델) 이 모델을 시스템 디자인을 위해 활용 - 우리는 그곳에서 우리가 필요한 정보를 추출해..

728x90