728x90

ML,DL,Bigdata/Data Mining 4

데이터 전처리(Sampling, Handling, Partition 등)

데이터의 처리에 대해서 알아보자. 데이터 전처리라 하면 너무 포괄적인 개념이지만 몇몇가지 중요 개념 위주로 살펴볼 것이다. 내용으로 들어가기 전에 데이터마이닝의 기본단계를 살펴보자 Define/understand purpose Obtain data (may involve random sampling) Explore, clean, pre-process Reduce the data; if suprevised DM, partition it Specify task (classification, clustering etc.) Choose the techniques(regression, Neural networks, etc) Iterative implementation and tuning Assess result ..

2. Data Visualization

오늘은 R을 이용한 데이터시각화 예제를 몇가지 다뤄볼 것이다. 데이터 분석을 크게 3가지로 나타내면 Data processing(데이터처리), Modeling(모델링), Visualization(시각화)로 나타낼 수 있다. 기본 통계적 방법을 이용한 시각화(회귀분석 그래프, 산점도, 히스토그램 등)의 예제는 제외하고 오늘은 titanic 데이터를 이용해 시각화 예제를 다뤄보자. 1) Data, package load #데이터 & 패키지 불러오기 library(data.table) library(ggplot2) titanic = read.csv('titanic.csv') https://cran.r-project.org/web/packages/data.table/vignettes/datatable-intro..

1-2. Process and Purpose of Big Data Analysis

1. Infra Technique in Big Data 빅데이터의 분석만큼이나 더욱 중요한건 데이터의 수집과 관리이다. 실제로 데이터 분석(Analysis)단계보다 초기단계의 데이터 수집과 관리(Collection and Management)가 훨씬 큰 비중을 차지한다. 100%의 전체 비중에서 보았을때 Collection and Management : 95% vs Analysis : 5% 라고 많이들 이야기한다. 물론 이러한 데이터 수집과 관리를 유용하게 하는 다양한 툴들이 있다. 1) Hadoop HDFS(Hadoop Distributed File System)기반의 오픈소스이다. 다양한 데이터 서버를 이용해 Virtual HDFS를 구성하고, MapReduce Framework를 통해 큰 사이즈의 ..

1. Introduction to Data Mining

오늘은 데이터마이닝에 대한 전반적인 개념, 바라봐야할 시각에 대해 알아볼 것이다. 1. 데이터마이닝이란 무엇인가? 데이터마이닝을 한줄로 설명하자면 "대량의 데이터 집합으로부터 유용한 정보를 추출하는 것" (A collection of systemic and reasonable ways to extract meaningful information from extensive data sets.) 데이터마이닝은 Traditional approach, Data-driven approach로 바라볼 수 있다. - Traditional approach 우리가 관심있는 Signal에 대한 모델 형성(주로 stochastic한 모델) 이 모델을 시스템 디자인을 위해 활용 - 우리는 그곳에서 우리가 필요한 정보를 추출해..

728x90