728x90

ML,DL,Bigdata 5

[Spark] Apache Spark

Big Data? 요새 여기저기서 너도 나도 빅데이터 빅데이터 합니다. 사실 단어 그대로 매우 큰 데이터가 빅데이터이구요. 하지만 말그대로 '큰 데이터'라고 빅데이터라고만 하는건 아닐테니 통상적으로 쓰이는 '빅데이터'라는 의미가 무엇인지 알아보겠습니다. "빅데이터란 기존의 데이터베이스 관리도구 능력을 넘어서는 대량의 정형 또는 비정형 데이터(DB 형태가 아닌데이터)의 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다." 위키피디아가 말해준 빅데이터입니다. '기존 DB에서 처리하기 힘든 대량의 데이터'와 이곳에서 가치를 추출하고 분석하는것이 빅데이터의 정의이자 핵심이라고 보면 되겠네요. Why Spark? 빅데이터의 효율적 관리, 처리를 위해 구글에서 2004년 MapReduce란 기술..

데이터 전처리(Sampling, Handling, Partition 등)

데이터의 처리에 대해서 알아보자. 데이터 전처리라 하면 너무 포괄적인 개념이지만 몇몇가지 중요 개념 위주로 살펴볼 것이다. 내용으로 들어가기 전에 데이터마이닝의 기본단계를 살펴보자 Define/understand purpose Obtain data (may involve random sampling) Explore, clean, pre-process Reduce the data; if suprevised DM, partition it Specify task (classification, clustering etc.) Choose the techniques(regression, Neural networks, etc) Iterative implementation and tuning Assess result ..

2. Data Visualization

오늘은 R을 이용한 데이터시각화 예제를 몇가지 다뤄볼 것이다. 데이터 분석을 크게 3가지로 나타내면 Data processing(데이터처리), Modeling(모델링), Visualization(시각화)로 나타낼 수 있다. 기본 통계적 방법을 이용한 시각화(회귀분석 그래프, 산점도, 히스토그램 등)의 예제는 제외하고 오늘은 titanic 데이터를 이용해 시각화 예제를 다뤄보자. 1) Data, package load #데이터 & 패키지 불러오기 library(data.table) library(ggplot2) titanic = read.csv('titanic.csv') https://cran.r-project.org/web/packages/data.table/vignettes/datatable-intro..

1-2. Process and Purpose of Big Data Analysis

1. Infra Technique in Big Data 빅데이터의 분석만큼이나 더욱 중요한건 데이터의 수집과 관리이다. 실제로 데이터 분석(Analysis)단계보다 초기단계의 데이터 수집과 관리(Collection and Management)가 훨씬 큰 비중을 차지한다. 100%의 전체 비중에서 보았을때 Collection and Management : 95% vs Analysis : 5% 라고 많이들 이야기한다. 물론 이러한 데이터 수집과 관리를 유용하게 하는 다양한 툴들이 있다. 1) Hadoop HDFS(Hadoop Distributed File System)기반의 오픈소스이다. 다양한 데이터 서버를 이용해 Virtual HDFS를 구성하고, MapReduce Framework를 통해 큰 사이즈의 ..

1. Introduction to Data Mining

오늘은 데이터마이닝에 대한 전반적인 개념, 바라봐야할 시각에 대해 알아볼 것이다. 1. 데이터마이닝이란 무엇인가? 데이터마이닝을 한줄로 설명하자면 "대량의 데이터 집합으로부터 유용한 정보를 추출하는 것" (A collection of systemic and reasonable ways to extract meaningful information from extensive data sets.) 데이터마이닝은 Traditional approach, Data-driven approach로 바라볼 수 있다. - Traditional approach 우리가 관심있는 Signal에 대한 모델 형성(주로 stochastic한 모델) 이 모델을 시스템 디자인을 위해 활용 - 우리는 그곳에서 우리가 필요한 정보를 추출해..

728x90