ML,DL,Bigdata/Data Mining

1. Introduction to Data Mining

주죵 2020. 7. 9. 15:33
728x90
반응형

오늘은 데이터마이닝에 대한 전반적인 개념, 바라봐야할 시각에 대해 알아볼 것이다.

 

1. 데이터마이닝이란 무엇인가?

데이터마이닝을 한줄로 설명하자면

 

"대량의 데이터 집합으로부터 유용한 정보를 추출하는 것"

(A collection of systemic and reasonable ways to extract meaningful information from extensive data sets.)

 

 

데이터마이닝은 Traditional approach, Data-driven approach로 바라볼 수 있다.

- Traditional approach

  • 우리가 관심있는 Signal에 대한 모델 형성(주로 stochastic한 모델)
  • 이 모델을 시스템 디자인을 위해 활용 - 우리는 그곳에서 우리가 필요한 정보를 추출해냄

- Data-Driven approach

  • 우리가 관심있는 Signal의 수많은 examples을 get
  • 미래의 관심있는 signal에 대한 정보를 automatical하게 파악

이게 뭔소린가 싶을것이다. 그게 그거같아보이는데.

이해를 돕기위해 Data Analysis에 대한 approach와 함께 비교해보자

 

Two approaches in Data Analysis

Traditional Top-Down approach Bottom-up Data-driven approach
데이터를 위해 주어진 모델에서 optimal algorithm을 구현
데이터가 아니라 '모델' 즉 Theory부터 시작된다
위에서 다룬 Traditional apporach와 같은 맥락
Data를 기반으로 시작되는 learning approach
주어진 example을 바탕으로 좋은 알고리즘을 구현
위에서 다룬 Data-Driven approach와 같은맥락

위의 표와 그림을 보고 비교를 해본다면 쉽게 이해될것이라 생각된다.

 

2. Big-Data 활용의 예시들

빅데이터 활용의 예시는 워낙 많기 때문에 자세히 다루진 않을것이다. 인터넷 서핑만 해봐도 홍수처럼 나오는 정보기 때문이다. 간단히 설명하자면 다양한 추천시스템과 예측시스템은 물론이며, 데이터마이닝과 같은 분석을 통해 나온 정보는 Business decision making에 활용된다.

 

3. 빅데이터란 무엇인가?

큰 크기(Volume), 다양성(Variety), 속도(Velocity)를 지닌 데이터들은 전통적 방법으로 처리하기 쉽지 않다. 우리는 이러한 3V의 특징을 지닌 데이터를 빅데이터라고 부른다. 여기에 정확성(Veracity), 시각화(Visualization), 가치(Value)를 더해 6V로 표현하기도 한다.

시장과 기술의 발달로 인해 우리는 오늘날 수많은 데이터를 저장, 처리할수 있게 되었다. 구체적인 예를 들며 이야기 해보자면 센서기술의 발달은 다양한 환경에서의 데이터 수집을 가능하게 했고, 메모리 성능과 가격의 하락은 저장능력과 처리속도를 향상시켰다. 복잡한 계산들에 대한 처리능력 증가도 가능해졌다. 이와 동시에 다양한 information oriented service들이 쉽고 smart해졌다. 이는 다양한 데이터 수집과 처리를 가능하게함과 동시에 빅데이터 산업과 기술 발전을 이뤄냈다.

 

4. Unstructured Data

다양성에서 나타나는 Unstructured Data 즉 비정형 데이터는 무엇일까? 전통적인 데이터 관리, 분석으로는 다루기 쉽지 않은 데이터들을 Unstructured Data라고 한다. 예를 들어, 텍스트데이터, 이미지, 비디오클립 등등이 있다. 이에 더해 XML이나 HTML 로그 데이터 등은 Semi-Unstructured Data로 분류된다.

 

 

 

 

Reference : Data mining Class material, Hanyang Univ Dept. of Industrial Engineering

 

728x90