본문 바로가기
Information Security

[DB보안] 빅데이터의 정의와 속성에 따른 처리 과정 및 보안 이슈

by rla124 2024. 6. 10.

1. 빅데이터 정의 유형 속성 

2. 빅데이터 처리 과정 및 과정별 기술

3. 빅데이터 보안 

이렇게 크게 세 가지에 대해서 알아보자

 

빅데이터 개요

등장 배경

인터넷의 확산 정형화/비정형화된 데이터의 무수한 발생
개인화 서비스와 sns의 확산 기본 인터넷 서비스 환경 재구성
스마트폰의 보급 데이터의 빠른 추적

 

1970                 ---------------------------------------------------->                  2030
데이터 규모 EB(핵사바이트) ZB(제타바이트) 진입 ZB 본격화 시대
데이터 유형 정형 데이터 비정형 데이터 사물 정보, 인지 정보
데이터베이스, 사무 정보 SNS, 멀티미디어 RFID, 센서, 사물 정보
데이터 특성 구조화 다양성, 복합성, 소셜 현실성, 실시간성

 

정의

- 2011년 맥킨지 보고서 : 기존 데이터에 비해 너무 커서 기존 방법이나 도구로 수집, 저장, 검색, 분석, 시각화 등이 어려운 정형 또는 비정형 데이터

- TTA 정보 통신 용어 사전 : 기존의 관리 방법이나 분석 체계로는 처리하기 어려운 방대한 양(데이터 특성 측면)의 정형, 반정형, 비정형 데이터의 집합 OR 데이터 집합을 수집, 저장, 관리, 분석, 시각화하는 정보통신 기술 분야(기술 분야 측면)

- 기술 분야 측면에서의 정의 : 규모만 큰 데이터일 뿐만 아니라, 다양한 종류의 대규모 데이터로부터 가치를 추출하고, 데이터의 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐 → 대규모 데이터를 저장 및 관리하는 기술과 가치 있는 정보를 만들기 위해 분석하는 기술 포함

 

빅데이터 유형

 

정형 데이터 반정형 데이터 비정형 데이터 
미리 정해놓은 형식과 구조  - 데이터의 형식과 구조가 변경될 수 있는 데이터  정의된 구조가 없이 정형화되지 않은 데이터
- 데이터의 구조 정보를 데이터와 함께 제공하는 파일 형식의 데이터
RDB, Spreadsheet, CSV  HTML, XML, JSON 동영상 파일, 오디오 파일, 사진, 문서, 메일 본문
데이터에 대한 부분 검색 및 선택, 갱신, 삭제 등의 operation 수행 파일에 포함된 데이터 구조 정보를 바탕으로 테이블 형태의 DB 스키마로 변환  데이터 특징을 기반 반정형/정형 데이터로 변환하는 전처리 필요
(텍스트 - NLP)
(미디어 - 노이즈 제거, ML)
질의 처리가 어려워 데이터 분석 시 정형 데이터로 변환하여 사용 데이터가 생성되는 시간대의 다양한 사회적, 문화적, 공간적 현상을 반영

 

 

빅데이터 속성(3V)

- 대용량의 정형, 반정형, 비정형 데이터의 집합 

규모(크기) - Volume 속도 - Velocity 다양성 - Variety
물리적인 데이터의 양 데이터의 고도화된 실시간 처리 데이터의 다양한 형태
TB 테라바이트 단위 이상의 대량 수집, 저장, 분석, 시각화 정형, 반정형, 비정형

 

- 확장된 특성 4V/5V/6V/7V

진실성 - Veracity 가치 - Value 가변성 - Variability 시각화 - Visualization
가치 있는 결과를 위한 신뢰 분석 결과가 의사 결정에 활용될 수 있도록 맥락에 따른 가변성을 고려 분석 결과가 이해하기 쉽게 시각화 필요
데이터의 원래 의미가 그대로 반영될 수 있도록
(특히, 텍스트 데이터)
가공/전처리 시 높은 정확성 유지할 수 있어야  데이터로 어떤 가치있는 정보를 만들 것인가  기술된 문장이 어떠한 의미를 가지고 있는가

 

 


빅데이터 처리 과정(Big Data Life Cycle) 및 과정별 기술 

 

데이터 소스

- 의미 있는 분석을 위해서는 데이터의 양이 중요

- 내부 데이터 : from DBMS

- 외부 데이터: 소셜미디어, 공공데이터 등 

 

생성 및 수집

- 내부 데이터 수집 : 자체 내부 파일 시스템, DBMS, 센서 등에서 정형 데이터 수집

- 외부 데이터 수집 : 인터넷 매체를 통한 정형, 반정형, 비정형 데이터 수집

- 방법 : 크롤링, 로그 수집기, 센싱, RSS 리더/오픈 API, ETL

- 개인 정보 수집 시 사전에 데이터 사용에 대한 허가 필요

 

저장

- 정형, 반정형, 비정형에 따라 적절한 방법으로 빅데이터 시스템에 저장

- 분산 파일 시스템에 저장 : 컴퓨터 네트워크로 공유하는 여러 호스트 파일에 접근 가능한 파일 시스템 (S3)

- NoSQL : 관계형 데이터 모델과 SQL을 사용하지 않는 모든 DBMS, 데이터 저장 장치

  → H베이스, 몽고DB 등

  → RDBMS에 비해 저렴한 비용으로 분산 및 병렬 처리 가능

  → 비정형 데이터 저장 가능

- 병렬 DBMS : 여러 디스크의 질의, 생신, 입출력 등 DB 처리를 동시에 수행하는 DBMS

- 네트워크 구성 저장 시스템 : 서로 다른 종류의 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 저장 및 관리

- 하둡 : 대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈 소스 프레임워크

  → HDFS 분산 파일 시스템에 저장

  → MapReduce 분산 처리 시스템 이용해 데이터 처리  

 

처리

- 수집한 데이터들을 실시간으로 일괄 처리

- 데이터를 분석할 수 있는 형태로 전처리

- 데이터 재배치

- 분석 결과 신뢰성 확보를 위한 오류 데이터 파악 및 제거

- 방법

  →  일괄 처리 기술 : 맵리듀스, 하둡, R

  → 실시간 처리 기술 : 스트림 기반 

 

분석

- 수학적 기법, 데이터 마이닝, 분류, 클러스터링, 감정 분석(긍정/부정, 좋음/나쁨, 만족/불만족), DL, ML 등 AI 기술을 통해 분석 결과 생성

- 데이터 안에 숩겨진 유용한 정보, 지식, 가치를 찾아내기 위한 가공 과정

- 정형 데이터 및 다양한 형태의 비정형 데이터를 기반으로 대용량 데이터 처리

    → 기존 데이터 분석 기술 + 빅데이터 특징

- ex) SQL 문으로 데이터 추출하여 분석하는 과정

 

표현(시각화) & 활용

- 분석된 데이터를 공유/공개하는 단계

- 방법 : R, 파이썬, 태블로 

 

폐기

- 더 이상 사용하지 않는 데이터, 데이터 제공자로부터의 허가된 사용 기간 이후 안전한 폐기

- 정보보호 측면에서 중요 

- 방법 : 오버라이팅, 디가우싱

 

 


빅데이터 보안

크게 개인정보 보호 이슈(수집~폐기 단계의 개인 정보에 초점)와 빅데이터 시스템 보안(하둡 같은 시스템 자체 보안) 이슈로 나뉜다.

 

개인정보 처리 과정별 보안 이슈

빅데이터 수집 빅데이터 저장 빅데이터 처리 및 분석 빅데이터 시각화 빅데이터 폐기
개인 정보 포함 여부 확인 필요 안전한 저장 및 관리 익명화
(개인 정보 제거한 형태로 분석 등)
분석된 정보 무단 이용 X 활용 이후 완전하게 폐기
유출 가능성 존재 암호화로 안전성 확보 암호화
(데이터 암호화하여 저장 후 암호화된 형태로 처리)
사전/사후 동의 필요  DBMS에 대한 논리적, 물리적 접근 통제 칠요 데이터 처리 과정의 투명성 확보  개인정보 침해 우려있는 정보 생성 우려
수집되는 데이터에 대한 접근 통제 필요
(어떤 사람만 수집/저장 가능한지)
데이트 라벨링 및 필터링 이용 목적 외의 처리 및 분석 방지

 

 


로또 당첨번호이면 좋겠지만 11, 13, 17, 18, 19, 21(종강일 == 해방일~~~~~) 기말고사 치는 날짜들.. 이 날짜에 7개의 시험을 보고 16일까지 마감인 과제가 또 여러 개 있다.. 그저 화이팅 으아아아아아아아아아아아아아아악