1. 빅데이터 정의 유형 속성
2. 빅데이터 처리 과정 및 과정별 기술
3. 빅데이터 보안
이렇게 크게 세 가지에 대해서 알아보자
빅데이터 개요
등장 배경
인터넷의 확산 | 정형화/비정형화된 데이터의 무수한 발생 |
개인화 서비스와 sns의 확산 | 기본 인터넷 서비스 환경 재구성 |
스마트폰의 보급 | 데이터의 빠른 추적 |
1970 ----------------------------------------------------> 2030 | |||
데이터 규모 | EB(핵사바이트) | ZB(제타바이트) 진입 | ZB 본격화 시대 |
데이터 유형 | 정형 데이터 | 비정형 데이터 | 사물 정보, 인지 정보 |
데이터베이스, 사무 정보 | SNS, 멀티미디어 | RFID, 센서, 사물 정보 | |
데이터 특성 | 구조화 | 다양성, 복합성, 소셜 | 현실성, 실시간성 |
정의
- 2011년 맥킨지 보고서 : 기존 데이터에 비해 너무 커서 기존 방법이나 도구로 수집, 저장, 검색, 분석, 시각화 등이 어려운 정형 또는 비정형 데이터
- TTA 정보 통신 용어 사전 : 기존의 관리 방법이나 분석 체계로는 처리하기 어려운 방대한 양(데이터 특성 측면)의 정형, 반정형, 비정형 데이터의 집합 OR 데이터 집합을 수집, 저장, 관리, 분석, 시각화하는 정보통신 기술 분야(기술 분야 측면)
- 기술 분야 측면에서의 정의 : 규모만 큰 데이터일 뿐만 아니라, 다양한 종류의 대규모 데이터로부터 가치를 추출하고, 데이터의 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐 → 대규모 데이터를 저장 및 관리하는 기술과 가치 있는 정보를 만들기 위해 분석하는 기술 포함
빅데이터 유형
정형 데이터 | 반정형 데이터 | 비정형 데이터 |
미리 정해놓은 형식과 구조 | - 데이터의 형식과 구조가 변경될 수 있는 데이터 | 정의된 구조가 없이 정형화되지 않은 데이터 |
- 데이터의 구조 정보를 데이터와 함께 제공하는 파일 형식의 데이터 | ||
RDB, Spreadsheet, CSV | HTML, XML, JSON | 동영상 파일, 오디오 파일, 사진, 문서, 메일 본문 |
데이터에 대한 부분 검색 및 선택, 갱신, 삭제 등의 operation 수행 | 파일에 포함된 데이터 구조 정보를 바탕으로 테이블 형태의 DB 스키마로 변환 | 데이터 특징을 기반 반정형/정형 데이터로 변환하는 전처리 필요 (텍스트 - NLP) (미디어 - 노이즈 제거, ML) |
질의 처리가 어려워 데이터 분석 시 정형 데이터로 변환하여 사용 | 데이터가 생성되는 시간대의 다양한 사회적, 문화적, 공간적 현상을 반영 |
빅데이터 속성(3V)
- 대용량의 정형, 반정형, 비정형 데이터의 집합
규모(크기) - Volume | 속도 - Velocity | 다양성 - Variety |
물리적인 데이터의 양 | 데이터의 고도화된 실시간 처리 | 데이터의 다양한 형태 |
TB 테라바이트 단위 이상의 대량 | 수집, 저장, 분석, 시각화 | 정형, 반정형, 비정형 |
- 확장된 특성 4V/5V/6V/7V
진실성 - Veracity | 가치 - Value | 가변성 - Variability | 시각화 - Visualization |
가치 있는 결과를 위한 신뢰 | 분석 결과가 의사 결정에 활용될 수 있도록 | 맥락에 따른 가변성을 고려 | 분석 결과가 이해하기 쉽게 시각화 필요 |
데이터의 원래 의미가 그대로 반영될 수 있도록 (특히, 텍스트 데이터) |
|||
가공/전처리 시 높은 정확성 유지할 수 있어야 | 데이터로 어떤 가치있는 정보를 만들 것인가 | 기술된 문장이 어떠한 의미를 가지고 있는가 |
빅데이터 처리 과정(Big Data Life Cycle) 및 과정별 기술
데이터 소스
- 의미 있는 분석을 위해서는 데이터의 양이 중요
- 내부 데이터 : from DBMS
- 외부 데이터: 소셜미디어, 공공데이터 등
생성 및 수집
- 내부 데이터 수집 : 자체 내부 파일 시스템, DBMS, 센서 등에서 정형 데이터 수집
- 외부 데이터 수집 : 인터넷 매체를 통한 정형, 반정형, 비정형 데이터 수집
- 방법 : 크롤링, 로그 수집기, 센싱, RSS 리더/오픈 API, ETL
- 개인 정보 수집 시 사전에 데이터 사용에 대한 허가 필요
저장
- 정형, 반정형, 비정형에 따라 적절한 방법으로 빅데이터 시스템에 저장
- 분산 파일 시스템에 저장 : 컴퓨터 네트워크로 공유하는 여러 호스트 파일에 접근 가능한 파일 시스템 (S3)
- NoSQL : 관계형 데이터 모델과 SQL을 사용하지 않는 모든 DBMS, 데이터 저장 장치
→ H베이스, 몽고DB 등
→ RDBMS에 비해 저렴한 비용으로 분산 및 병렬 처리 가능
→ 비정형 데이터 저장 가능
- 병렬 DBMS : 여러 디스크의 질의, 생신, 입출력 등 DB 처리를 동시에 수행하는 DBMS
- 네트워크 구성 저장 시스템 : 서로 다른 종류의 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 저장 및 관리
- 하둡 : 대용량 데이터를 분산 처리 할 수 있는 자바 기반의 오픈 소스 프레임워크
→ HDFS 분산 파일 시스템에 저장
→ MapReduce 분산 처리 시스템 이용해 데이터 처리
처리
- 수집한 데이터들을 실시간으로 일괄 처리
- 데이터를 분석할 수 있는 형태로 전처리
- 데이터 재배치
- 분석 결과 신뢰성 확보를 위한 오류 데이터 파악 및 제거
- 방법
→ 일괄 처리 기술 : 맵리듀스, 하둡, R
→ 실시간 처리 기술 : 스트림 기반
분석
- 수학적 기법, 데이터 마이닝, 분류, 클러스터링, 감정 분석(긍정/부정, 좋음/나쁨, 만족/불만족), DL, ML 등 AI 기술을 통해 분석 결과 생성
- 데이터 안에 숩겨진 유용한 정보, 지식, 가치를 찾아내기 위한 가공 과정
- 정형 데이터 및 다양한 형태의 비정형 데이터를 기반으로 대용량 데이터 처리
→ 기존 데이터 분석 기술 + 빅데이터 특징
- ex) SQL 문으로 데이터 추출하여 분석하는 과정
표현(시각화) & 활용
- 분석된 데이터를 공유/공개하는 단계
- 방법 : R, 파이썬, 태블로
폐기
- 더 이상 사용하지 않는 데이터, 데이터 제공자로부터의 허가된 사용 기간 이후 안전한 폐기
- 정보보호 측면에서 중요
- 방법 : 오버라이팅, 디가우싱
빅데이터 보안
크게 개인정보 보호 이슈(수집~폐기 단계의 개인 정보에 초점)와 빅데이터 시스템 보안(하둡 같은 시스템 자체 보안) 이슈로 나뉜다.
개인정보 처리 과정별 보안 이슈
빅데이터 수집 | 빅데이터 저장 | 빅데이터 처리 및 분석 | 빅데이터 시각화 | 빅데이터 폐기 |
개인 정보 포함 여부 확인 필요 | 안전한 저장 및 관리 | 익명화 (개인 정보 제거한 형태로 분석 등) |
분석된 정보 무단 이용 X | 활용 이후 완전하게 폐기 |
유출 가능성 존재 | 암호화로 안전성 확보 | 암호화 (데이터 암호화하여 저장 후 암호화된 형태로 처리) |
||
사전/사후 동의 필요 | DBMS에 대한 논리적, 물리적 접근 통제 칠요 | 데이터 처리 과정의 투명성 확보 | 개인정보 침해 우려있는 정보 생성 우려 | |
수집되는 데이터에 대한 접근 통제 필요 (어떤 사람만 수집/저장 가능한지) |
데이트 라벨링 및 필터링 | 이용 목적 외의 처리 및 분석 방지 |
로또 당첨번호이면 좋겠지만 11, 13, 17, 18, 19, 21(종강일 == 해방일~~~~~) 기말고사 치는 날짜들.. 이 날짜에 7개의 시험을 보고 16일까지 마감인 과제가 또 여러 개 있다.. 그저 화이팅 으아아아아아아아아아아아아아아악
'Information Security' 카테고리의 다른 글
[DB보안] 빅데이터 생명 주기에 따른 보안 기술 (0) | 2024.06.13 |
---|---|
[DB보안] 접근제어 모델(정책) 유형 4가지 (2) : 역할기반, 속성기반 접근제어 (0) | 2024.06.03 |
[DB보안] 접근제어 모델(정책) 유형 4가지 (1) : 임의적, 강제적 접근제어 (0) | 2024.06.03 |
[DB보안] 데이터베이스 접근제어 설계 및 구축 (0) | 2024.06.03 |
[DB보안] 데이터베이스 암호화 설계, 구축, 운영 및 MySQL DBMS 암호화 (0) | 2024.05.28 |