[쉽게 따라하는 데이터 분석] 1강 - 3강
1강. 데이터 분석의 목적과 활용 사례
데이터 분석 Data Analysis
유용한 정보를 발견하고 의사 결정을 지원할 목적으로 데이터를 정리, 변환 및 모델링하는 과정
빅데이터 Big Data
대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 일. 이를 활용해 시장, 기업, 시민, 정부의 관계 등 많은 분야에 변화를 가져옴
The 5Vs of Big Data
기존 3Vs: 크기 Volume, 속도 Velocity, 다양성 Variety
새 5Vs: 크기 Volume, 속도 Velocity, 다양성 Variety + 가치 Value, 정확성 Veracity
데이터 분석 목적
1. 정부: 국가 미래전략 수립, 사회문제 해결, 공공서비스 혁신
- 맞춤형 서비스: 민원접수 데이터와 소셜 데이터, 사회 이슈 분석을 통한 정책 발굴
- 국민 안전: 범죄 예방과 대응, 도시 관제 및 재난대응
- 조세: 금융감독 및 세금 추징, 금융거래 이상 징후, 조세 회피 및 탈세 등의 패턴 감지
- 의료, 복지: 의료 및 복지 서비스 강화, 질병 및 전염병 관리
- 교통, 환경: 환경감시 및 대응, 교통상황관리 및 최적화
- 교육: 교육정책 및 현안 분석
예시) 심야 올빼미 버스
2. 민간(기업): 서비스 질 제고, 생산성 향상 등 경쟁력 강화
- 고객 관계 관리, 고객 데이터 분석 통해 고객 행동 미리 예측
- 고객 이탈 방지와 같은 마케팅에 활용
- 새로운 서비스 개발, 업데이트 및 서비스 제공
- 의사결정의 적시성과 효과성 향상
- 내부 역량 향상, 업무 자동화 및 중복 제거, 프로세스 안정을 통한 생산성 향상
- 기업 데이터와 공공 데이터의 융, 복합을 통한 활용
생활 속 데이터
1. 신용카드 데이터(금융, 소비): 카드 사용 패턴, 지자체별 소비동향 분석, 인구통계에 따른 이용 패턴, 가맹점 및 업종별 카드 매출 분석, 영세 중소 가맹점에 마케팅 지원
2. 교통 데이터(이동): 교통카드 사용내역(이용수단, 금액, 승하차정보), Hi-pass 데이터(교통량, 속도, 진출입 정보), GPS 위치 데이터, 사고 데이터(보험, 경찰청), 지자체별 교통 대책 수립, 교통 예측 서비스
3. 비즈니스 데이터: 기업인사 매출 고객데이터, 현 상태나 발생한 상황 확인, 상황 발생 이유 미래 상황 예측 및 대비, 고객 성별 연령대 등 매출 분석, 생산 및 재고 분석
예) 신한카드의 빅데이터 분석 기반 고객 라이프 스타일 분류
예) 차량과 주변 인프라가 통신한다면?
스마트폰
게임, 지도, 쇼핑, 음악, 동영상, 메일 등 각종 콘텐츠가 모바일로 들어옴
스마트폰의 보급은 데이터의 폭발적 증가를 가져옴
도시에서의 데이터 수집 및 활용
스마트 시티 내 데이터 허브를 구축해 도시데이터의 생성, 수집, 저장, 분석, 활용 촉진
스마트 시티의 도시 문제 해결, 시민에게 편즤 창출 등의 기능이 데이터 분석을 기반으로 작동
빅데이터를 활용한 교통상황 예측 알고리즘 (예) 서울시 교통정보 센터, SKT map
2강. 데이터 분석을 위한 필요 지식
빅데이터 분석 역량
빅데이터 처리 능력: 빅데이터 수집, 저장, 처리와 관련된 데이터 관리 기술 활용
빅데이터 프로그래밍 능력: R, 파이썬 등 프로그래밍 언어 활용
기초 지식 및 이론 이해 능력: 빅데이터 산업 및 기술, 통계 및 수학적 기초지식과 이론 이해
융합문제 해결 및 직업윤리 준수능력: 다양한 주제 및 방법론 적용을 통한 융합문제 해결
빅데이터 기획 능력: 비즈니스 영역별 빅데이터 활용가능성을 탐색하고 비즈니스 모델화
빅데이터 시각화 능력: 스토리텔링 및 시각화 이미지 표현 등을 통해 분석결과 수용성 극대화
빅데이터 분석 능력: 데이터의 통계적 분석, 해석, 적용과 관련된 빅데이터 패턴 추출, 모델링, 결과예측
데이터 분석을 위한 단계
- 데이터 수집 단계: 발굴하려는 지식과 관련된 다양한 데이터 소스로부터 데이터 수집
- 데이터 전처리 단계: 수집한 데이터에서 필요없는 데이터 필터링하거나 적절한 형태로 가공
- 데이터 저장, 관리 단계: 데이터를 체계적으로 저장
- 데이터 분석 단계: 다양한 형태의 데이터 분석
- 지식 시각화 단계: 다양한 데이터가 만들어내는 패턴 시각화
데이터 분석을 위한 Tool
- Excel: 회계 및 각종 데이터베이스 관리
- R: 통계, 데이터마이닝, 데이터분석
- Matlab: 수치 해석 및 프로그래밍 환경을 제공하는 공학용 소프트웨어
- Python
- SQL: 관계형 데이터베이스 관리 시스템을 위해 설계된 특수 목적 프로그래밍 언어
- SAS: 고급분석, 다변량분석, 비즈니스, 인텔리전스, 데이터관리, 예측 분석
R
오픈소스 프로그램으로 통계/데이터 마이닝 및 그래프를 위한 언어. 빅데이터 분석을 목적으로 주목 받고 있으며 5000개가 넘는 패키지들이 다양한 기능을 지원한다. 구글, 아마존 클라우드 서비스와 연동 및 호환성이 좋다.
장점
- 무료
- 활성화된 사용자 커뮤니티
- 각종 통계 패키지 제공
- 다른 프로그래밍 언어보다 쉬움
- 쉬운 한글 처리
- 뛰어난 시각화
데이터 분석 관련 자격증
데이터분석준전문가 ADsP(국가공인), 빅데이터기사(국가공인), 경영빅데이터분석사, 광고데이터분석사, 산업데이터분석사, 빅데이터전문가
데이터 분석 관련 공모전
공공 데이터 분석 관련, 민간 데이터 분석 관련
3강. R과 R스튜디어 설치 및 사용
1. R 설치
2. R Studio 설치: R을 효율적이고 편리하게 사용할 수 있게 만들어주는 통합개발환경 IDE
- Script: 코드를 작성하는 창. Console 창에 비해 긴 코드 작성에 용이하며 필요한 부분만 선택하여 실행, 함수 자동완성 기능 제공. 사용한 코드를 별도 파일(.R)로 저장 및 불러올 수 있다.
- Console / Terminal: 코드 실행 결과 및 오류 확인
- Enviroment(입력된 데이터 세트, 변수 확인) / History(실행한 명령어, 결과 확인) / Connection(DB 서버와 연결 관리)
- Files(파일탐색기) / Plots(그래프 출력) / Packages(패키지 관리) / Help(도움말) / Viewer(그래프 웹 브라우저 출력)
시작 폴더(작업공간) 설정: R Studio > Tools > Global Options > General > Default working directory > [경로]
한글 설정: R Studio > Tools > Global Options > Code > Saving > Default text encoding: UTF-8