인공지능을 통한 문제해결의 시작
“데이터를 지배하는 자가 세상을 지배한다.”
- 팀 오라일리(Tim O’reilly): 오라일리 미디어 창립자
“데이터는 우리가 하는 모든 일에 힘을 실어준다.”
- 제프 와이너(Jeff Weiner): 링크드인(LinkedIn) 최고 경영자
- 데이터 분석, 선택이 아니라 필수!
오늘날 우리는 데이터의 홍수 속에 살고 있다. 넘치는 데이터를 수집하고 분석하여 새로운 지식을 발견할 수 있는 것은 물론 산재한 많은 문제들의 해결을 위하여 관련 데이터의 분석은 필수적 사항이다. 나아가 인공지능이 핵심 경쟁력으로 대두되고 있는 지금, 데이터를 학습시키는 기계학습을 위하여서는 데이터 분석에 대한 이해가 필수적이라 할 수 있다. 교육 현장에서 또한 급변하는 IT 중심 시대에 국가 경쟁력을 확보하기 위해서는 데이터 분석에 대한 활용과 교육이 반드시 필요하다고 주장하고 있다. 이에 이 책을 통해 대한민국의 AI 기술력 저면 확대에 작게나마 기여하고자 한다.
오늘날 데이터는 누구에게나 접근 가능한 자원이다. 스스로 필요한 데이터를 수집하여 분석할 수 있는 환경이 이루어져서 데이터 분석이 더 이상 전문가들만을 위한 영역에 속하지 않는다. 이러한 시대적 변화에서 데이터를 분석할 수 있는 능력은 개인의 문제해결 능력이자, 인공지능 분야에서 다양한 융합적 해결 방안을 제시하여 국가 경쟁력을 높일 수 있는 기초 능력에 해당한다. 데이터 분석을 통하여 의미 있는 정확한 결과가 도출될 수 있으며, 의미 있는 결과를 선점하는 사람이 경쟁력을 확보할 수 있는 인재로 성장할 수 있다. 이론적으로 제한된 분석을 진행하는 것이 아니라 프로그래밍 과정을 통하여 실제적으로 데이터 분석을 경험하고, 결과를 도출하고자 하는 목적으로 이 책을 구성하였다.
- 이 책의 특징
● 각 단원별로 실습 코드에 대한 설명을 포함하여 이론적 이해에서 더 나아가 파이선(python)을 활용하여 스스로 데이터 분석을 할 수 있도록 하였다. 파이선 코드에 대한 경험이 부족한 경우에도 예시 코드를 통해 스스로 데이터를 분석할 수 있도록 구성하였다.
● 데이터 분석에 대한 이론적 이해와 더불어 활용적 적용에 초점을 두었다.
● 자신이 가지고 있는 데이터를 원하는 목적에 맞게 분석하여 원하는 문제 해결을 이룰 수 있을 것이다.
● 나아가 데이터 분석을 통해 통찰력을 구비하여 모두가 인정하는 문제 해결 능력자로 성장할 수 있을 것이다.
- 데이터 분석과 파이선(Python)
인공지능에 관심이 집중되기 시작하면서 데이터 분석이 두각을 나타나게 되었다. 인공지능의 핵심 부분에 해당하는 기계학습(Machine Learning)은 기계가 스스로 학습하는 것이고, 기계가 스스로 학습하기 위해서는 데이터가 절대적으로 중요한 요소가 된다. 데이터를 올바르게 분석하지 못한다면, 기계학습의 결과는 무용지물이 될 뿐이다. 원하는 결과를 얻기 위한 데이터 분석의 여정은 결코 쉬운 도전은 아닐 수 있다. 그러나 가치 있는 도전이고, 누군가에게는 피할 수 없는 운명적 도전이 될 것이다. 이러한 도전이 조금 더 효율적이고 쉽게 이루어지도록, 이 책은 독자의 입장에서 최대한 친절하게 설명할 것이다.
데이터 분석을 위하여 프로그래밍은 필수이다. 이 책에서는 파이선(Python)을 사용하여 데이터 분석하는 과정을 소개한다. 파이선은 High-Level Programming Language에 해당하는데, 여기서 High-Level의 의미는 사람이 사용하는 언어에 가장 가까운 프로그래밍 언어로 이해하면 된다. 따라서 간단하고 직관적인 문법으로 이루어져 이해하기 쉽다는 장점이 있다.
- 데이터 분석의 목표
데이터 분석의 목표는 파이선을 도구로 하여 데이터가 가지는 의미를 읽어내는 것이다. 의미를 정확하게 이해한다면, 데이터를 학습하여 데이터가 창출하는 가치를 찾을 수 있을 것이다. 새롭게 창출된 가치를 통하여 우리는 우리에게 직면한 문제를 해결할 수 있으며, 우리 앞에 발생할 수 있는 위험들을 예측하여 대비할 수 있을 것이다.
즉, 데이터 분석은 단순히 하나의 학문이 아니라, 우리가 더 나은 삶을 살아가기 위한 필수 항목인 것이다. 그렇지만 이 책 한 권만 공부하면 데이터 분석을 완전 마스터할 것이라 꿈꾸면 안 된다. 이 책은 데이터 분석에 대한 방법론과 접근법에 대한 기초적인 접근을 파이선을 활용하여 설명할 뿐이다. 이 책을 통하여 데이터 완전 정복을 이루는 첫 발걸음을 시작할 수 있을 것이다.
- 인공지능과 데이터
데이터는 지금 이 순간에도 쉬지 않고 기하급수적으로 생성되고 있으나 방대한 양의 데이터를 일일이 유의미한 정보로 전환하기에 인간의 두뇌에 한계가 있다. 그렇기에 우리는 현재 컴퓨팅 자원(CPU, GPU 등)을 이용하여 데이터를 병렬적이게, 굉장히 빠른 속도로 처리하여 무수히 많은 정보를 생성하고 있다. 이렇게 생성된 수많은 정보를 또다시 조합하여 지식을 생성하는 데에는 예측의 과정이 필요하며, 예측은 지능을 통해 이루어진다. 정보 생성과 마찬가지로 사람이 예측을 통한 지식 생성을 전부 담당할 수 없기에, 인간 대신 예측을 수행하는 인공지능(Artificial intelligence, AI)이 발명되었다. 인공지능은 알고리즘을 기반으로 학습을 통해 데이터 속에서 규칙을 찾아내어 모델을 생성한다.
오늘날의 과학은 데이터 중심의 과학이라 할 수 있다. 생활 전반에는 인공지능이, 즉 데이터 과학이 숨 쉬고 있으며, 그 영역 또한 확장되고 있다. 그렇기에 데이터 과학의 이해와 이를 실현하기 위해 요구되는 프로그래밍 역량은 현재를 살아가는 세대의 필수 역량이라 할 수 있다.
서울에서 태어나 어릴 때부터 피아노를 전공해 예원학교에 다녔다. 더 넓은 세상에서 공부하고 싶어 미국으로 건너가 캔자스대학교(The University of Kansas)에서 피아노 건반 대신 키보드를 치며 컴퓨터를 전공했다. 이어서 캘리포니아 주립 대학교 전산실에서 시스템 분석가로 일하며 석사 학위를 받았다. 우리나라 컴퓨터 기술 발전에 기여하고픈 마음에 삼성전자 컴퓨터 부문 개발실에 경력 특채로 선발되어 귀국했다.
컴퓨터 분야에서 여성 전문 인력이 부족함이 늘 아쉬웠기에 후배 양성을 위해 카이스트 박사과정에 진학했으며, 덕성여대 연구교수가 되었다. 벤처 바람이 불어와 9년 동안 몸담았던 덕성여대를 나와 사업에 뛰어들었으나 가르치는 일이 천직인지 교수 시절이 그리워 2000년부터 성균관대 컴퓨터학과 겸임교수로 현재까지 학생들을 가르치고 있다.
소프트웨어를 만든다는 것은 결국 사람을 위한 일이고, 무엇보다 사람에 대한 이해와 공감, 사랑이 그 바탕이라고 믿고 있다. 소프트웨어를 사용할 사람에 대해 더욱 잘 이해하기 위해 심리 상담 과정을 수료하고 자격증을 따서 상담 봉사를 7년 이상 하고 있다. 또 컴퓨터교육을 더 잘 할 수 있도록 교육학 박사 학위도 받았다. 미래창조과학부의 SW 인문포럼 위원으로 활동하며 소프트웨어와 사람을 연결하는 연구를 맡아 진행했다. 또 서울교대 영재 과정에 등록된 초등학생 및 중학생들의 교육을 진행했고, 경상북도 컴퓨터 관련 영재 학생들을 대상으로 한 소프트웨어 교육을 맡기도 했다. 대안 학교에 다니는 고등학생들을 위한 소프트웨어 교육도 추진한 바 있다.
지은 책으로는 『2017 ICT기반 국가미래전략』(교육부분 집필), 『컴퓨팅사고력 향상을 위한 문제해결과 알고리즘』(공저), 『컴퓨팅사고를 위한 파이선 입문』(집필 중)이 있다. 모든 사람들이 컴퓨터를 이해하고 차별 없이 소프트웨어로 세상의 주인공이 될 수 있는 그날을 꿈꾸며, 오늘도 열심히 소프트웨어 교육 현장에서 애쓰고 있다. 이 책은 그 결과물로서 막연히 소프트웨어와 미래 변화에 두려움을 가진 모두를 위한 것이다.
서문
1장 데이터 분석
1-1 데이터 분석의 여정
1-2 데이터 이해하기
1-3 데이터 분석 개념
2장 데이터 이해와 활용
2-1 빅데이터 이해
2-2 다양한 공공데이터
2-3 CSV 파일 활용
2-4 공공 데이터 활용
3장 데이터 수집 방법
3-1 웹 크롤링 자료 수집
3-2 텍스트 자료 수집
3-3 설문 데이터 수집
3-4 실전 데이터 수집 도전
4장 엑셀 파일 다루기
4-1 엑셀 데이터 읽기
4-2 엑셀 데이터 처리
4-3 엑셀 데이터 활용 도전
5장 탐색적 데이터 분석
5-1 데이터 분석 목적 이해하기
5-2 데이터 처리 과정
5-3 결측치와 이상치
5-4 EDA 도전
6장 데이터 분석 방법론
6-1 데이터 분석 방법론이란?
6-2 회귀 분석 방법
6-3 분류 분석 방법
6-4 군집 분석 방법
6-5 데이터 분석 도전
7장 데이터 분석을 위한 Numpy
7-1 Numpy 이해하기
7-2 배열 프로세싱
7-3 Numpy 데이터 분석 도전
8장 Pandas 활용 데이터 분석
8-1 Pandas 이해하기
8-2 데이터 프레임 프로세싱
8-3 Pandas 데이터 분석 도전
9장 데이터 시각화를 위한 matplotlib
9-1 시각화 이해하기
9-2 pandas 활용 시각화
9-3 Matplotlib 활용 시각화
9-4 데이터 분석 시각화 도전
10장 확률 분석
10-1 확률 분석 이해하기
10-2 확률 변수
10-3 Scipy를 이용한 확률 분석
10-4 확률 분석 도전
11장 통계 분석
11-1 통계 분석 이해하기
11-2 기술 통계
11-3 통계 분석 도전
12장 텍스트 데이터 빈도 분석
12-1 텍스트 데이터 이해하기
12-2 자연어 처리(NLP)
12-3 텍스트 데이터 빈도 분석 도전
13장 감성 분석
13-1 감성 분석 이해하기
13-2 감성 분석 적용 분야
13-3 감성 분석 도전
14장 실전 데이터 분석
14-1 요즘 인기 있는 음악은?
14-2 요즘 인기 있는 Youtube 방송은?
14-3 네이버 월별 키워드 검색 현황은?
부록
부록-1 Python 만나기
부록-2 Python 기본 문법
부록-3 Python 활용