책소개
혼자 해도 충분하다! 1:1 과외하듯 배우는 데이터 분석 자습서
이 책은 독학으로 데이터 분석을 배우는 입문자가 ‘꼭 필요한 내용을 제대로 학습’할 수 있도록 구성했습니다. 뭘 모르는지조차 모르는 입문자의 막연한 마음에 십분 공감하여 과외 선생님이 알려주듯 친절하게, 핵심적인 내용만 콕콕 집어 줍니다. 책의 첫 페이지를 펼쳐서 마지막 페이지를 덮을 때까지, 혼자서도 충분히 데이터 분석을 배울 수 있다는 자신감과 확신이 계속될 것입니다!
베타리더 검증으로, ‘함께 만든’ 입문자 맞춤형 도서
베타리더와 함께 입문자에게 맞는 난이도, 분량, 학습 요소 등을 고민하고 이를 적극 반영했습니다. 어려운 용어와 개념은 한 번 더 풀어쓰고, 복잡한 설명은 눈에 잘 들어오는 그림으로 풀어냈습니다. ‘혼자 공부해 본’ 여러 입문자의 초심과 눈높이가 책 곳곳에 반영된 것이 이 책의 가장 큰 장점입니다.
누구를 위한 책인가요?
저자소개
박해선
기계공학을 전공했지만 졸업 후엔 줄곧 코드를 읽고 쓰는 일을 했습니다. 블로그(tensorflow.blog)에 글을 쓰고 머신러닝과 딥러닝에 관한 책을 집필, 번역하면서 소프트웨어와 과학의 경계를 흥미롭게 탐험하고 있습니다.
『챗GPT로 대화하는 기술』(한빛미디어, 2023), 『혼자 공부하는 데이터 분석 with 파이썬』(한빛미디어, 2023), 『혼자 공부하는 머신러닝+딥러닝』(한빛미디어, 2020), 『Do it! 딥러닝 입문』(이지스퍼블리싱, 2019)을 집필했습니다.
『실무로 통하는 ML 문제 해결 with 파이썬』(한빛미디어, 2024), 『머신러닝 교과서: 파이토치 편』(길벗, 2023), 『스티븐 울프럼의 챗GPT 강의』(한빛미디어, 2023), 『핸즈온 머신러닝(3판)』(한빛미디어, 2023), 『만들면서 배우는 생성 AI』(한빛미디어, 2023), 『코딩 뇌를 깨우는 파이썬』(한빛미디어, 2023), 『트랜스포머를 활용한 자연어 처리』(한빛미디어, 2022), 『케라스 창시자에게 배우는 딥러닝 2판』(길벗, 2022), 『개발자를 위한 머신러닝&딥러닝』(한빛미디어, 2022), 『XGBoost와 사이킷런을 활용한 그레이디언트 부스팅』(한빛미디어, 2022), 『구글 브레인 팀에게 배우는 딥러닝 with TensorFlow.js』(길벗, 2022), 『파이썬 라이브러리를 활용한 머신러닝(번역개정2판)』(한빛미디어, 2022), 『머신러닝 파워드 애플리케이션』(한빛미디어, 2021), 『머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로(개정3판)』(길벗,2021)를 포함하여 여러 권의 책을 우리말로 옮겼습니다.
목차
Chapter 01 데이터 분석을 시작하며
01-1 데이터 분석이란
__데이터 분석과 데이터 과학
__데이터 분석가
__데이터 분석을 위한 도구
[좀 더 알아보기] 데이터 마이닝과 머신러닝
[3가지 키워드로 정리하는 핵심 포인트]
[학습에 꼭 필요한 핵심 패키지]
[확인 문제]
01-2 구글 코랩과 주피터 노트북
__구글 코랩
__노트북
[좀 더 알아보기] 마크다운 서식
[5가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 텍스트 셀 툴바]
[확인 문제]
01-3 이 도서가 얼마나 인기가 좋을까요?
__도서 데이터 찾기
__코랩에서 데이터 확인하기
__파이썬으로 CSV 파일 출력하기
__데이터프레임 다루기: 판다스
__[문제 해결 과정] 적절한 데이터를 찾아서 업로드하고 읽기
[좀 더 알아보기] 공개 데이터 세트 대표 사이트와 유명 포럼
[5가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 02 데이터 수집하기
02-1 API 사용하기
__API란
__파이썬에서 JSON 데이터 다루기
__파이썬에서 XML 데이터 다루기
__API로 20대가 가장 좋아하는 도서 찾기
__[문제 해결 과정] 공개 API로 웹에서 데이터 가져오기
[4가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
02-2 웹 스크래핑 사용하기
__도서 쪽수를 찾아서
__검색 결과 페이지 가져오기
__HTML에서 데이터 추출하기: 뷰티플수프
__전체 도서의 쪽수 구하기
__웹 스크래핑할 때 주의할 점
__[문제 해결 과정] 웹 스크래핑으로 HTML 수집하기
[좀 더 알아보기] merge() 함수의 매개변수
[2가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 03 데이터 정제하기
03-1 불필요한 데이터 삭제하기
__열 삭제하기
__행 삭제하기
__중복된 행 찾기
__그룹별로 모으기
__원본 데이터 업데이트하기
__[문제해결 과정] 일괄 처리 함수 만들기
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
03-2 잘못된 데이터 수정하기
__데이터프레임 정보 요약 확인하기
__누락된 값 처리하기
__정규 표현식
__잘못된 값 바꾸기
__누락된 정보 채우기
__[문제해결 과정] 데이터를 이해하고 올바르게 정제하기
[2가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 04 데이터 요약하기
04-1 통계로 요약하기
__기술통계 구하기
__평균 구하기
__중앙값 구하기
__최솟값, 최댓값 구하기
__분위수 구하기
__분산 구하기
__표준편차 구하기
__최빈값 구하기
__[문제해결 과정] 데이터프레임에서 기술통계 구하기
[좀 더 알아보기] 넘파이의 기술통계 함수
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
04-2 분포 요약하기
__산점도 그리기
__히스토그램 그리기
__상자 수염 그림 그리기
__[문제해결 과정] 통계량을 시각적으로 표현하기
[좀 더 알아보기] 판다스의 그래프 함수
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 05 데이터 시각화하기
05-1 맷플롯립 기본 요소 알아보기
__Figure 객체
__rcParams 객체
__여러 개의 서브플롯 출력하기
[5가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
05-2 선 그래프와 막대 그래프 그리기
__연도별 발행 도서 개수 구하기
__주제별 도서 개수 구하기
__선 그래프 그리기
__막대 그래프 그리기
__[문제 해결 과정] 맷플롯립으로 선 그래프와 막대 그래프 그리기
[좀 더 알아보기(1)] 이미지 출력하고 저장하기
[좀 더 알아보기(2)] 그래프를 이미지로 저장하기
[2가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 06 복잡한 데이터 표현하기
06-1 객체지향 API로 그래프 꾸미기
__pyplot 방식과 객체지향 API 방식
__그래프에 한글 출력하기
__출판사별 발행 도서 산점도 그리기
__[문제 해결 과정] 맷플롯립의 다양한 기능으로 그래프 개선하기
[3가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
06-2 맷플롯립의 고급 기능 배우기
__실습 준비하기
__하나의 피겨에 여러 개의 선 그래프 그리기
__하나의 피겨에 여러 개의 막대 그래프 그리기
__원 그래프 그리기
__여러 종류의 그래프가 있는 서브플롯 그리기
__[문제 해결 과정] 맷플롯립으로 복잡한 그래프 그리기
[좀 더 알아보기] 판다스로 여러 개의 그래프 그리기
[5가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
Chapter 07 검증하고 예측하기
07-1 통계적으로 추론하기
__모수검정이란
__표준점수 구하기
__중심극한정리 알아보기
__모집단의 평균 범위 추정하기: 신뢰구간
__통계적 의미 확인하기: 가설검정
__정규분포가 아닐 때 가설 검증하기: 순열검정
[문제 해결 과정] 표본 데이터에서 의사 결정 도출하기
[6가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
[확인 문제]
07-2 머신러닝으로 예측하기
__알아 두면 좋은 머신러닝 용어
__모델 훈련하기
__훈련된 모델을 평가하기: 결정계수
__연속적인 값 예측하기: 선형회귀
__카테고리 예측하기: 로지스틱 회귀
__[문제 해결 과정] 도서권수로 대출건수 예측하기
[좀 더 알아보기] 평균제곱오차와 평균절댓값오차로 모델 평가하기
[8가지 키워드로 정리하는 핵심 포인트]
[표로 정리하는 핵심 함수와 메서드]
부록 A 한발 더 나아가기: 데이터베이스와 SQL
부록 B 이 책에서 배운 함수와 메서드
부록 C 에필로그
__확인 문제 정답
__찾아보기
출판사리뷰
도서 특징
하나, ‘입문자 맞춤형 7단계 구성’을 따라가며 체계적으로 반복하는 탄탄한 학습 설계!
이 책은 데이터 분석의 핵심 내용을 7단계에 걸쳐 반복 학습하면서 자연스럽게 머릿속에 기억되도록 구성했습니다. [핵심 키워드]와 [시작하기 전에]에서 각 절의 주제에 대한 대표 개념을 워밍업하고, 이론과 실습을 거쳐 마무리에서는 [핵심 포인트]와 [확인 문제]로 한번에 복습합니다. ‘혼자 공부할 수 있는’ 커리큘럼을 그대로 믿고 끝까지 따라가다 보면 데이터 분석 공부가 난생 처음인 입문자도 무리 없이 책을 끝까지 마칠 수 있습니다!
둘, 실제로 일어날 법한 흥미로운 스토리에 담긴 문제를 직접 해결하며 익히는 ‘진짜’ 데이터 분석!
현장감 넘치는 스토리를 통해 데이터를 다루는 방법을 알려 주어 ‘파이썬’과 ‘데이터’가 낯설어도 몰입감 있는 학습을 할 수 있도록 구성했습니다. 이 책에서는 API와 웹 스크래핑을 통해 실제 도서관 데이터와 온라인 서점 웹사이트에서 데이터를 가져오는 등 내 주변에 있는 데이터를 직접 수집할 수 있는 방법을 가이드합니다. 또한 판다스, 넘파이, 맷플롯립 등 데이터 분석에 유용한 각종 파이썬 라이브러리를 활용해 보며 코딩 감각을 익히고, 핵심 통계 지식으로 기본기를 탄탄하게 다질 수 있습니다. 마지막에는 분석을 바탕으로 미래를 예측하는 머신러닝까지 맛볼 수 있어 데이터 분석의 처음부터 끝까지 제대로 배울 수 있습니다.
셋, ‘혼공’의 힘을 실어줄 동영상 강의와 혼공 학습 사이트 지원!
책으로만 학습하기엔 여전히 어려운 입문자를 위해 저자 직강 동영상도 지원합니다. 또한 학습을 하며 궁금한 사항은 언제든지 저자에게 질문할 수 있도록 학습 사이트를 제공합니다. 저자가 질문 하나하나에 직접 답변을 달아 주는 것은 물론, 관련 최신 기술과 정보도 얻을 수 있습니다. 게다가 혼자 공부하고 싶지만 정작 혼자서는 자신 없는 사람들을 위해 혼공 학습단을 운영합니다. 혼공 학습단과 함께하면 마지막까지 포기하지 않고 완주할 수 있을 것입니다.
▶ https://hongong.hanbit.co.kr
▶ https://github.com/rickiepark/hg-da
넷, 언제 어디서든 가볍게 볼 수 있는 혼공 필수 [용어 노트] 제공!
꼭 기억해야 할 핵심 개념과 용어만 따로 정리한 [용어 노트]를 제공합니다. 처음 공부하는 사람들이 프로그래밍을 어려워하는 이유는 낯선 용어 때문입니다. 그러나 어려운 것이 아니라 익숙하지 않아서 헷갈리는 것이므로, 용어나 개념이 잘 생각나지 않을 때는 언제든 부담 없이 [용어 노트]를 펼쳐 보세요. 제시된 용어 외에도 새로운 용어를 추가하면서 자신만의 용어 노트를 완성해가는 과정도 또 다른 재미가 될 것입니다.
먼저 읽은 베타리더들의 한 마디
독자리뷰
데이터 분석이란?
위키 피디아에서 '데이터 분석을 유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환 모델링 하는 과정'으로 정의합니다. 데이터 분석은 다양한 접근 방법과 형태로 여러 비즈니스와 과학 분야에서 사용합니다. 현대 사회에서 데이터 분석은 비즈니스 결정을 과학적으로 내리기 위한 도구로 사용되는 경향이 있습니다.
이 책은 실습을 구글 코랩으로 하고 있습니다. 구글 코랩은 웹 브라우저에서 무료로 파이썬 프로그램을 테스트하고 저장할 수 있는 서비스라고 합니다.
웹 브라우저에서 텍스트와 프로그램 코드를 자유롭게 작성할 수 있는 온라인 에디터라고 생각하시면 될 거 같습니다.
1장에서 CSV 파일을 정기적으로 읽어와서 데이터를 정리하는 프로그래밍을 했습니다. 하지만 회사에서 업무를 하다 보면 보통 항상 최신 데이터를 가져와야 할 경우가 빈번합니다. 그때 사용할 수 있는 것이
HTTP입니다. 저도 Unreal Engine에서 HTTP 통신으로 데이터를 항상 가져와야 하는 경우가 있었는데. C++로 작성하고 해당 클래스를 상속받은 블루 프린트로 만들었던 기억이 있습니다. 파이썬에서는 어떻게 HTTP를 가져오는지 한번 확인해 볼까요?
C++ 하고 방식은 크게 다르지 않은 것 같네요. requests로 가져오고 Get() 함수를 사용해 데이터를 받고 Json메서드를 사용해서 파이썬 객체로 만드는 방법까지 하는 걸 보니 가져오는 방식 자체는 같은 것 같은데 코드 자체는 훨씬 짧고 편하게 가져올 수 있네요.
서평 : 데이터 분석을 해보고 싶다면 파이썬에서 판다스 및 파이썬의 다양한 함수 등을 이용해서 간단하게 도표 등을 만들어 볼 수 있을 것 같았습니다.
저도 파이썬을 제대로 공부해 본 적은 없어서 책의 내용을 읽어본 게 끝이긴 하지만 읽는 데 있어서 크게 불편하거나 어려웠던 점은 없었습니다. 그만큼 쉽게 읽히도록 책의 내용을 잘 썼다는 뜻 일거 같네요.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
어느정도 스킬을 갖췄지만 스스로 기본이 부족하다고 느끼는 사람.
데이터 관련 공부를 시작하고 싶은데 막연한 사람.
교육용 교재로 어떤것이 좋을지 고민중인 사람(대학교 비전공자까지는 가능할것 같습니다.)
위와 같은 분들에게 추천드립니다.
이 시리즈만큼 실습 코드도 잘 되어있고 같이 따라하면서 공부하기 좋은 책은 몇 없다고 생각됩니다.
의지가 약하신 분이라면 더욱더... 괜찮은 책이지 않을까요..
▶ 한빛 미디어의 혼자 공부하는 시리즈는 많은 사람들의 관심과 사랑을 받고 있습니다.
· 저 또한 혼자 공부하는 머신러닝 딥러닝으로 그룹 스터디를 진행하고, 선생님들과 머신러닝에 대한 이해의 폭을 함께 넓히는 시간을 가졌었습니다.
▶ 동일한 저자님께서 이번에는 파이썬을 활용한 데이터 분석 책을 출간하였다는 소식을 듣고는 한빛미디어 <나는 리뷰어다> 활동을 하는 겸, 이 책을 바로 선택하였습니다.
· 저자의 익숙한 기술 스타일, 파이썬이라는 익숙한 도구, 데이터 분석이라는 3가지의 조합이 만들어 낼 경험이 기대되었습니다.
▶ 이 책은 제목 그대로 파이썬을 활용하여 데이터 분석을 수행하는 데 있어 필요한 기초적인 지식을 제공합니다.
· 데이터 분석에 필요한 기본기들을 스텝 바이 스텝으로 거쳐가며 쌓을 수있게 해줍니다.
· 그 기본기가 되는 파이썬 라이브러리에는 넘파이, 판다스, 맷플롯립, 사이킷런 등이 있겠죠.
· 더불어 약간의 파이썬 경험이 있으면 완독이 수월할 것으로 예상되나, 이 조차도 상쇄할 수 있을만큼의 저자의 상세하고 친절한 설명이 돋보입니다.
· 아마 혼자 공부하는 머신러닝 딥러닝 편보다도 비전공자를 위한 세심한 배려를 했다고 저자도 밝히고 있으니 더욱 기대가 됩니다.
▶ 실습 환경은 코랩입니다. 최근 프로그래밍을 학습하기 위해서 클라우드 기반의 코랩이 대세인 듯 합니다.
· 로컬에서보다도 훨씬 성능 좋은 컴퓨팅 자원을 쓸 수 있을 뿐더러, 인터넷만 되는 환경이면 손쉽고 작업하고, 이를 포트폴리오화하여 공유할 수 있기 때문일 것입니다.
· 어쨌든 코랩을 실습 환경으로하여 작업하는 점도 매우 좋았습니다.
▶ 이 장의 구성은 다음과 같습니다.
· 먼저 데이터 분석, 데이터 과학의 개요를 살펴봅니다.
· 특히 데이터 과학을 데이터 분석과 분리하여 통계학, 데이터분석, 머신러닝, 데이터마이닝 등을 아우르는 큰 개념으로 제시하여 설명하는 부분이 좋았습니다.
· 구글 코랩 세팅 방법을 다룹니다. 아주 기본적인 환경 설정과 세세한 설명을 곁들이고 있습니다.
· 다음으로 데이터를 본격적으로 다루기 시작합니다.
- 코랩에서 판다스 데이터프레임으로 CSV파일을 읽고 쓰는 방법에 대해 다룹니다. 이와 곁들어 공개 데이터 세트 대표 사이트들과 유명 포럼, 커뮤니티 등을 소개해주고 있습니다.
· 웹 서비스 API에서 데이터를 가져오는 방법을 다룹니다.
- 이 때 사용되는 request() 패키지와 get() 함수, JSON() 메서드를 활용해 파이썬 객체로 변환하는 과정을 친절히 다루고 있습니다.
- 물론 beautifulsoup() 패키지를 활용해 웹 스크래핑을 하는 법을 잊지 않고 있고요.
· 데이터를 수집했으니 이제 데이터를 정제합니다.
- 이제 데이터 프레임과 친해질 시간입니다.
- 불필요한 데이터를 삭제하고, 잘못된 데이터를 수정하는 방법을 익힙니다.
· 전체 데이터를 요약하는 방법도 다룹니다.
- 몇 개의 수치로 요약하거나 그래프로 나타내는 방법을 많이 사용합니다.
- 넘파이의 기술 통계 함수를 다루고, 분포를 요약하기 위해 산점도, 히스토그램, 상자수염그림 등을 다뤄봅니다.
· 데이터는 시각화하는 것이 제 맛입니다. 그래야 보이지 않던 것들이 보이기 시작하죠.
- 파이썬의 대표 시각화 라이브러리인 맷플롯립의 사용법을 다룹니다.
- 기본적인 선 그래프와 막대 그래프 그리기로 시각화에 맛을 봅니다.
- 복잡한 데이터를 표현하기에는 사실 이것만으로는 불충분합니다. 맷플롯립의 객체지향 API를 활용해 그래프를 꾸미는 방법이 필요합니다.
- pyplot과는 다른 객체지향 API를 활용해 그래프를 세세하게 조정하며, 복잡한 그래프를 그리는 방법을 다룹니다.
- 맷플롯립의 고급 기능은 알아두면 쓸모 있을 것들이 많습니다. 하나씩 고급 기능들을 익혀나가며 멋진 그래프에 한 걸음식 다가갑니다.
· 데이터 분석의 마지막 단계는 바로 검증과 예측입니다.
- 데이터 수집, 탐색, 시각화까지 했다면 이제 데이터를 활용한 의사결정의 시간입니다.
- 통계적으로 추론하는 단계가 필요합니다. 모수검정, 표준점수, 중심극한정리, 신뢰구간, 가설검정, 순열검정 등을 다룹니다.
- 머신러닝을 활용해 예측을 하는 프로세스를 다룹니다.
▶ 사실 데이터 분석을 주제로 한 책을 여러 권 읽어보았지만, 다른 책들과는 구별되는 차이점은 다음과 같습니다.
· 먼저, 입문자를 위한 책이지만, 그렇다고 하여 쉬운 것만 다루지 않습니다.
- 웹 스크래핑이나 API를 활용해 데이터를 수집하고, 시각화를 다양하게 하는 방법을 다루고 넘어가는 점이 차별화됩니다.
· 이 책의 좋은 점은 저자의 동영상 강의와 깃허브를 통해 실습 코드를 얻을 수 있다는 점에 있습니다.
- 혼자 공부하는 시리즈가 그렇듯 그만큼 독자 친화적이며, 독자가 공부하면서 갖게 되는 경험 등에 대해 세세한 고민이 반영되어 있습니다.
- 이 책에서 배운 함수와 메서드는 부록으로도 잘 정리되어 있어서 활용하기에 용이합니다.
▶ 실생활 데이터로 데이터 분석의 기초를 탄탄하게 잡길 원하시는 분이라면 "혼자 공부하는 데이터 분석 with 파이썬(2023, 한빛미디어)"을 읽어보시길 추천드립니다.
※ "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
이 책으로 하면 데이터 분석 혼자 공부해도 된다. 데이터 분석이 된다. 예쁘게 된다. 파이썬은 당장 몰라도 된다. 알면 좋지만 몰라도 문제 없다. 예제가 실행되니 재밌다. 모르면 넘어 가자, 더 알고 싶으면 그 때 자세히 공부하자. 지금은 일단 손코딩부터 하자~, 어려우면 오픈 채팅으로 물어보자. 페이스북 [스터디 그룹] 혼자 공부하는 프로그래밍 (https://www.facebook.com/groups/hongong) 에 물어봐도 되고, 유튜브 강의에서 물어 봐도 된다. 그 정도의 열정과 절박함은 있어야 데이터 분석가 할 수 있다. 그래도 힘들다면 혼공학습단 신청하고 혼공족장님과 간식 먹으면서 여럿이서 끌고, 밀고, 당겨 마지막까지 함께 완주하자!! ^^
이 책은 크게 기본편, 고급편으로 나눠서 설명하고 있는데, 기본편에서는 데이터 분석의 정의와 예제, 구동하는 방법, 데이터 수집, 정제, 요약 하는 방법에 대해서 예제와 함께 설명하고 고급편에서는 데이터의 시각화, 복잡한 데이터를 그래프로 표현하는 방법, 데이터 검증 및 예측하는 방법에 대해서 설명한다.
기본편의 'Chapter 01. 데이터 분석을 시작하며'에서는 데이터 분석과 데이터 과학을 비교하면서 데이터 분석을 정의하고, 'Chapter 02. 데이터 수집하기'에서는 API와 JSON, XML과 함께 파이썬으로 공개 데이터 세트를 수집하는 방법, 웹페이지 스크래핑 하는 방법을 설명한다. 'Chapter 03. 데이터 정제하기'에서는 파이썬으로 수집한 데이터에서 불필요한 행과 열을 삭제하거나 다른 값으로 바꾸는 방법등 데이터를 이해하고 올바르게 정제하는 법을 알려준다. 'chapter 04. 데이터 요약하기'는 데이터를 그래프, 즉 시각적으로 요약하는 방법을 알려준다.
고급편에서는 'Chapter 05. 데이터 시각화하기'에서는 맷플롯립이라는 패키지를 사용하여 데이터를 선 그래프, 막대 그래프, 가로 막대 그래프로 그리고 화면에 이미지를 출력하고, 저장하는 법을 알려 주며, 'Chapter 06. 복잡한 데이터 표현하기'에서는 여러 특성을 한 그래프에 표현하는, 즉 복잡한 그래프를 그리는 법을 설명한다. 스택 영역 그래프, 스택 막대 그래프, 원그래프 등.. 마지막 'Chapter 07. 검증하고 예측하기'에서는 표본(샘플) 데이터로 의사 결정을 도출하는 방법과 머신 러닝을 활용하여 예측하는 방법으로 모든 설명을 종료 한다.
각 장은 처음 해당 주제에 관한 핵심 키워드를 먼저 제시한 후, 우리의 주인공 '혼공 분석'의 당면한 문제를 확인한 후에 핵심 키워드를 설명하고 하나씩 하나씩 혼공 분석의 문제를 슬기롭게 해결한다. 마지막에는 문제 해결 과정을 한번 더 정리하고 마무리로 핵심 키워드를 정리하고, 표로 문제 해결과정에 사용한 파이썬 핵심 함수와 메서드를 정리한다. 마지막에는 확인 문제 (쉿!! 맨 뒤에 답변이 있는 것은 공공연한 비밀~)
책에서는 분석과 관련된 여러 키워드를 초보자도 알기 쉽게 잘 설명하고 있으며, 파이썬의 분석 핵심 패키지인 넘파이, 판다스, 맷플롯립, 사이파이, 사이킷런에 대해서도 상세하게 설명한다.
또한 저자는 예제에 대한 설명뿐만 아니라 손코딩에서 발생할 수 있는 예외 사항에 대해 부연 설명까지 꼼꼼하게 알려 준다. 본인도 손코딩을 모두 따라했는데, 잘못은 내가 했지 책은 잘못이 없었다. ㅎㅎ
책 중간의 '좀 더 알아보기'에서는 저자의 책에 대한 진심이 충분히 전달 되었으며, 부록 부분(A. 데이터베이스와 SQL, B. 파이썬 함수와 메서드, C. 에필로그) 너무 좋았다. 책 지면 때문인지 머신 러닝 부분의 예제나 설명이 더 많았으면 하는 아쉬움이 있다.
다만, 생각 보다 오탈자가 많은 것은 옥의티라고 할까?, 다음 번에는 모두 수정될테니 참고하시고요~
책은 뭐 혼공시리즈답게 디자인이며, 책 크기, 폰트, 재질 나무랄데가 없다.
다만, 카페에 가지고 간다거나 들고 다닐 사이즈나 무게는 절대 아님. 그런데, 공부하기는 너무나 좋음 ^^
아래 저자의 에필로그처럼 데이터 분석의 시작은 데이터 이해에서부터 데이터 관계자의 도움이 필요하다. 그런 다음 적절한 분석 도구 데이터를 파악해야 한다는 것을 잊지 말자! (분석도구 = 군인으로 보면 총/칼)
데이터 분석 도구는 정말 많습니다. 도구를 잘 다루는 것이 데이터 분석의 전부처럼 비춰져서는 안되겠지만 때로는 큰 차이를 만들기도 합니다.
...
무엇보다도 분석하려는 비즈니스에 대해 깊이 이해해야 합니다. 마을을 열고 비지니스 담당자와 대화해 보세요
C. 에필로그, P.476
<내돈 내산>
혼공학습단 9기를 돌아보며 ~
이번으로 3번째 참여를 마무리했습니다.
첫 번째(#혼공파)는 정신이 없었고, 두 번째(#혼공머신)는 페이스북 대화방에서 소소하게 소통하면서 진행했으며, 이번(#혼공분석)에는 다른 혼공족들 공부한 부분을 하나하나 살펴 보면서 즐거운 시간을 가졌습니다.
개인적으로 정리는 종이책에 하느라 실습 예제와 확인 문제 위주였지만, 다른 분들 정리한 모습에 감탄과 배울점이 아주 많았습니다. 이런 기회를 주신 혼공족장님께 감사를 드립니다. ^^
지난 혼공학습단 8기와 비교하면 혼공족의 실력이 점점 일취월장한다는 것을 느꼈습니다. 제 생각에는 처음 오신 분들도 중요하지만, 기존에 2번, 3번 참여하신 분들의 노력도 한 몫했다고 생각합니다. 저 역시도 주위에 소문을 많이 내어서 저 이외에 3명을 더 참여 시켰는데요. 혼공학습단도 어느정도 궤도에 오른 것 같아서 흡족합니다. 저야 '좋아요'로 참석하는 수준이었지만, 함께 하는 것만으로 즐거운 시간이었던 같아요~
개인적으로는 혼공 로드맵을 제시하여 혼공족을 쭉쭉 키우시는 것은 어떨까 조심스레 말씀드려 봅니다. 현재는 11분야지만 앞으로 점점 더 발전하는 혼공학습단을 기대하면서, 혼공학습단 10기를 기다려봅니다.
건강 챙기시고요, 족장님 감사드립니다.
이번에 리뷰하는 《혼자 공부하는 데이터 분석 with 파이썬》은 활용 방법이 다양한 책이다.
1. 파이썬 기본 문법 공부 후 한발짝 더 나아가서 데이터 분석을 공부할 수 있다.
2. 인공지능(머신러닝, 딥러닝) 학습 전 맛보기 과정을 경험할 수 있다.
3. 데이터 분석에 대해 막연하게 생각하던 것을 쉽고 편하게 공부할 수 있다.
내가 리뷰도서로 《혼자 공부하는 데이터 분석 with 파이썬》를 고른 이유는 인공지능 학습 전 입문서로 제격이라 생각했기 때문이다. 인공지능 또는 데이터를 분석한다고하면 복잡한 숫자가 한가득 있고, 숫자 데이터를 시각화하여 그래프로 나타내는 모습만 떠올랐다. 서점에서 본 인공지능 책들은 모두 수식만 한가득 수록되어 있어서 거부감이 느껴졌다. 하지만 《혼자 공부하는 데이터 분석 with 파이썬》는 혼자 공부하면서도 어려움이 없었다.
복잡한 수식 대신 쉽고 상세한 설명과 그림을 통해 저자가 파이썬, 인공지능과 관련된 책을 여러권 저술, 번역하다보니 초보자가 어떤 부분에서 어려움을 느끼는지 잘 알고 썼다는걸 경험할 수 있었다.
책을 훑어보고 기억에 남는건 책의 도입부분이었다. 전체적으로 내가 어떤 부분을 공부하게 되는지 방향을 세울 수 있었기 때문이다.
책에서 알려주는 내용을 정리해보면 '목표 설정 - 데이터 수집 - 데이터 가공 - 데이터 출력(시각화) - 미래 예측'이라는 흐름이 반복된다.
위 그림은 책의 내용을 하나씩 실습을 마치면 배우게 되는 맷플롯립(matplotlib)을 이용한 시각화 자료다. 데이터 분석이 어렵게만 느껴졌었는데 책의 내용을 천천히 따라가다보니 '겁내기보다는 하나씩 하나씩 하면 된다'는 자신감이 생겼다.
책을 읽고나서 느낀 특징점이 있었다.
저자가 운영하는 오픈채팅방에서 《혼자 공부하는 데이터 분석 with 파이썬》 다음에 무엇을 공부하면 좋을지 질문했다.
저자가 구성한 커리큘럼 사진을 답변으로 받았다. 이 책들을 모두 저자가 저술하거나 번역한 책이라고 하니 커리큘럼을 믿고 따라가도 되겠다는 생각이 들었다. 《혼자 공부하는 머신러닝 + 딥러닝》도 구매하러 가야겠다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
리뷰를 위해 한빛미디어에서 책을 제공받았지만 주관적인 생각을 그대로 적었습니다.
이 책은 나온지 얼마 되지 않았고 트렌드에 맞게 나온 책이다.
데이터 분석의 중요성은 말할 필요도 없고, 어떤 회사에서든 필요하다고 생각하는 업무이자 전문가가 필요하다고 생각한다. (작은 회사에선 적당히 엑셀만지고 똑똑한 사람이 하지만)
개발자 붐에 웹개발자 등이 훅 휩쓸고, 빅데이터도 한번 휩쓸었다.
웹개발자가 되고싶으면 국비지원 학원가서 6개월 다니면 어떻게 이력서는 넣을 수 있다.
말도 많긴 하지만 시장이 커질수록 생기는 장단점이 있는 법이다.
하지만 데이터 사이언티스트는 어떻게 될 수 있을까?
그렇게 쉽지 않다.
작은 회사에서도 홈페이지 만들고 웹서비스 만들어보자해서 최저월급주고 웹개발자는 많이 채용하지만
작은 회사에서 데이터 분석시켜보자고 월급주고 데이터 개발자를 잘 채용하진 않는다.
채용하는 회사라고 하더라도 보통 전공자. 석박사로 채용할텐데 ..
분석하는 일인데 어떻게 학사 졸업자나 학원 조금 다닌 사람을 채용해서 믿고 맡길 수 있을까.
그럼 하지말아야 할까?
진지하게 생각하는 사람이라면 데이터 관련 학위를 따거나
그에 준하는 실력을 쌓고 증명하는 방법을 찾는 쪽으로 가야한다.
공부해서 프로젝트하고, 포트폴리오 만들고, 수상이력 쌓고 증명하면 충분히 가능하다.
하지만 학위를 따든 증명을 하든 그 길이 길고 험난한건 당연한 일.
어떻게 쉽게 발을 딛일 수 있을까, 시간과 자본이 만만치않게 들어가야하는데,
막상 시작해도 나이만 먹고 단순히 내 적성이랑 안맞으면 어떻게 하나
나랑 맞는지도 모르는데 무작정 시작해보기도 여간 만만치 않을 일이다.
살짝 맛만 본다고해도 6개월이상을 학원 다녀야한다.
다녔다가 또 나한테 맞으면 .. 그냥 일찍 학위 따러 들어간게 나을 수 있으니 이것 참 딜레마다.
그런 의미에서 혼자 공부하는 시리즈는 혼자서 간단하게 공부해기에 너무나도 좋은 책이다.
1. 대학 전공을 정하지 못한 중고등학생
2. 전과, 복수전공 등을 고민중인 타전공 대학생
3. 학점 잘받고싶어서 미리 예습하고 싶은 전공 대학생
4. 폭넓게 공부하고 싶은 대학생
5. 이직을 생각하는 직장인
6. 데이터 분야를 생각하고 있는 비전공 취업준비생
이정도만 추려봐도 책 한권 사서 공부했을때 그로 생기는 이득은 굳이 말하지 않아도 아는 정도이다.
실천하지 못하는 사람들만 수두룩빽빽할 뿐이다. (나포함)
나는 학원보다 책으로 공부하는 것을 선호하는데,
시간과 기간, 주기를 내 마음대로 설정할 수 있기 때문이다.
한권 분량을 학원에서 꼼꼼하게 배웠을때 퀄리티는 더 좋고 동기부여는 되지만 일정 기간과 일정한 시간을 이동해야 한다.
하지만 내가 다다음달까지 심사숙고해봐야한다면, 책은 한달동안 집중해서 독파할 수도 있는 것이다.
뭐든지 한번 발을 들여놔야 그 곳의 현실을 알 수 있게 된다.
이게 맞을까, 해도 괜찮을까, 고민해봐야 한번 발을 넣어보는 것보다는 덜하다.
신중하게 생각하는 것도 중요하지만, 직접 체험해봤을 때의 얻는 정보량이 더 많고 정확할 수 있다는 말이다.
데이터 사이언티스트, 빅데이터 개발자라고 해서
엑셀처럼 데이터 쭈루룩 돌리고 데이터 통계 나오면 그래프 쭉 찍어주고 PPT 멋드러지게 만들어서 근거 확실하게 찍어주고 문제점 찍어주고 방향성 찍어주면서 PPT 마무리하는 것.
슈카 유튜브보면 나오는 통계 자료처럼 통계자료 쭈루룩 긁어오고 연관된 통계 찾아서 접목시켜서 유의미한 상관관계를 찾고 데이터 분석적인 측면으로 유의미한 어떤 것을 도출해서 해답 내놓기.
라고 쉽게 생각할 수도 있을 수도 있다라고 생각한다.
모든 직업이 멀리서 보면 현실보다는 쉬워보이니까.
그래서 한번 이 책으로 체험해보는 것도 좋은 방법이라고 생각한다.
발을 들여놓고 나면 어떤 부분을 봐야할지, 채워야할지 안목이 생긴다.
혼자 공부하는 데이터 분석 with 파이썬 1:1 과외하듯 배우는 데이터 분석 자습서
확인 문제를 통해 배운 내용을 꼼꼼하게 점검해 볼 수 있으며, 퀴즈의 내용도 데이터 분석에 필요한 핵심적인 내용을 확인할 수 있도록 구성되어 있다.
혼공 노트 또한 혼공시리즈의 장점인데 저자분의 "혼자 공부하는 머신러닝 딥러닝"처럼 공부잘하는 친구가 정리한 핵심노트를 보는 기분이다.
전체적인 내용을 혼공노트로 다시한번 정리하며 데이터 분석에 필요한 기본적인 내용을 쉽고 재미있게 설명하고 있다. 나 또한 저자분의 다른 역서, 저서를 통해 많은 도움을 받으며 성장해 오고 있는데 이 책 또한 저자분의 친절한 설명으로 알고 있던 내용을 정리할 수 있었다.
이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.
제가 정말 정말 좋아하는 번역자이자 작가이신 박해선님이 내놓은 또 하나의 역작이 나왔다.
요즘은 딥러닝 모델에 대해서 공부하는 것 보다
데이터 분석하는 것이 더 많이 유행하고 있는 듯 하다.
이런 분위기에 정말 딱 맞게 나온 책이 아닌가 싶다.
우리 회사에서도 DS 인증 프로그램을... @.@
박해선님은 번역하신 책이든, 직접 작성하신 책이든 항상 정성이 가득하다.
실습 내용도 하나 하나 모두 직접 업데이트 해주시고
Youtube로 강의도 제공하여 주시고, 심지어 오픈채팅까지도 운영해주신다니...
무려 13개의 강의 동영상을 제공해주신다!
- https://www.youtube.com/playlist?list=PLVsNizTWUw7FGzSRCkQrPEEe-ljVXgS7k
직접 물어보고 대답을 들을 수 있는 카카오 오픈채팅 !!!
- https://open.kakao.com/o/gBF5aQ1c
1월 2일, 새해가 시작하자마자 1쇄 발행을 하다니... 너무 한 것 아닌가?! ㅋㅋㅋ
박해선님은 항상 도식화를 좋아하시는 것 같다 ^^
딥러닝 모델링에 대해서 공부하려면 수학이 발목을 잡는 것 처럼
데이터 분석에 대해서 공부하려면 파이썬이 발목을 잡는다.
발목 잡히지 않으려면 시간을 들여서 제대로 파이썬을 공부해놓는 것이 좋다.
도식화, 로드맵을 정말 좋아하시는 박해선님! ^^
오해하면 안된다.
"이 도서가 얼마나 인기가 좋을까요?"는 정말 이 책에 대한 것이 아니라
데이터 분석의 첫 번째 예제일 뿐이다 ^^
박해선님은 그림도 잘 그리신다~ ^^
ML/DL
머신러닝과 딥러닝이 막 알려지면서 사람들이 공부를 시작할 때에는
DS(Data Science, 데이터 과학)에 대한 영역이 대중적으로 정착되지 않았었다.
지금은 Data Scientist, Data Engineer 직종이 정착된 것 같다.
외부에서 만나는 많은 분들이 "저는 OO에서 데이터 사이언스로 일하고 있어요"라고 하고 있다는...
책 구성을 보면 정말 정성 가득함이 엿보인다.
이 책을 보다가 새롭게 배운 지식
음 ... 이 정도면 ... Full Stack ... 만능 아닌가 ?!
Summary 까지 꼼꼼하게 되어 있다.
혼자서, 또는 다같이 공부할 수 있도록 "확인 문제"도 제공해준다.
주관식은 너무 어렵다는...
직접 실습을 해볼 수 있도록 GitHub 저장소도 제공해주고, 설명도 친절히 해준다.
링크까지 꼼꼼히 제공해주는 박해선님!!!
리뷰 때문에 살펴보다가 알게된 정말 꿀팁 !!!
정부 주도로 진행한 데이터들일텐데,
요즘 시대에 아직도 Euc-KR 형식으로 만들어진 데이터 볼 때마다 정말 ... 에휴 ... 할말하않 !!!
이 책은 뭐 두말할 필요 없이 무조건 추천한다.
박해선님이 지은 책이라는 것 만으로도 추천하지만,
책 내용 및 책 외부적으로 제공되는 컨텐츠 모두 정말 정성 가득한 책이다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
최근들어 AI 분야가 각광받고 있어 데이터 처리에 관심이 가고 있다. 학교에서 배우고 몇번의 프로젝트를 해본 경험이 있는데, 이를 정리해볼 기회가 마땅치 않아 이번 한빛미디어에서 출간한 "혼자 공부하는 데이터분석 with 파이썬" 이 책을 읽으며 한번 정리해보려 했다.
참고로, 이 책은 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
데이터 분석에 필요한 기초 공부부터 데이터로 의미있는 결과를 만들기까지.
기존에 데이터 관련한 프로젝트를 몇번 해본 입장에서 막 새로운 기술이나 흥미있는 내용을 다루지는 않는 책이었다. 하지만 데이터 분석을 처음 해보는 사람이나 단순히 데이터 분석 프로젝트만 해본 사람이라면 기초적인 개념을 익히기에 충분한 책인 것 같아 추천한다.
읽고 나서 있어보이는 내용으로 흥미유발하는 책이 아닌 기초를 탄탄히 잡을 수 있도록 도와주는 책이라는 느낌을 받았다. 그리고 이를 응용할 수 있도록 약간의 프로젝트를 다루어 주어 어떻게 활용할 수 있는지 알려주어, 배우는 입장에서 왜 배우는지 확 와닿았다.
이번에 이 책을 읽으며 기존에 학교에서 배웠던 지식들을 다시한번 정리할 수 있었고, 활용해보면서 관련하여 더욱 공부하고 싶은 열정이 생겼다.
박해선. 『혼자 공부하는 데이터 분석 with 파이썬』. 한빛미디어, 2023.01.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
▶ 리뷰에 앞서서
"혼자 공부하는 ~ "
아마 코딩, 컴퓨터 관련 공부를 해봤다면
한 번쯤 들어보았을 시리즈 일것이다.
최근 한빛미디어에서 '혼자 공부하는 데이터 분석 with 파이썬' 시리즈가
출간되었다고 하여 한 번 읽어보았다.
▶ 구성
- 총 7개의 챕터
- A,B,C 3개의 부록
Chapter 01 데이터 분석을 시작하며
01-1 데이터 분석이란
데이터 분석 소개, 데이터 분석과 데이터 과학과의 비교,
데이터 분석을 위한 도구 (파이썬과 R언어)/환경(구글 코랩)/필수 패키지(넘파이, 판다스, 맷플롯립, 사이파이, 사이킷런)
등에 대해 소개한다.
01-2 구글 코랩과 주피터 노트북
구글 코랩의 소개와 간단한 사용법을 설명한다.
텍스트 셀의 텍스트는 마크다운을 활용하여 편집 가능한데,
이 마크다운에 관해 자세히 설명해주고 있어서 참고하면 좋을 듯 하다.
01-3 이 도서가 얼마나 인기가 좋을까요?
공개 데이터 셋을 찾을 수 있는 홈페이지를 소개해주면서 특정 문제에 맞는 데이터를 구할 수 있는 방법을 알려준다.
또한, 코랩에서 (판다스) 데이터프레임으로 CSV 파일을 읽고 사용하는 법에 대해 배울 수 있다.
Chapter 02 데이터 수집하기
02-1 API 사용하기
API 개념과 웹 기반 API를 사용하는 방법을 소개하고 있다.
또한, CSV외에도 JSON, XML 등과 같은 새로운 데이터 포맷도 소개한다.
02-2 웹 스크래핑 사용하기
특정 웹사이트에서 필요한 정보를 긁어 가져오는 웹 스크래핑 방법에 대해 소개한다
HTML 문서를 파싱하는 데 사용하는 대표적인 파이썬 패키지, 뷰티풀수프를 활용한다.
Chapter 03 데이터 정제하기
= 데이터 전처리 과정
03-1 불필요한 데이터 삭제하기
행/열 삭제하기, 중복된 행 찾기, 그룹별로 모으기, 원본 데이터 업데이트하기
03-2 잘못된 데이터 수정하기
데이터프레임 정보 요약 확인하기, 누락된 값 처리하기, 정규 표현식, 잘못된 값 바꾸기, 누락된 정보 채우기
Chapter 04 데이터 요약하기
04-1 통계로 요약하기
기술통계,평균,중앙값, 최댓값/최솟값, 분위수, 분산, 표준편차, 최빈값 구하는 방법과 넘파이의 기술통계 함수를 소개한다.
04-2 분포 요약하기
산점도, 히스토그램, 상자 수염 그림 그리는 방법과 판다스의 그래프 함수를 소개한다.
Chapter 05 데이터 시각화하기
05-1 맷플롯립 기본 요소 알아보기
Figure 객체, rcParams 객체 및 여러 개의 서브플롯들을 출력해보는 방법에 관해 소개한다.
05-2 선 그래프와 막대 그래프 그리기
맷플롯립으로 가장 기본적인 선 그래프, 막대그래프를 그리는 방법을 소개한다.
더 나아가, 이미지를 출력하고 저장하는 방법, 그래프를 이미지로 저장하는 방법을 소개한다.
Chapter 06 복잡한 데이터 표현하기
06-1 객체지향 API로 그래프 꾸미기
pyplot 방식과 객체지향 API 방식 비교하여 각 방법의 사용법을 소개한다.
그래프에 한글 출력하기
출판사별 발행 도서 산점도 그리기 등
06-2 맷플롯립의 고급 기능 배우기
그래프에 범례 추가하기,
선 그래프와 막대 그래프를 동시에 여러 개 그리는 방법,
데이터 프레임의 피벗 테이블 기능 등에 관해 소개한다.
Chapter 07 검증하고 예측하기
07-1 통계적으로 추론하기
통계적 추론과 가설 검증을 위한 핵심 개념에 관해 소개한다.
(모수검정, 표준점수 구하기, 중심극한정리, 신뢰구간, 가설검정, 순열검정 등)
07-2 머신러닝으로 예측하기
데이터에서 유용한 패턴을 감지하거나 미래의 성과를 예측할 수 있는 머신러닝에 관해 개념, 용어, 모델 훈련하는 법, 훈련된 모델을 평가하는 방법 등 얕지만 알아야하는 모든 부분을 다룬다.
< 부록 >
부록 A 한발 더 나아가기: 데이터베이스와 SQL
부록 B 이 책에서 배운 함수와 메서드
부록 C 에필로그
< 정답과 인덱스 >
확인 문제 정답
찾아보기
▶ 이 책을 읽어보며 좋았던 점들
1. 마무리와 확인 문제
항상 한 챕터가 끝나기 전
마무리와 확인 문제를 통해
정리와 복습을 할 수 있다.
문제 없이 그냥 책만 보는 경우에는
내가 제대로 내용을 습득했는지 아닌지 확인 할 수 없는데
문제를 통해 내가 아는 것과 모르는 것을
한 번 더 짚고 넘어갈 수 있어서 유용했다.
또한 확인 문제의 정답도
책 마지막 부분에 포함되어있어
빠르게 정답과 오답을 체크할 수 있었다.
가끔 문제에대한 정답이 포함되어있지 않아
답을 알지 못한 채 넘어가는 경우가 꽤 있었는데
그러한 불편
함을 감수할 필요가 없어서 좋았다.
2. 자세한 손코딩
앞에서 소개한 이론들을 바탕으로
직접 실습해볼 수 있는 코드를 제시해주고 있다.
코드와 함께 왜 이런 메소드를 사용했는지, 어떠한 결과를 만드는 지 등
자세한 설명을 화살표를 통해 덧붙이고 있어서
쉽게 이해 가능하다.
3. 부록 B, 이 책에서 배운 함수와 메서드
부록B를 통해서 앞에서 배웠던
함수와 메서드의 매개변수, 기능을 한 눈에 볼 수 있었다.
이 책을 통해 입문을 하고
데이터 분석 관련 문제를 풀면서 실력을 키우려고 하는데,
막상 특정 상황에서 어떤 함수/메서드를 사용해야하는 지
생각이 안날 때 참고하기 유용할 것 같다.
▶ 총평
데이터 분석을 독학하고자 하는 입문자들에게는
1:1과외하는 듯이 데이터 분석을 배울 수 있는 책인 듯하다.
물론 파이썬 등 코딩에는 능통하지만,
통계에 관한 이해가 필요한 개발자들에게도 많은 도움을 줄 수 있을 것 같다.
파이썬을 활용한 데이터 분석을 위한 백과사전 느낌 !
그리고 동영상 강의와 저자에게 궁금한 점을 질문할 수 있는 혼공 학습 사이트도 지원한다고 하니, 참고하면 좋을 듯 하다.
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
데이터 분석 기초다지기에 추천!
데이터 분석은 파이썬으로 시작하는게 편한 것 같다. 나 역시도 그랬고, 이 책은 파이썬 개발환경을 함께 설명해주어 진입장벽이 높지 않다. 쉽게 빠르게 배울 수 있을 것 같은 느낌이 든다. 사실 데이터 분석의 앞부분은 그리 어렵지도 않고, 어떻게 활용할지 고민해보고 주제를 선정하는게 계속 공부하는데에, 그리고 재미를 붙이는데에 도움이 되는 것 같다. 혼공분석에서는 한빛미디어 홈페이지의 데이터를 끌어다 쓰는 예제가 나온다.
도서명: 혼자 공부하는 데이터 분석 with 파이썬
출판사: 한빛미디어
세줄요약
1. 실제로 현업에서 사용할 수 있는 데이터 분석 지식을 알려준다
2. 파이썬을 활용하여 쉽게 데이터 분석을 할 수 있는 방법을 알려준다.
3. 데이터분석의 정의, 데이터 수집, 데이터 수정/삭제, 통계/분포, 시각화 및 예측까지 이어진다. 즉, 시작부터 끝까지 전반적으로 설명을 해주었다.
장점
1. ’혼자 공부하는‘ 시리즈 답게 혼자서 공부하기에 쉽게 책이 쓰여 있다.
2. 위에서도 언급하였듯이 데이터분석의 정의로 시작하여 데이터 수집 -> 수정/삭제 -> 통계/분포 -> 시각화 -> ML/예측 등으로 단계별로 잘 설명이 되어 있다.
3. 설명이 자세하며 마무리 부분에서 해당 챕터를 정리해주는 부분이 좋다.
4. 추상적인 예제가 아닌 그럴듯한 예제를 다룬 부분이 좋다.
5. 다양한 부분을 다룬다. 즉, 파이썬, JSON/XML 개념 등등
단점
1. 너무 자세한 예제: 사람에 따라 호불호가 갈리겠지만 개발이나 데이터 분석을 어느정도 알고있는 사람에게는 읽으면서 넘어갈만한 내용들이 많다. 초보자도 볼 수 있게 자세하게 여러 가지 정보를 설명해 둔 것은 장점이긴 하나 이미 아는 개념들이 많이 나왔다. 단점이라 적었지만사람에 따라 장점이 될 수 있는 내용이기도 하다.
후기
파이썬을 통한 데이터 분석을 전반적으로 다룬 책이다. 데이터의 수집부터 ML을 활용한 예측까지다루었다. 따라서 데이터 분석이라는 영역에 대해서 혼자서 시작하는 사용자에게는 굉장히 좋은책이다. 다만, 데이터 분석을 제대로 하기 위해서는 확률/통계, AI/ML/딥러닝 등에 대해서 추가적으로 공부가 필요할 것으로 보인다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
'혼자 공부하는 데이터 분석 with 파이썬'은 머신러닝/딥러닝 분야 책의 역자로도 유명하신 박해신님의 책이다. 이전에 혼자 공부하는 머신러닝 딥러닝 책도 공부해본 적이 있어서, 이 책에서도 비슷하다는 느낌을 받을 수 있었다.'혼자 공부하는~' 책들은 디자인 자체가 이미 공부하고 싶은 디자인이어서 새로운 걸 배우는 것에서 오는 거부감을 조금이나마 줄여주는 것 같다.
이 책에서 좋았던 점은, 단순히 pyplot이나 pandas와 같은 것들만 다루고 있지 않다는 점이었다. 데이터를 어떻게 수집할 수 있는지, API를 어떻게 사용할 수 있는지에 대해서도 다루고 있다는 점이 이 책의 포인트라고 생각한다.
이 책을 읽기 위한 선행 지식은 기초적인 파이썬 프로그래밍 경험이다. 그만큼 쉽게 쓰여진 책이고, 하나하나 잘 설명되어 있기 때문에 이 책을 읽고 나면 데이터 수집부터 데이터 표현까지, 데이터를 어떻게 다룰 수 있는지에 대한 기본을 익힐 수 있을 것이라 생각한다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
문과 출신으로 계속 배워보고 싶었던 것 중 하나가 프로그래밍 언어이다.
그래서 파이썬을 배우기 위해 그간 많은 시도들을 했다.
내일배움카드를 이용해 국비로 파이썬을 이용한 빅데이터 분석 공부를 했었다.
5주차 동안 정해진 양을 학습하고 블로그에 숙제도 하며 열심히 했던 기억이 있다.
하지만 1년 가까이 지난 지금 부끄럽지만 머릿 속에 남는 게 없다 해도 무방할 정도.
기간이 정해져있고 숙제도 있기 때문에 단기간에 파이썬 맛보기에는 너무 좋았으나 자주 사용하지 않으면 결국 남는 것은 없었다.
이것을 보완해주는 것으로는 책만한 것이 없지.
책이 있으면 기간 제한없이 언제든 꺼내보면서 공부할 수 있을테니 말이다.
책꽂이에 한빛미디어, 한빛아카데미 책이 몇 권 꽂혀있어 출판사 특색은 익히 알고 있다.
또한 혼공시리즈도 알고 있다.
정말 혼자 공부할 수 있도록 잘 짜여진 책일까? 많이 궁금했었는데 드디어 데이터 분석으로 혼공 시리즈를 접해본다.
일단 무언가를 배우기 위해 책을 정할 때는 저자가 누구를 대상으로 쓴 책인가 알아보는 것이 중요하다.
파이썬을 처음 접하는 사람? 파이썬의 기본 문법은 아는 사람? 파이썬으로 업무를 하고 있는 사람? 등등
'혼자 공부하는 데이터 분석 with 파이썬'은 파이썬의 기본 문법 정도는 아는 사람이 읽어야 하는 책이다.
이 책은 파이썬을 알려주는 것이 아니라 파이썬을 이용해 데이터를 분석하는 방법을 알려주는 책이기 때문이다.
그리고 책이 언제 출판됐는지 중요하다.
이렇게 프로그래밍 언어를 사용할 경우 업데이트가 되는 내용들이 많아 출판된지 오래된 책으로 공부할 경우 실행이 되지 않아 짜증나는 경우가 많이 생기기 때문이다.
'혼자 공부하는 데이터 분석 with 파이썬'은 2023년 1월 2일 출판되었다.
물론 글쓴이가 이 책을 출판하기 위한 기간이 있다보니 책에서 다루는 데이터들은 21년 것도 있다.
파이썬을 별도로 컴퓨터에 설치하여 사용하는 방식이 아닌 구글 코랩을 이용하도록 했기 때문에 추가 설치없이 간편하게 작업을 할 수 있다.
파이썬 설치하기, 버전 찾기 같은 작업도 스트레스였는데 구글 코랩 기반으로 설명해주니 좋네.
저자를 확인해보니 머신러닝, 딥러닝에 관한 책을 다수 집필하고 번역했기에 책 내용에 신뢰가 간다.
그러고 보니 저자가 번역한 '핸즈온 머신러닝'이 책꽂이에 쓸쓸히 꽂혀있군.
'핵심키워드' : 이번 절에서 무엇을 공부하는지 알고 시작한다.
'시작하기 전에' : 주요 개념을 설명해준다.
'손코딩' : 코딩을 따라 입력한다.
'여기서 잠깐' : 공부하다 생길 것 같은 궁금한 점, 발생하는 오류 등을 알아서 답해준다.
'문제 해결 과정' : 배운 것을 바탕으로 실제 어떻게 문제를 해결해나가면 되는지 과정을 정리해준다.
'좀 더 알아보기' : 더 알면 좋을 것 같은 내용들을 추가로 담았다.
'마무리' : 학습 정리는 필수.
'확인 문제' : 제대로 공부했는지 문제를 풀며 점검하기.
'혼공 용어 노트' : 책 끝에 부록처럼 붙어있다. 주요 용어에 대한 간단한 설명인데 굳이 있을 필요는 없을 듯 하다. 색인이 있어 모르는 용어를 금방 찾을 수 있기 때문이다.
공부에 도움이 될 수 있도록 다양한 자료를 추가로 제공하고 있다.
https://github.com/rickiepark/hg-da
GitHub - rickiepark/hg-da: <혼자 공부하는 데이터 분석 with 파이썬>의 코드 저장소
손코딩 자료를 깃허브에 올려놓았다.
[한빛미디어] 혼자 공부하는 데이터 분석 with 파이썬
글쓴이에게 질문도 할 수 있고 실습예제 확인도 할 수 있게 해놓았다.
유튜브에 13강 총 4시간 정도 분량의 저자 강의도 있다.
496페이지에 달하는 두꺼운 책이다.
데이터를 수집, 정제, 요약하고 그것을 시각화하는 것에 더 나아가 검증하고 예측하는 머신러닝까지 방대한 내용을 담고 있다.
책 구성이 잘 되어있어 책에서 안내하는 흐름대로 따라가면서 복습을 한다면 원하는 데이터 분석을 충분히 해낼 수 있을거라 생각된다.
그 자신감으로 제목에 '혼자 공부'를 당당히 내세울 수 있는 것 아니겠는가.
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
들어가면서
최근 AI, 그 중에서도 컴퓨터비전 분야에 관심을 가지고 공부를 시작하며 파이썬 공부의 필요성을 느꼈다.
Scikit-learn(사이킷-런), TensorFlow(텐서플로우) 등 파이썬에서 제공하는 머신러닝 라이브러리, 프레임워크가 워낙 풍부하기 때문에 인공지능 분야에서는 주로 파이썬을 사용한다.
대학교에 입학하면서부터 근 4~5년동안 C언어로만 프로그래밍을 해오다가 파이썬을 사용하니 유용한 내장 함수, 라이브러리가 많았다.
문제는 내가 그들을 활용하지 못한다는 점이었다.
아무리 좋은 라이브러리와 함수가 있더라도 내가 그들을 활용하지 못한다면 의미가 없다.
누군가는 이런 공부를 책이 아니라 필요에 따라 검색을 통해 함수를 사용하는 탑-다운(Top-Down) 방식으로 하는 것이 더 좋다고 말할 지도 모른다.
하지만 내 경험에 의하면 이는 기본적인 함수들을 익힌 뒤에 더 적절한 방법인 것 같다.
내가 무엇을 모르는 지도 모르고, 어떤 종류의 함수들이 존재하는 지 그 존재성 조차 판단하기 힘들다면 검색을 하는 것조차 어렵다.
이 책은 파이썬의 라이브러리를 활용해서 데이터를 분석해본 적 없는 독자들에게 그러한 기반이 되어 줄 수 있는 책이다.
책에 관하여
책의 목차는 다음과 같다.
Chapter 01 - 데이터 분석을 시작하며
01-1 데이터 분석이란
01-2 구글 코랩과 주피터 노트북
01-3 이 도서가 얼마나 인기가 좋을까요?
Chapter 02 - 데이터 수집하기
02-1 API 사용하기
02-2 웹 스크래핑 사용하기
Chapter 03 - 데이터 정제하기
03-1 불필요한 데이터 삭제하기
03-2 잘못된 데이터 수정하기
Chapter 04 - 데이터 요약하기
04-1 통계로 요약하기
04-2 분포 요약하기
Chapter 05 - 데이터 시각화하기
05-1 맷플롯립 기본 요소 알아보기
05-2 선 그래프와 막대 그래프 그리기
Chapter 06 - 복잡한 데이터 표현하기
06-1 객체지향 API로 그래프 꾸미기
06-2 맷플롯립의 고급 기능 배우기
Chapter 07 - 검증하고 예측하기
07-1 통계적으로 추론하기
07-2 머신러닝으로 예측하기
이 책은 구글 코랩을 통해 모든 실습을 진행한다.
별다른 세팅 없이 브라우저에서 python script를 작성하고 실행시킬 수 있기 때문에 책의 실습을 쉽게 직접 따라해볼 수 있다는 장점이 있다.
구글 코랩의 사용법에 대해서는 Chapter 01에 자세히 기술되어 있다. 이미 사용법을 잘 아는 독자의 경우 01-3 부터 책을 읽어도 괜찮을 것 같다.
목차에서도 알 수 있다시피 데이터를 처리하는 process의 순서에 따라서 chapter가 전개되기 때문에 내용을 follow-up 하기 편했다.
나의 경우에는 데이터를 웹에서 스크래핑하는 작업은 거의 하지 않고 주로 데이터 요약, 시각화, 표현을 해야 하는데
내가 필요한 작업에 따라 파트를 금방 찾아볼 수 있다는 점이 편리했다.
설명하는 함수들에 대하여 거의 전부 실습 코드와 예시가 제공되고 해당 함수가 처리해주는 작업이 무엇인지 부연 설명까지 적혀 있어 코드 이해가 수월했다.
책에서 설명하는 내용이 방대하기 때문에 모든 실습 코드를 작성하기 힘들 수 있는데, 이를 위해 이 책에서는 실습예제 코드를 전부 제공한다.
실습 코드와 더불어 강의도 제공하고 있으니 필요한 독자들은 참고하면 좋을 듯하다.
책의 마지막에 appendix로 배운 함수들이 정리되어 있어 필요한 함수들을 한 눈에 찾아볼 수 있고,
미니북처럼 뜯어서 들고다닐 수 있는 용어 노트까지 들어 있다
맺으면서
파이썬을 전혀 모르는 사람들이라면 이 책으로 시작하기 보다는 혼자 공부하는 파이썬을 먼저 보고 이 책을 보면 좋을 것 같다.
이 책은 데이터들을 다룰 수 있는 tool에는 어떤 것들이 있는지, 그 tool을 어떻게 활용할 수 있는 지 학습하고
당연하게도 모든 함수들을 기억할 수는 없겠지만 필요한 때에 "이런 작업을 처리해주는 함수가 있었던 것 같은데" 라는 생각을 할 수 있도록
기반을 다져주는 책이라고 생각한다.
파이썬을 어느 정도 익힌 뒤, 데이터를 파이썬으로 다루는 법에 대해 첫 걸음마를 떼고 싶은 사람들에게 추천한다.
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다
최근 데이터 관련 직종 이직이나 관련 프로젝트, 공부하는 것이 더욱더 인기가 많아졌음을 블로그 유입자 인기 키워드로 느끼고 있습니다.시중에 많은 책, 강의가 나와 있는데 입문을 고민하는 분들에게는 선택지가 너무 많아 정보의 호수 속에서 시작하는 것에서부터 혼란이 오게 됩니다.예로 시작하려고하면 언어부터 R, Python, SQL 등이 있고 분석 내에서도 분석 방식에 따라서 다양하게 나뉘게 됩니다.
마침오늘 리뷰할 책은 최근에 한빛미디어에서 2023 나는 리뷰어다로 선정되어 접하게된 자습하기에 좋은 데이터 분석 입문서로 리뷰하면서 자습하기에 최적화된 책으로 생각되어 최근에 주변 지인분들 중에서 파이썬으로 데이터 분석을 시작하고 싶어하여 추천드렸습니다. 가장 큰 이유가 혼자서도 공부하기 좋은 입문자 수준의 자습서이면서도 지은이가 해당 분야에 저명한 분이기 때문입니다.
혼자 공부하는 데이터 분석 with 파이썬은 2023년 초에 한빛미디어에서 혼자 공부하는 시리즈 중에서 파이썬으로 하는 데이터 분석 입문도서입니다. 유명한 혼공단 시리즈로 혼자서도 공부할 수 있도록 기획된 시리즈입니다.
책은 레벨이 2가지로 나누어져 있고 초반에 정의 및 수집, 정제, 시각화, 기술통계는 1~4장, 추론통계나 머신러닝 부분은 5~7장은 고급으로 나누어져 있다. 학습단계가 7단계로 나누어지고 추가적으로 공부해야할 사항들은 부록으로 넘어가 있습니다. 문제를 해결하는 스토리텔링 방식으로 전개되고 있습니다.
중간중간에 데이터셋 찾는 방법과 같은 꿀팁이나 관계형 데이터베이스에 관련하여 유용한 정보를 제공하고 있습니다.
부록으로 나오는 데이터베이스 파트에서 SQLite하여 연결부터 DML,DDL,DCL 모두 다루고 배운 함수와 메서드를 정리해서 사용방법을 제공하고 있어 공부 내용 외에 추가적으로 찾아 공부하기 좋도록 구성되어 있습니다.
마지막에 나오는 혼공 용어노트는 책과 분리해서 갖고 다니면서 공부하기 좋게 그림과 함께 키워드 정리가 되어 있는데 각 단원에 중요한 컨셉을 이해하고 기억하기 좋게 준비 되어 있어 의지만 있는 누구든 혼자서도 시작 할 수 있습니다.
내용이 많다 보니 핵심 기본으로 추려져 있고 깊이를 원하는 경우 저자의 깃허브에 나와있는 로드맵 이미지를 참고해서 넘어 갈 수있도록 가이드 라인을 제공하고 있어 관심 분야는 찾아 공부하기 좋게 되어 있습니다
1. 친절한 입문서
전반적인 내용은 데이터 분석의 전 과정을 다뤄볼 수 있도록 설계되어 입문자용으로 적합하다고 느꼈습니다. 다양한 입문서가 많지만 혼자 자습할 정도로 리소스를 제공하는 곳은 많지 않은데 혼공시리즈는 입문자가 계속 좌절하지 않고 문제를 해결하면 나아갈 수 있도록 동영상부터 커뮤니티까지 다양한 방식으로 제공하고 있습니다. 그래서 책의 커리큘럼에 맞춘 유튜브를 제공하고 오픈채팅을 통해서 저자에게 질문하거나 열정이 있고 관심 분야가 비슷한 사람과 같이 시작해보고 싶다면 '혼공 학습단' 통해서 같이 나아갈 수 있도록 공간을 제공하고 있습니다. 이외에도 실습 예제와 용어노트도 홈페이지에서 제공하고 있습니다.
다양한 자료 제공뿐 아니라 입문자들에게는 설치부터가 엄청난 문턱으로 느껴지는 경우가 있어 원하는 데이터 분석 공부에 집중할 수 있도록 제안하고 있습니다. 파이썬으로 코드도 못 쳐보고 좌절하는 경우가 있는데 다양한 환경으로 발생하는 문제없이 인터넷만 된다면 사용할 수 있는 코랩(Colab)으로 실습을 진행하고 있습니다.
다른 책에서나 컨벤션의 이유로 설명이 생략되는 경우도 설명해 주어 정말 입문자를 많이 고려했음을 느꼈습니다.
저자 박해선님은 ML GDE(Machine Learning Google Developer Expert)로 활동하고 계시면서 출판 쪽으로는 유명한머신러닝, 딥러닝 도서를 우리말로 옮겼고 관련 도서도 직접 집필까지 하셨습니다. 관련 분야 및 파이썬에 대한 전문성을 인정받으신 분이 집필하셨기 때문에 입문자가 필요한 수준으로 적절하게 조정하여 소개하고 있습니다.유튜브, Github, 카카오 오픈채팅을 통해 저자와 직접 소통할 수 있는 기회가 있으니 적극적으로 이용하면 좋을 듯 합니다. 이전에 저자님을 만날 수 있는 기회가 생겨 친필 싸인책도 받았었습니다.
박해선 님이 한글로 옮기거나 집필한 책 리스트
『핸즈온 머신러닝(2판)』(한빛미디어, 2020), 『미술관에 GAN 딥러닝 실전 프로젝트』(한빛미디어, 2019), 『파이썬을 활용한 머신러닝 쿡북』(한빛미디어, 2019), 『머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로』(길벗, 2019), 『파이썬 라이브러리를 활용한 머신러닝』(한빛미디어, 2019), 『케라스 창시자에게 배우는 딥러닝』(길벗, 2018), 『핸즈온 머신러닝』(한빛미디어, 2018), 『텐서플로 첫걸음』(한빛미디어, 2016) 옮긴이,『혼자 공부하는 데이터 분석 with 파이썬(한빛미디어,2023)』,『Do it! 딥러닝 입문』(이지스퍼블리싱, 2019) 지음
보통 데이터 분석은 각 회사마다 도메인마다 정말 정의나 JD부터 천차만별인 만큼 공부할 내용도 많습니다. 입문하게 되면 놓치게 되는 부분도 있는데 혼자 공부하는 데이터 분석 책은밸런스를 갖춰서 개념과 실전 예시를 다루고 있어 기초 다지기에 좋다고 느꼈습니다.
실무에서 알고가면 좋은 기본 지식들이 꾹꾹 담겨있어 데이터를 다루는 모든 직무를 시작하는 분들에게 적극 추천드립니다. 특히, API나 웹크롤링으로 반정제 데이터를 수집 및 전처리가 필요한데 신입 중에서 하지 못하시고 아예 개념을 모르는 분들이 더러 있었습니다. 책에서는 실제도 데이터 찾는 법부터 없는 경우 API나 스크래핑을 통해서 웹 데이터를 수집하고 XML, JSON형식의 데이터를 다루는 방법을 제시하고 있어 데이터 분석 신입분들도 꼭 읽어보셨으면 좋겠다고 생각이 들었습니다.
또, 책 내에서는 코랩 오류나 인코딩 형식과 같은 중요한 팁을 다룹니다. 실제로 현업에서 일하게 되면 개발자는 인코딩 형식을 신경 쓰지 않고 엔드 유저에게 데이터를 넘겨서 주는 경우가 있는데 이런 경우 한글로 되어 있는 데이터는 깨지는 현상이 발생해서 다시 재요청해야 하는 경우가 생기게 되어 꼭 데이터 분석포지션이 아니더라도 파이썬으로 데이터를 다루는 모든 분들이 알았으면 하는 내용이 요목조목 정리되어 있습니다.
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
혼자 공부하는 데이터 분석 책은 한빛미디어에서 출간되었는데, 혼자서도 실무에 써먹을 수 있을 만한 수준까지 할 수 있도록 로드맵을 제시하고 있기 때문에 입문용으로 딱 좋은 책 같다. 데이터 분석은 데이터를 수집, 처리, 정제, 분석, 모델링하여 의사 결정을 내리는데 도움을 주는 작업이다. 보통 R이나 파이썬을 사용해서 하게 되는데, 이 책은 파이썬 기준으로 작성되어있다. 데이터 분석의 기본은 데이터를 다루는 것 부터 시작하는데, 이 책에서는 파이썬에서 JSON 및 XML 데이터를 다루는 것을 포함하여 기본부터 탄탄히 설명해두었다. 또한 데이터를 수정하고 삭제하는 등의 데이터 정제하는 방법과 데이터의 분산을 구하고, 표준편차를 구하는 등 데이터를 요약하는 기능에 대해서도 수록해두었다. 데이터 분석에 대한 심층적인 부분은 7장 검증하고 예측하기 부분에서 다루게 되는데, 비전공자도 이해할 수 있을 만큼 쉽게 설명하고 있어서 무리가 없어보인다. 다만 이 책은 정말 기본에 충실한 책이기 때문에 심화된 내용을 다루기 전에 읽어보면 좋을 것 같다. 장이 끝날 때 마다 확인 문제로 중요한 핵심 개념들만 빠르게 체크하고 넘어갈 수 있도록 되어있는 점이 좋은 것 같다.
“한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
한빛미디어에서 나온 머신러닝, 데이터 사이언스 관련 서적들 중 상당수가 본 책의 저자인 박해선님이 번역한 것들이었다. 책을 읽을 때마다 자연스럽고 읽기 편한 번역 내용 뿐만 아니라 곳곳마다 빽빽이 들어차있는 각주와 미주들을 보면서 도메인 지식을 제대로 가지고 번역을 하셨구나 생각을 했었고, 박해선님이 번역한 책은 믿고 사서 읽었는데, 이 책은 직접 글을 쓰신 책이라 처음부터 기대를 가지고 책을 읽기 시작했다.
책을 다 읽고 나서 느낀 건, 책이 목표로 하는 방향에 딱 맞게 책의 내용과 설명이 되어있다는 생각이 들었다. 간단히 책을 요약해보면 다음과 같다.
1. 혼자 공부할 때 책이 어떻게 진행될 것이며, 각 챕터마다 어떤 내용을 다루는 지 어떤 순서로 내용이 기술되어 있는지 단순 목차가 아닌 로드맵 형식의 그림으로 한눈에 보기 쉽게 되어있다.
2. 공부에 필요한 툴에 대해 설명하고, 어디서든 쉽게 공부할 수 있도록 코랩 사용 설명이 나옵니다.
3. 툴은 있으니, 공부할 때 사용할 데이터는 어디서 어떻게 구하는 지 설명을 해 줍니다. 이 때 웹 스크래핑을 이용하여 데이터를 얻어오는 방법도 함께 알려줍니다.
4. 데이터를 얻었지만 내가 원하는 형태로 가공이 필요할 수 있으니 그에 맞게 가공하는 기술을 상세히 알려줍니다.
5. 가공한 데이터를 가지고 원하는 데이터를 어떻게 얻어내는 지, python의 pandas, numpy와 같은 툴로 분석하는 방법을 간단히 설명하고, 분석한 내용들을 시각화 하는 방법을 차근차근 알려줍니다.
6. 기본적인 통계 내용을 넘어서서, 머신러닝을 이용해 회귀분석을 하는 방법을 배워보고, 가설을 세우고 검정하는 내용까지 진행을 합니다.
어찌 보면 보통의 책과 별 차이가 없다 느낄 수 있는데, 여러 다른 책들을 볼 때 이 개념을 굳이 왜 써야하지? 이런 건 어디에 적용하지 하는 내용을 회사에서 있을 법한 간단한 이야기들을 풀어나가면서 하나씩 예를 들어가며 설명을 해 주기 때문에, 다양한 적용 예를 알기는 힘들지만, 아.. 이런 때는 이렇게 써 볼 수 있겠구나 하는 감을 익힐 수 있게 해 준다.
그런 면에서 저자분이 많은 고심을 했다는 생각이 들었다. 책을 읽으면서 아 이부분은 좀 더 알려주면 좋을걸… 이라는 아쉬움도 있는 부분들이 있었으나, 사실 처음 이 내용을 접하는 분들의 입장에서는 500페이지가까운 책의 내용도 버거운데 더 넣는다는게… 사실 개인적인 욕심일 뿐… 저자분은 내용을 얼마만큼 넣는 것이 초보자분들이 질리지 않고 책을 끝까지 완주할 수 있을까 하는 부분을 많이 고민하셨을 거라 생각한다.
개인적으로 이 책이 좀 더 맘에 들었던 것은 다음과 같이 중요한 부분마다 요약한 내용을 말풍선으로 다시 한번 짚어주는 부분이 있다는 것이다.
그리고 손으로 그린 듯한 예쁜 그림으로 이해하기 쉽게 중요한 부분마다 설명을 해주는 부분도 마음에 든다.
각 챕터의 끝에는 부분 작성한 코드들을 다시 요약해 재활용 가능한 전체 함수형태로 다시 구현해 두었고, 어떤 내용을 다루었는지 다시 짚어주는 것도 이 책의 장점으로 생각된다.
다만, 책에서 사용된 예제는 책에는 이미 전처리가 완료된 것을 google drive에 올려두고 해당 예제를 필요 시 다운받아 사용할 수 있게 되어있지만, 실제 다운 받아보면, 그렇지 않은 부분들이 간혹 있다. 책 뒷부분에 자주 사용되는 ns_book7 예제는 발행년도에 연도를 나타내는 정수 데이터뿐만 아니라 다른 데이터도 섞여 있는데, 이 부분에 대해서는 앞부터 차근차근 내용을 읽고 따라하기를 했다면 큰 문제없이 불필요한 데이터를 스스로 제거할 수 있을 것이다. 하지만 그게 잘 안되는 분들은 아무래도 책의 예제 따라하는데 어려움을 겪을 수 있을 것이라 생각된다. 필요 시 해당 csv 파일을 엑셀을 이용해 불필요한 데이터를 제거하는 것도 하나의 방법일 수 있다. 여기서 MAC 환경에서 엑셀을 이용하는 분들의 경우 ns_book7.csv를 앍어들이면 글자가 encoding 문제로 깨져버려 이러한 수동 작업도 하기 힘들 수 있다. 그래서 다음 페이지에 처리 내용을 정리해 두었으니 필요 시 참고가 될 수 있을 것으로 생각되어 링크를 달아둔다.
https://manime.tistory.com/entry/pandas에서-저장한-UTF8형식-csv-파일을-MAC-Excel에서-제대로-못-읽을-때-대처방법
퇴근 후 조금씩 시간을 내어 책을 읽느라 책을 다 보는데 시간이 이 주 가까이 걸렸지만, 지루하지 않게 재밌게 책을 읽을 수 있었다. 본 리뷰를 할 수 있는 기회를 준 한빛미디어에 감사하다고 하고 싶다.
본 리뷰는 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
내가 파이썬을 사용하는 목적은 데이터 분석이다.
간단하게 파이썬으로 데이터 분석을 하기에 좋았다. 책을 보고 따라하면서 파이썬에 대한 이해도와 데이터 핸들링, 시각화 등을 배울 수 있게 되었다.
실습코드 내용이 많이 어렵고 개념에 대한 이해가 필요하지않아서 부담없이 따라할 수 있었다.
마지막에 있는 함수 요약도 실전에서 쏠쏠하게 사용할거같다!
데이터가 쏟아진다.
자율주행자동차가 돌아다니고 사물들이 인터넷(IoT)하는 시대이니 그럴수밖에 없다.
어떤 산업분야든, 수집되어 누적된 데이터들이 상당하기에 우리가 어떤 직업을 갖던지 관계없이 어떤 포커스로 분석해 나갈지 기획하며 수집단계에 반영할 줄 알아야 하는 시대이다.
전국의 초등학생부터 ~ 성인까지 참여하는 전국민 온라인 코딩파티에도 데이터 분석파트가 추가 된지 오래 되었다. 권장학년은 고등학생 이라고 되어 있지만, 요즘 아이들은 초등학교 6학년만 되어도 시도해 보곤 하며 중학생들도 따라하며 가뿐하게 완성한다.
코딩을 왜 하느냐?
분석을 왜 하느냐? 나랑 관계 없다고 말하는 사람도 있을지 모르겠다.
하지만 자신있게 말할 수 있다.
코딩능력과 데이터를 분석하고 결과를 해석하는 능력을 갖춘 사람은 경쟁력 자체가 다르다고 말이다.
파이썬은 다양한 분야에서 많이 사용되고 있는 프로그래밍 언어이다. 데이터 분석과 머신러닝이 나오면서 그 인기가 급상향되어 지금은 그 인기는 프로그래밍 언어분야에서 1위이다.
파이썬은 문법이 간단하고 직관적이기 때문에 처음 프로그래밍 하는 사람들도 쉽게 배울 수 있다.
또 라이브러리가 많아서 필요에 따라 최적화된 라이브러리를 활용할 수 있는 강점이 있다.
파이썬을 처음 배우는 사람들은 어떤 책부터 보아야 할까?
각각의 선호하는 스타일이 있겠으나 기초 서적으로 최소 3권이상 보는 것이 좋은 것같다.
그 중의 하나는 한빛미디어의 <혼자공부하는 파이썬>을 추천한다.
영상강의도 군더더기 없이 깔끔하고 핵심을 잘 설명하였다. 유튜브에 공개 되어 있으니 책과 함께 보기에도 딱이다!
파이썬의 기본 문법을 다졌다면 이제 데이터분석도 시작해 보자.
파이썬으로 데이터 분석을 하려면 다음의 라이브러리부터 시작해 보자.
Pandas : 데이터를 다루기 위한 가장 선호하는 라이브러리로 테이블 형태의 데이터를 다루는데 아주 편리하다.
Matplotlib : 가장 많이 사용되는 시각화 라이브러리로 여러 형태의 그래프를 그리는데 유용하다.
Numpy : 다차원 배열을 다룰 수 있는 라이브러리로 수치계산을 위한 기본 라이브러리이다.
Seborn : Matplotlib보다 더 간단한 문법으로 멋진 그래프를 완성할 수 있다.
데이터분석에 유용한 이 파이썬 라이브러리를 어떻게 시작하면 좋을까?
<혼자 공부하는 데이터 분석 with 파이썬> 책으로 시작하기에 충분하다.
이 책은 데이터분석의 기초기술부터 고급기술까지 단계적으로 학습하며 경험해 볼 수 있도록 구성되어져 있다.
데이터 분석은 통계학, 확률, 수학적 지식등의 기초 이론도 알아야 하고 프로그래밍 언어도 잘 다룰 수 있어야 하는 분야이다. 그렇기에 막연하게 시작하다가는 중간에 포기하게 된다.
그러니 좋은 교재로 하나씩 하나씩 실습하는 과정이 필요하다.
잘 모를 때에는 일단 듣고, 전문가가 만들어 놓은 것을 실행하며 이해하는 것이 최고다!
이번에는 이 책 흐름을 살펴보면 분석가 작업의 흐름대로 구성한 것을 볼 수 있다.
json, xml, csv, 웹스크래핑, 데이터 전처리, 통계와 데이터 시각화, 검증과 예측까지 경험해 볼 수 있다.
이해 및 분석환경 구성 : 분석을 위한 이해, 환경 세팅에 대해서 먼저 설명한다. 데이터분석의 입문자를 위해 데이터분석에 대한 이해부터 시작한다. 파이썬 에디터로 구글코랩 사용하는 방법도 설명하고 이 책의 깃허브 저장소에서 해당 소스코드를 이용해서 실습도 가능하도록 하였다.
데이터 사이트 소개 : 텍스트 형태의 가장 범용적인 데이터 csv 파일 다루는 법과, 데이터를 확보 할 수 있는 사이트도 소개한다. 믿을 만한 데이터를 바탕으로 분석해야 하니 말이다.
데이터 수집 : 파이썬에서 API를 이용해서 json, xml 데이터를 다루는 방법과, 웹 스크래핑을 이용해서 원하는 자료를 수집하는 방법도 알려준다.
데이터 정제 : 불필요한 데이터를 삭제하거나 수정하는 등의 데이터 전처리 방법도 알려준다. 데이터 분석에서 데이터전처리는 필수적인 과정이다. 전처리 작업만 잘 되어 있어도 일의 절반은 했다라고 표현할 정도이다.
데이터 요약 : 가볍게 할 수 있는 기술통계부터 중앙값, 분산과 표준편차 등을 구하고 그래프로 표현하는 방법을 다루었다.
데이터 시각화와 고급기능 : 앞 장의 그래프의 품질에서 한단계 더 나가서 matplotlib를 자세하게 설명한다. 파이썬 데이터 분석에서 matplotlib는 필수이니 꼭 필요한 과정이다.
검증과 예측 : 통계적 추론과 요즘 핫한 머신러닝으로 예측하는 방법 두 가지를 다루었다.
<혼자공부하는 데이터분석 with 파이썬> 책은 '혼자공부하는 시리즈'의 특장점을 일관성있게 반영하였다.
1. 실습위주로 구성한 점
2. 무료 동영상 강의를 통해서 이해를 향상 시키고 든든한 지원군이 되어 준 점
3. "혼자공부하는"의 취지에 맞게 스스로 확인해 볼 수 있도록 한 점
4. 각 챕터가 끝날때마다 핵심을 다시 한번 집어주고 연습문제를 통해서 확인 할 수 있도록 한 점
5. 용어노트만 분리해서 갖고 다니면서 익힐 수 있도록 한 점
책 뒷부분에는 챕터별로 함수들만 따로 모아서 정리가 되어 있다.
필요할 때 빨리 빨리 찾아야 하는데 이런 요약 정말 유용하다.
파이썬으로 하는 데이터 분석은 중학생 부터 지도하고 있어서 입문 책부터 다양하게 보고 있다.
'혼자 공부하는 ' 시리즈는 각 장의 앞부분의 목표와 키워드가 늘 명확하게 제시되어 있고 챕터가 마무리 될 때마다 요약과 문제풀이를 통해서 이해정도를 확인할 수 있어서 유용하다.
처음 접하는 사람에게는 어려울 수도 있음을 배려하여, 인트로 부분에 이해를 도와주는 흥미로운 그림도 있어서 친근감이 드는 책이다. 용어도 따로 모아져 있으니 반복하기에도 좋고 실습하기에도 편리하게 되어 있다.
실습을 하다가 중간에 문제가 생기면 진전이 안될 수 도 있는데 '혼자공부하는' 시리즈는 그런 부분이 거의 없다고 볼 수 있다. 실습위주로 구성되어져 있고, 실제 데이터를 사용하여 분석을 수행하는 방법을 정말 자세하게 설명하기 때문에 꼼꼼하게 확인하면서 경험해 볼 수 있다.
이 책 <혼자공부하는 데이터분석 with 파이썬> 은 데이터 분석을 처음 공부하는 사람들을 대상으로 하여 작성 되었으나, 뒷부분에는 검증과 예측까지 다루고 있기 때문에 데이터 분석을 공부하는 사람들은 실습하면 도움이 되는 책이라고 생각한다.
데이터 분석이라고 하면 특정 분야에서만 사용된다고 생각하는 사람들도 있을 것이다. 하지만 실제에서는 거의 모든 분야에 다각도로 적용되는 것이 바로 데이터 분석이다. 그렇다면 왜 모든 회사에서 데이터 분석을 활용할까? 답은 간단하다. 내 주장에 신뢰성을 더해주기 때문이다. 같은 내용의 제안서가 통계 자료의 가감에 따라 평가가 바뀐다. 단순히 많은 사람들이 좋아할거란 말보다는, 전체 몇 퍼센트 어떤 연령대의 사람들이 선호한다고 말하는 게 훨씬 신빙성 있지 않는가? 그렇기에 우리는 데이터 분석을 활용해야 한다. 감이 아닌 숫자로 우리의 주장을 훨씬 매력적으로 바꾸기 때문이다.
하지만 데이터 분석을 어떻게 시작해야 할지 배경 지식이 없는 상태에서 시작하기란 쉽지 않다. 어떤 Tool을 사용해야 하는지, 어떤 Data를 이용해 어떤 식으로 분석을 해야 하는지 등이 모두 미지수이기 때문이다. 물론 정답은 각 회사가 보유한 데이터의 유형과 분석의 목적에 따라 달라지겠지만 그걸 처음부터 알아내기란 쉽지 않을 것이다. 바로 그런 분들을 위해 이 책을 추천한다.
혼자 공부하는 데이터 분석 with 파이썬
1:1 과외하듯 배우는 데이터 분석 자습서
박해선 저 | 한빛미디어 | 2023년 01월 02일
제목처럼 정말 혼자 공부할 수 있도록 만든 책이다. 그렇기에 난이도가 있다기보다는 꼭 필요한 기초적인 내용들을 골고루 담은 서적이다. 처음 분석을 시작해보려는 분들은 1장부터 4장까지를 실습해보며 데이터 수집부터 전처리, 기술 통계를 배우고 본인에게 잘 맞는지를 확인하신 후에 뒤의 고급편인 5장-7장을 나가는 것을 추천드린다. 사실 고급편이라고 해도 그래프로 나타내고 정말 간단한 머신러닝의 기본을 배우는 정도이기에 어려운 내용은 아니어서 쉽게 배울 수 있는 내용이긴 하다.
이 책이 특히 좋았던 점은 코딩해야 하는 부분을 상세하게 알려주는 점이었다. 사실 파이썬을 처음 접하시는 분들에게는 사소하고 기초적이지만 헷갈릴만한 내용들이 있는데 (ex. library를 import 했을 때 이게 어디까지 유효한지, colab과 jupyter notebook의 다른 점(colab에는 install 돼 있는 package가 jupyter notebook에서는 설치해야 하는 것)), 이것들을 상세하게 설명 돼 있어 어디 물어보기도 뻘쭘한 질문들을 할 일들이 없게 된다. 그리고 각 장의 마지막마다 간단한 정리 페이지가 있는 것도 복습할 수 있는 장점이었다.
장이 끝날 때마다 이런 퀴즈들이 나오는데, 객관식과 주관식이 적절히 있어 내가 어느 부분에서 헷갈렸는지 확실히 짚고 넘어갈 수 있다. 책을 읽을 때는 완벽히 이해했다고 생각했음에도 불구하고, 막상 물어보면 헷갈리는 부분들이 있을 수 있는데 그걸 커버한 파트이다.
사실 책이 두껍고 실습을 해야 하기에 출퇴근 길에 활용하기에는 어려운 점이 있는 게 사실이다. 하지만 다행히 책 마지막 부분에 잘라서 가지고 다닐 수 있는 '용어 노트'가 존재한다. 카페나 기타 장소에서 실습하고 집에 가는 길에 지하철이나 버스에서 용어 노트를 사용해 예습 복습을 할 수 있고 헷갈리는 용어들을 외울 수 있다.
그래서 이 책을 추천하고 싶은 사람들은 다음과 같다.
데이터 분석에 관심이 있는 사람
분석을 시작한 지 얼마 되지 않은 사람
전체적인 분석의 흐름을 배우고 싶은 사람
이미 Python을 활용해 데이터 분석을 할 수 있고 통계적 지식이 있는 분들에게는 박해선님의 다른 책들을 추천한다. 난이도가 높은 책들도 많으니 확인 해보시면 좋을 것 같다.
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
구석 구석 주석들이 알차게 들어 있어서, 이 것 만으로도 다른 1권의 책이 나올 정도 입니다.
때문에 파이썬 완천 초보 분들은 모든 내용을 다 이해하면서 진행하기는 쉽지 않을 수 있고,
한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
저는 이 책으로 혼공학습단 9기에 참여하면서 공부를 하다가 갑자기 하기 싫어져도(?) 반강제적으로(우수혼공족이 되기 위해) 끝까지 이 책을 완독하게 되었습니다.
이 책은 단순히 파이썬 라이브러리 사용방법만을 알려주는, 데이터를 정제하고 그래프를 그리는 방법만 나와있는 게 아니라
웹스크래핑과 API를 이용해서 데이터를 직접 가져오는 방법도 알려줍니다.
전체적으로 쉽게 설명이 되어 있고 유튜브 강의도 있습니다. 데이터분석을 공부해보고 싶은 사람들에게 찍먹용으로 추천드립니다.(그래도 아주 기초적인 파이썬 문법은 알아야 이해하기 수월할 듯 합니다.)
다만 신간이라 그런지 자잘한 오탈자가 많습니다. 내용 이해에 방해되는 정도는 아닙니다.
데이터 분석에 관련된 부분을 여행하듯 데이터 분석을 하기 위한 환경구축에서 데이터를 찾는 방법,
데이터를 수집하고 정제하여 원하는 데이터를 시각화 하는 과정을 설명하며
마지막은 통계적인 추정을 통해 머신러닝으로 예측하는 과정을 담고 있습니다.
파이썬을 이용하여 다양한 예제들을 다루고 있으며 저자는 실제 데이터를 핸들링하면서 생길수 있는
다양한 이슈들(언어셋문제, 대용량 파일 처리시 메모리 문제 등)을 시행착오 없이 실행가능하도록 설명해주고 있습니다.
요즘 Python, R, Tableau 등 수많은 데이터 분석 툴들이 있지만, 이를 다루기 위해선 꼭 필요한 지식들을 다루고 있다. 대부분의 비전공자가 파이썬 데이터 분석으로 프로그래밍에 입문하는 만큼 <혼자 공부하는 파이썬, 한빛미디어 (2022)>를 보고, 이 책을 이어서 읽으면 많은 도움이 될 것 같다.
위키피디아에서는 데이터 분석을 '유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정'으로 정의한다. 데이터 분석은 다양한 접근 방법과 형태로 여러 비즈니스와 과학 분야에서 사용한다.
그럼 데이터 분석가는 무엇을 하는 사람일까?
해당 비즈니스 문제에 대해 깊은 이해를 하고 있으면서, 프로그래밍 기술을 갖추고 있고 통계학을 이해하면서 정보를 시각적으로 잘 표현할 수 있는 사람이다.
데이터 분석가는 프로그래밍, 수학 · 통계, 도메인 지식이 모두 필요하다.
수학과 통계 없이 프로그래밍 기술과 도메인 지식만으로 문제 해결 방안을 내놓았다면 검증되지 않은 해결책이므로 위험하다.
도메인 지식 없이 프로그래밍과 수학 · 통계 지식만 사용한다면 비즈니스 목표에 맞지 않는 결과를 만들 수 있다. 또 프로그래밍 없이 도메인 지식을 수학 · 통계에 적용한다면 '전통적인 분석'만을 수행하게 된다.
이 책으로 일반화하여 설명하기 어려운 도메인 지식을 제외한 데이터 분석에 필요한 프로그래밍과 수학 · 통계를 배울 수 있다.
이 책은 크게 기본편(01~04장)과 고급편(05~07장)으로 나눌 수 있다.
기본 편에서는 데이터 분석의 정의를 알아보고 데이터 수집부터 정제, 랭글링(먼징), 요약을 해보면서 데이터의 특징과 평균, 중앙값, 분위수, 표준편차 등의 기술 통계를 요약하는 방법을 배울 수 있다.
고급 편에서는 수집된 데이터의 특징을 matplotlib의 산점도, 히스토그램, boxplot 등을 이용하여 분포를 그리는 법과 그 외 고급기능. 그리고 모수검정, 가설검정 등을 이용하여 앞서 배운 데이터를 수집 · 탐색 · 시각화하는 여러 방법들을 활용하여 데이터에서 어떻게 의사 결정을 이끌어내는지 그 방법을 배운다.
구글 코랩, 주피터 노트북 등의 설치 과정부터 데이터를 다루면서 흔히 볼 수 있는 에러들에 대해 트러블 슈팅을 보여준다. 많은 에러를 접하면서 프로그래밍에 대한 흥미가 떨어지는 것을 방지하기 위한 배려로 보인다.
무료 유튜브 강의를 제공하고 있다.
가끔 개발을 하다가 종종 기억나지 않는 함수나 메서드가 종종 있는데, 부록에 이 책에서 배운 함수와 메서드를 요약해서 보여주고 있는 점이 좋았다.
데이터 분석가에 있어서 SQL 역량도 중요한 편인데, 부록에 짧게나마 SQL에 대해서도 소개해 준 점이 좋았다.
설치 과정에 대한 설명이 길어서 이 부분을 부록으로 넣었으면 어땠을까 한다.
퀴즈가 크게 의미 있는 것 같지는 않다.
이 책은 많은 것을 알고 있을 필요 없이 데이터 분석에 대한 흥미로 시작해도 충분한 책이다. 책에 나오는 모든 내용들을 독자가 처음 배운다고 가정하고 용어 설명부터 필요한 라이브러리를 설치 및 사용하는 방법까지 자세히 설명하면서 데이터 분석의 A-Z까지 담으려고 노력한 책이다. 하지만 기본적인 파이썬 문법은 알고 있을 필요는 있다.
1. 도서 정보
- 도서명 : 혼자 공부하는 데이터 분석 with 파이썬
- 저자 : 박해선
- 링크
- 제목처럼 파이썬을 통한 데이터 분석 입문용으로는 추천할 수 있다. 기본 환경 세팅인 코랩 설치를 시작으로 csv, api 를 통한 데이터 수집 및 크롤링을 통한 데이터 수집 방법도 기술되어 있다. 데이터 분석 방법으로는 기본적인 판다스 라이브러리 사용 및 기초 통계(중앙값, 표준편차), 간단한 시각화 방법도 기술되어 있다. 그렇기에 데이터 분석에 대한 절차를 알아보기에는 좋은 책이라고 할 수 있으나... 넓은 분야를 다루다보니 깊이가 깊을수는 없기에 이미 데이터 분석을 할 수 있으신 분들께는 추천드리지 않으며 또한, 파이썬도 모르시는 분들에게도 추천하지는 않는다.
데이터 분석이라는 업무를 하다 보면 도메인 별로 데이터 셋도 다르고 데이터에 대한 관리 체계도 회사마다 제각각이기에 볼 수 있는 데이터가 한정되어 있기도 해서 실질적인 의미를 찾고 다양한 Insight를 도출하기에 많은 어려움에 봉착하는 순간들이 많다.
이 책을 읽으면서 매몰되어 있던 나의 생각들이 새롭게 재구축됨을 느꼈고 쉽고 간결하게 쓰여진 문체와 큼직한 글씨체 및 다양한 예제를 수행해 보면서 다시금 초심으로 돌아갈 수 있는 계기가 되었다.
그렇기에 기술적인 접근보다 다양한 학문을 적절한 설명과 비유 예시를 통해 협업하는 사람들에게 공감을 이끌어 낼 수 있는 측면이 무엇보다 중요하다고 생각한다.
이 책에서는 바로 그 데이터 분석의 의미론적 고찰을 통해 쉽고 간결한 예제들을 코랩을 통해 바로 확인해 볼 수 있고 간단한 예제를 통해 어떻게 통찰력 있게 데이터 분석의 스토리를 전개해 나갈 수 있는지에 대한 인사이트를 제공한다.
또한 초심자도 쉽게 이해할 수 있도록 간결한 문체를 사용하여 즉각적으로 실무에 활용할 수 있도록 가이드 하고 있다.
번역서가 아닌 실제 사례를 기반으로 작성된 책이기에 더욱 직관적으로 읽혔던 것이라 생각된다.
챕터 별 확인 문제 또한 내가 실제로 이해하고 있는 부분에 대해 다시금 책을 기반으로 환기시킬 수 있게 구성되어 있다.
오랜만에 기술서를 읽었음에도 과하지 않고 가뭄에 기다렸던 비를 만난 것과 같이 내 마음 한켠에 열린 조그만 창문 사이로 시원한 바람이 불어오는 듯한 느낌을 느낀 책이었다.
■ 혼자 공부하는 데이터 분석 with 파이썬 읽고 주저리
-혼자해도 출분하다 (1:1 과외하듯 배우는 데이터 분석 자습서
.
지은이 : #박해선
출판사 : #한빛미디어
이메일 : ask@hanbit.co.kr
.
#혼자공부하는데이터분석 #파이썬 #데이터분석 #혼자공부하는 #데이터
.
#책을펴면서
예전 SNS 페친이 파이썬 책을 공부하는 걸 본적이 있다. 데이터...거기에 데이터분석... 엑셀로 한계가 있는 부분도 있다. 데이터 양이 많으면 사실 정리하고 손보고, 양질의 데이터, 결과물, 혹은 의도한 방향으로 몰고가는 부분에 있어서의 업무가 정말 손목 나갈 정도일때가 있는데, 파이썬 프로그램을 알고 그걸 혼자서 익혀서 엑셀보다 더 좋은 그 무언가의 데이터 결과물을 얻어낼 수 있다면 좋겠다는 바람으로 이책을 신청해서 읽어본다.
.
‘ #데이터마이닝 = 데이터에서 패턴 혹은 지식을 추출하는 작업’
--34페이지에서--
.
‘다섯 개 이상의 노트북을 열어야 한다면 실행 중인 노트북을 저장하고 런타임과 연결을 끊어야 합니다. 또한 한 개의 노트북을 12시간 이상 실행할 수 없습니다’
--48페이지에서--
.
‘응용 프로그램을 사용해 파일 내용을 봐야 하는 엑셀보다는 단순한 텍스트파일인 CSV 파일을 더 선호합니다’
--64페이지에서--
.
‘ #코랩 은 구글에서 무료로 제공하는 자원이기떄문에 일정 시간(약 90분) 동안 사용하지 않으면 자동으로 런타임과 끊어집니다. 이때 업로드한 파일도 함께 삭제됩니다. ᄄᆞ라서 나중에 코랩에서 이 파일을 사용하려면 다시 업로드해야합니다’
--66페이지에서--
.
‘ #판다스 는 CSV 파일을 읽을 때 도서명과 대출건수 같은 열에 어ᄄᅠᆫ 종류의 데이터가 저장되어 있는지 자동으로 파악합니다.’
--72페이지에서--
.
‘인증된 URL만 있으면 언제든지 필요한 데이터에 편리하게 접근할 수 있는 방식이 있습니다. 바로 #API입니다’
--85페이지에서--
.
‘ JSON은 비교적 읽기 쉽고 간겨라기 때문에 최근 웹 기반 API에서 많이 사용합니다’
--95페이지에서--
.
‘HTML은 웹 페이지를 표현하는 데는 뛰어나지만, 구조적이지 못하기 떄문에 프로그램 간의 약속대로 전송하는 API에서는 적절하지 않습니다’
--95페이지에서--
.
‘데이터가 의미하는 바를 잘 이해하지 못하면 올바르게 데이터를 정제하거나 변환할 수 없습니다.’
--215페이지에서--
.
‘통계를 사용하는 이유는 출력된 데이터를 읽는 것만으로는 유용한 무언가를 파악하기 어렵기 때문입니다. 전체 데이터를 몇 개의 숫자로 요약할 수 있다면 현재 데이터의 특징을 이해하고 다른 데이터와 차이나는 점을 쉽게 설명할 수 있습니다’
--222페이지에서--
.
‘ #분산 = 평균으로부터 데이터가 얼마나 퍼져있는지를 나타내는 통계량입니다. 데이터가 가운데 모여 있다면 분산이 작고, 넓게 퍼져있다면 분산이 큽니다’
--235페이지에서--
.
#책을덮으면서
늘 #부동산 #투자 #환율 #금리 #인플레이션 #도시 #디벨로퍼 #상업시설 #트렌드 등에 대한 주요 관심사의 책을 읽다가, 우연하게 이책을 접하고 또 어렵게 쫓아가면서 읽어나가고 있는 이상황이 조금 어렵고 낯설기도했지만, 그럼에도불구하고 모든 외부의 환경이나 내가 선택할 수 있는 일들이 내게 익숙만하고 편한것들로만될 수없다는 것을 알기 때문에, 묵묵히 시간은 걸리고, 기회비용?이 생각나는 상황이었지만, 뭔가 이속에서, 이책의 내용에서 인사이트있는 그 무엇이 있기를 바라는 마음으로 읽어냈던거같다. (모든책이 100% 다 쏙 내맘에 들 수 있는 것은 아닐테니까 말이다)
110페이지 보면서~ 좋은 데이터가 들어가야 좋은 결과가 나온다는 말이..새삼 강한 느낌으로 다가온다. 그냥 클릭하면 뚝딱 나오는 결과값인줄 알지만, 데이터를 가공하고 정리하는 것이..엄청 손이 많이 가는거구나, 그리고 많이 고민하고 생각하는 설계가 베이스를 이루어야하는거구나 하는 생각을 해본다. 그냥 얻어지는건 없다.
.
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.“
혼자 공부하는 데이터 분석 with 파이썬
- 데이터 분석 초보용 필독서 -
안녕하세요.
오늘은 데이터 분석에 관한 책 한 권을 소개하고자 합니다.
한빛미디어에서 2023년 1월에 출간한 아주 따끈한 책인데요.
비전공자나 전공자라고 해도 파이썬을 배우고 나서 데이터 분석을 어떻게 공부해야 할지
막막한 사람들에게 꼭 필요한 책이라는 생각이 들어서 리뷰하게 되었습니다.
특히 다른 책들과 달리 잘 정제된 데이터를 사용하는 것이 아니라
실제로 데이터를 수집, 전처리, 분석하는 실무와 동일한 과정을 거쳐가며
학습할 수 있도록 내용이 구성되었다는 점,
그리고 시각화 라이브러리인 matplotlib 사용법에 대해서 자세히 설명하고 있다는 점
에서 아주 높은 점수를 주고 싶습니다.
[혼자 공부하는 데이터 분석 with 파이썬]을 한 줄로 요약하면
데이터 수집 및 전처리, 시각화, 통계 및 회귀분석을
실전 실무 레벨로 공부할 수 있는 책
입니다.
1.실무에 바로 적용 가능한 데이터 전처리 학습
제가 처음에 데이터 분석을 공부하고 나서 실제로 실무 프로젝트를 해보면서 느꼈던 점은 데이터 전처리의 어려움이었습니다. 알고리즘을 공부할 때 사용했던 데이터들은 모두 정제가 잘 되어있어서 문법에 맞게 넣어주기만 하면 알아서 결과가 잘 나왔기 때문에 분석하고자 하는 데이터의 특성을 파악하고 어떤 분석 방법을 사용할지에 대한 고민만 하면 끝났습니다. 여러 권의 데이터 분석 관련 책을 구입해 공부했지만 대부분의 책에서 사용하는 데이터가 이미 잘 정제된 데이터였기 때문에 전혀 어려움이 없었습니다.
파일 오픈시 흔히 볼 수 있는 인코딩 에러에 대한 설명 부분
인코딩에 대한 상세한 설명과 문제 해결 방법
하지만 실무 프로젝트를 처음 했을 때는 분석을 위해서 받은 파일을 여는 것부터가 난관이었습니다. 보통 웹이나 프로그래밍을 할 때는 파일이 utf-8로 인코딩이 되기 때문에 특별히 신경쓰지 않아도 됩니다. 하지만 분석 의뢰를 받아 제공받은 파일은 윈도우에서 생성되는 파일도 있었는데 그런 경우 파일 인코딩을 cp949로 지정해주지 않으면 파일 자체가 열리지 않았습니다. 이런 문제는 데이터 분석을 배울 때도 겪어보지 못했고, 여러 권의 책을 공부하면서도 설명해주는 책이 없어 공부할 기회가 없었습니다. 결국 여러 번의 시행착오와 검색을 통해서 익혀야만 했죠.
파일을 열었다고 그 뒤가 순탄하지도 않습니다. 힘들게 열어서 데이터 내용을 확인해보면 숫자로 되어 있어야 하는 데이터가 문자로 되어 있거나, 날짜 데이터인데 문자로 되어 있거나, 눈으로 볼 때는 아무 것도 없는데 실제로는 공백이 있어서 오류가 난다거나 정말 다양한 원인으로 수많은 오류 메세지를 봐야 합니다.
그래서 그동안 열심히 공부한 데이터 분석 알고리즘이나 분석 기법을 적용해 데이터를 분석하는 것은 고사하고 EDA(탐색적 데이터 분석)을 하는 것 조차도 어렵습니다.
[혼자 공부하는 데이터 분석 with 파이썬]의 가장 큰 장점은 웹에서 수집한 실제 데이터를 전처리 해가며 실습 할 수 있다는 것입니다.
웹사이트에서 크롤링으로 데이터를 가져오는 방법 학습
그래서 실제 업무에서 마주칠 수 있는 데이터 전처리와 관련된 여러 문제를 실습해 볼 수 있고, 특히 자료형 변환이나 중간에 이상한 데이터가 섞여 있을 때 처리하는 방법에 대한 것들도 배울 수 있다는 점이 정말 좋습니다.
무분별한 크롤링에 대한 문제점과 주의 할 점 설명
데이터 전처리 방법 상세 소개
2. 시각화 라이브러리 matplotlib 사용법 상세 소개
데이터 분석을 공부하면서 책에서도 자주 언급되고 많이 듣는 이야기 중 하나가 "데이터의 시각화가 중요하다" 는 말입니다. 숫자나 문자로 되어 있는 결과보다 그래프로 보면 직관적으로 빠르게 파악이 가능하기 때문이죠. 그래서 보통 EDA(탐색적 데이터 분석) 파트에서 여러가지 그래프를 그리면서 분석하는 것에 대한 내용이 자주 등장 합니다. 하지만 정작 데이터를 시각화 하는 라이브러리인 matplotlib 에 대한 자세한 설명은 나오지 않습니다.
사실 데이터 시각화는 데이터 분석의 여러 세부 분야중에서 하나를 차지하는 영역이며 전문 영역입니다. 그래서 데이터 분석을 공부하는 책에서는 깊게 다루지 못하고 실습을 하면서 익히는 정도로 끝나는 것이 대부분입니다.
하지만 [혼자 공부하는 데이터 분석 with 파이썬]에서는 시각화 라이브러리인 matplotlib에 대해서 자세하게 다루고 있습니다. matplotlib을 이용해서 그래프를 잘 그리려면 이것저것 설정할 것들이 많아서 원하는 그래프를 그린다는 것이 생각보다 많이 어렵습니다. 이 책에서는 기본 사용법은 물론 한글 표시를 위한 폰트 설정, 선 색깔 지정하기, 마크 표시하기, 여러 개의 그래프 동시에 그리기 등 기초부터 고급까지 상세히 알려줍니다.
데이터 시각화의 기초부터
고급 시각화 기술까지 상세하게 학습 가능
3. 통계이론과 선형회귀 로지스틱 회귀 분석 소개
[혼자 공부하는 데이터 분석 with 파이썬]에서 분석이론이나 알고리즘 설명을 하는 분량은 많지 않습니다. 책의 초점이 데이터 준비, 전처리, EDA(탐색적 데이터 분석), 시각화 에 맞춰져 있기 때문입니다. 하지만 EDA를 하는 과정에서 꼭 필요한 기초 통계에 대한 지식을 7장에서 잘 설명해주고 있고 본격적으로 회귀분석, 분류분석, 군집분석, 딥러닝 등을 공부하기 전에 꼭 알아야할 지식들을 쉽게 풀어서 설명해주고 있습니다. 그리고 간단한 회귀분석, 로지스틱 회귀분석으로 앞 장에서 수집하고 전처리한 데이터를 분석해 봅니다. 마지막으로 분석 결과를 해석하는 방법에 대해서 설명해 주고 있습니다.
선형 회귀분석
로지스틱 회귀분석(분류분석)
MSE / MAE를 이용한 모델 성능 검증 방법 설명
분석에 대한 내용이 적은 이유는 [혼자 공부하는 데이터 분석 with 파이썬]보다 먼저 출간된 [혼자 공부하는 머신러닝 + 딥러닝]에서 아주 자세하게 설명하기 때문입니다.
[혼자 공부하는 머신러닝 + 딥러닝] 알고리즘 공부에 좋다.
책이 출간된 것은 [혼자 공부하는 머신러닝 + 딥러닝]이 먼저지만 내용상으로는 [혼자 공부하는 데이터 분석 with 파이썬] 뒤에 공부해야 할 내용입니다. 이 책은 회귀분석, 분류분석, 앙상블 기법, 인공신경망, 자연어처리, 이미지 분석까지 데이터 분석 모델을 만드는 방법에 대해서 상세하게 설명하고 있습니다. 즉 알고리즘에 대해서 기초부터 공부할 때는 [혼자 공부하는 머신러닝 + 딥러닝]을 공부해야 하고, 데이터 수집, 전처리, EDA, 시각화 등 본격적으로 분석 모델을 만들기 전까지의 과정을 공부하기 위해서는 [혼자 공부하는 데이터 분석 with 파이썬]이 필요합니다.
데이터 분석을 실제 분석 과정의 순서대로 공부하고 싶다면 [혼자 공부하는 데이터 분석 with 파이썬] => [혼자 공부하는 머신러닝 + 딥러닝] 순으로 공부해야 한다는 점을 기억하세요.
4. 약간 아쉬운 부록 데이터베이스와 SQL 파트
[혼자 공부하는 데이터 분석 with 파이썬]에서 마음에 들었던 부분 중 하나는 부록에 있는 데이터베이스와 SQL 파트였습니다. 데이터 분석을 할 때 웹에서 데이터를 수집 하는 경우도 있지만, 사실 대부분의 실무는 회사의 데이터베이스에서 자료를 가져와 분석하는 것입니다. 그래서 SQL 능력도 필요한데 그 부분까지 세심하게 고려해서 부록으로 내용을 추가한 것 같습니다. 다만 약간 아쉬운 점이 있다면 실무처럼 원격지의 DB에 접속해서 SQL로 자료를 가져오는 것이 아닌 파일 형식의 DB인 SQLite 위주로 설명이 되어 있다는 점입니다. SQL 명령어를 익히는 것은 SQLite로도 충분하지만 추가로 MySQL이나 MariaDB에 Pymysql과 SQLAlchemy를 이용해 Pandas에서 데이터프레임 형식으로 자료를 불러오고 저장하는 내용을 추가한다면 완벽할 것 같습니다.
5. 결론
[혼자 공부하는 데이터 분석 with 파이썬]의 특징을 간략하게 요약하면 아래와 같습니다.
독자 수준
전공/비전공자 중 Python 기초를 배운 사람, 데이터 분석 입문자,
알고리즘 공부를 마치고 실무에 필요한 스킬을 쌓고 싶은 사람
필수 기초 지식
Python 기초, HTML, CSS
학습 영역
데이터 수집, 데이터 전처리, 탐색적 데이터 분석(EDA),
데이터 시각화, 기초통계, 회귀분석, 로지스틱 회귀분석
차별점
다른 책들이 잘 정제된 데이터를 이용해 오류없이 알고리즘 공부에 집중할 수 있도록 되어 있는 것과 달리
실제로 웹에서 데이터를 수집하고 정제해서 분석까지 할 수 있도록 구성.
이 책은 알고리즘을 집중적으로 공부하는 책이 아니고 데이터 분석을 위해서 꼭 필요한 데이터 준비, 데이터 전처리, EDA(탐색적 데이터 분석), 시각화를 집중적으로 공부하는 책입니다. 데이터 전처리의 중요성은 많이 강조하지만 실제로 데이터 전처리에 관한 책이 거의 없었는데 그 부분에 집중된 책이라서 매우 의미 있다고 할 수 있습니다.
이미 알고리즘에 대한 공부를 다 마쳤다면 실무에서 마추치게될 전처리의 어려움을 이 책으로 미리 경험하고 해결 방안을 공부할 수 있습니다. 그리고 이 책으로 처음 데이터 분석을 공부하려고 한다면 기초를 탄탄히 쌓고 알고리즘 공부를 하게 되기 때문에 알고리즘 공부할 때 사용하는 쉬운 데이터가 아닌 본인만의 데이터를 가지고 실전에 가까운 레벨로 학습을 할 수 있는 능력을 갖출 수 있습니다.
대학에서 데이터 분석을 학생들에게 가르치고 있는 사람으로써 수업에서 바로 사용하고 싶을 만큼 잘 만들어진 책입니다.
데이터 분석을 기초부터 제대로 공부하고 싶은 분들께 강력히 추천합니다.
이 글은 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
데이터 과학은 데이터 세계와 비즈니스 세계를 잇는 다리입니다.
- Ji Li
위 문장은 책에서 데이터 과학자 Ji Li가 Quora에 올린 글을 번역한 내용 중 일부이다. 이 문장은 '데이터 분석'과 '데이터 과학'의 차이점을 잘 드러낸다. 글의 다음 내용을 더 읽어보면 "데이터 과학을 하려면 프로그래밍, 통계학, 시각화와 더불어 비즈니스 감각을 갖추어야 합니다."라고 말한다. 즉, 데이터 과학은 아주 넓은 범위를 아우른다는 말이다. 반면 데이터 분석은 데이터 과학의 한 부분에 해당한다.
'결과물'을 중점으로 이해해 보면 데이터 과학은 문제 해결을 위한 최선의 솔루션을 만드는 데 초점을 맞춘다면, 데이터 분석은 올바른 의사 결정을 돕기 위한 통찰을 제공하는 데 초점을 맞추고 있다.
이 책에서는 데이터 분석의 의미와 더불어 데이터 분석을 하는 데이터 분석가에 대해 상세하게 설명해주고 있다. 데이터 과학자, 데이터 분석가, 통계학자, 프로그래머 등 여러 이름 사이에서 데이터 분석가의 역할과 역량에 대해 더 자세히 알고 싶다면 책의 1장을 참고해 보길 바란다.
이 책에서는 구글 코랩에서 파이썬을 사용하여 대부분의 분석을 연습한다. 특히 데이터 분석에 대표적으로 사용하는 파이썬 패키지인 NumPy, Pandas, Matplotlib, SciPy, scikit-learn 등을 주로 사용한다. '혼자 공부하는'이라는 제목처럼 혼자 공부하면서 어렵지 않도록 설명이 자세해서 약 500쪽 가까이 되는 분량에도 공부하는데 부담이 덜했다.
'혼자 공부하는' 시리즈는 한빛미디어에서 <혼공학습단>이라는 스터디 교재로 사용하고 있다. <혼공학습단>은 6주 동안 매주 정해진 분량을 혼자 공부하고 인증하는 방식으로 운영되는데 오롯이 혼자 공부하는 것보다 훨씬 공부가 잘 된다. 교재의 뛰어남보다도 이런 프로그램을 활용할 수 있다는 점이 이 책의 좋은 점인 것 같다.
혼자 공부하는 데이터 분석 with 파이썬
(박해선 지음, 한빛미디어)
데이터 분석을 어떻게 시작할지 막막할 때
실생활 데이터로 기초를 다지고 싶을 때
데이터에서 의미 있는 결과를 얻고 싶을 때
원글 : https://it4edu.tistory.com/250
데이터 분석과 파이썬은 요즘 저에게 가장 강력한 관심사입니다. 앞으로를 살아가는 데 있어서 데이터가 가지는 힘과 중요성을 늘 생각해오고 있고, 거기에 파이썬, 기초 통계학 등은 저 스스로도 공부하고 싶은, 그리고 학생들에게도 교육적으로 다가가고 싶은 아주 매력적인 주제입니다.
그래서 평소에도 데이터 분석 관련 책들을 꾸준히 찾아서 보는 편입니다. 여러 출판사의 다양한 책들을 읽어보았습니다. 그런데 이번에 기대하고 있던 책이 나온다는 소식을 들었습니다. 믿고 보는 "혼자 공부하는 시리즈"에서 데이터 분석과 파이썬 관련 책이 나온다는 것이었습니다. 게다가 저자가 머신 러닝, 딥러닝 분야의 책을 읽어봤다면 한 번쯤을 들어보았을만한 전문가 "박해선" 님이라는 것이었습니다.
우연한 기회에 이 책이 발간되기 전 베타 리더를 모집한다는 소식을 접했습니다. 혹시나 하는 마음에 베터 리딩을 신청했다가 덜컥 선정되어서 남들보다 빠르게 책을 읽어볼 수 있는 기회를 얻었습니다.
"초보자의 눈높이에 맞춘 훌륭한 데이터 분석 입문서입니다. 파이썬을 설치할 필요 없이 코랩 환경에서 쉽고 빠르게 시작할 수 있고, 부담스럽지 않은 수준의 코드를 단계별로 몇 줄 입력하다 보니 어느새 1개 장이 금방 끝나버렸습니다. 오류가 발생할 수 있는 상황에 대해 원인과 그에 대한 적절한 해결 방법도 알려 주어 실제 데이터 분석의 과정을 경험해 볼 수 있어서 좋았습니다."
제가 쓴 베타 리딩 후기입니다. 지금 다시 읽어봤는데 생각보다 잘 쓴 것 같습니다. 제가 하고 싶었던 이야기를 잘 요약해서 적었다는 생각이 듭니다.
혼자 공부하는 시리즈는 말 그대로 독학 하기에 잘 구성된 책입니다. 이미 여러 종류의 책들을 읽어봤고 혼공단(한빛미디어 출판사에서 1년에 두 번 정도 진행하는 스터디 활동) 활동도 몇 차례 진행하면서 이건 보증할 수 있습니다. 제목은 혼자공부하는 시리즈 인데, 혼공단 활동으로 함께 공부하면 시너지가 아주 큽니다!! 이번에도 혼공단 활동을 진행하고 있는 중인데 다른 급한 공부를 먼저 하느라 SQL 책으로 시작했는데, 다음 기회에는 이 책으로 조금 더 꼼꼼히 복습할 계획입니다.
그리고 파이썬을 내 컴퓨터 환경에 설치하는 것이 어떤 사람에게는 큰 일이 아닐 수도 있지만 또 어떤 사람에게는 까다로운 일일 수도 있습니다. 이 책에서는 코랩 환경을 소개하고 있습니다. 온라인이 연결된 환경이면 파이썬 설치 없이 연습해볼 수 있는 도구인데, 코랩 사용법도 자세하게 나와 있어 따라하기 좋았습니다.
단계별로 입력해야 할 코드들도 복잡하지 않게 소개되어 있습니다. 입력하고 결과 확인하고, 또 입력하고 결과 확인하고를 몇 번 반복하다보면 어느새 한 장(chapter)이 끝나 있습니다. 코드 안에 주석처럼 코드의 의미도 적혀 있어서 코드를 이해하는데 큰 어려움이 없었습니다.
보통 데이터 분석 책들은 데이터를 수집해서, 가공하고, 그래프 그려서 분석하는 부분까지 소개를 합니다. 그런데 이 책은 저자님이 머신러닝 전문가 답게 기초적인 머신러닝으로 데이터를 분석하는 부분도 소개해줍니다.
심지어 부록에는 데이터베이스, SQL 까지 언급해 주셨습니다. 초보자를 위한 책이지만 참 많은 걸 소개해주고 싶으셨구나라는 생각이 들었습니다.
마지막으로! 저자님과의 활발한 소통이 가능한 것도 아주 큰 장점이라고 할 수 있습니다. 유튜브 강의를 통해서도 도움을 많이 받을 수 있고, 저자님과의 오픈 채팅방을 통해 질의 응답도 가능합니다.
데이터 분석에 관심이 생겨서 처음 공부하시는 분들이라면 이 책 강력하게 추천합니다.
데이터 분석 공부를 어디부터 시작해야 될지 모른다면 이 책으로 시작하는 것도 좋겠습니다. 데이터 분석에 필요한 기초를 쉽고 넓게 다루었기 때문에 학습하기에 좋은 책입니다. 각 챕터 마지막의 마무리와 확인 문제를 활용하시면 배운 내용을 확인하고 활용하는데 더 도움이 될 듯 합니다. 유투브 강의나 Q&A사이트, 카카오톡 오프채팅도 지원되니 같이 활용해보세요.