파이썬 라이브러리를 활용한 데이터 분석(수정보완판)

k7536***l2020-10-21

[파이썬 라이브러리를 활용한 데이터 분석] 데이터 분석을 시작해보고 싶다면?

robi***l2013-11-03

Python for Data Analysis (2013, 한빛비즈)

IT의 발전 순서를 가만히 관조해보면 초창기에는 Hardware 자체가 귀했기 때문에 가격 자체가 비쌌고 따라서 모든 IT의 관심 및 Resource가 컴퓨터에 초점을 맞추었었다. 그러다 1970년대 말 PC 개념이 출현하면서 Hardware의 가격은 급속히 하락하기 시작했고, Hardware 중심의 IT 기업들은 채산성을 맞추기 힘들었다. 그러자 자연히 Software로 IT의 중심이 움직였고, 70년대에 출현한 Microsoft, Oracle, Symantec같은 Software 업체들이 자연히 IT의 Power Group을 형성하였다. (오죽하면 90년에는 Bill Gates가 얼마 안 있어 세계의 황제가 될지도 모른다는 농담이 횡행했었을까!) 하지만, 다시 IT의 Paradigm이 변하면서 Software도 Hardware와 같이 범용화의 길을 걷기 시작했고, 이제는 Service 형태로 Software의 성격이 변했다. 아직 IT의 패권은 Software 중심 업체들이 가지고 있지만, 그 권력의 힘이 점차 약화되고 있다는 것은 누구든지 느낄 것이다. 그렇다면 Hardware, Software 다음으로 IT의 초점은 어디로 이동하게 될까? 아마 누구나 예상하겠지만, Data로 자연스럽게 그 중심축이 움직이게 될 것이다.
사실 Data는 IT가 태동한 그 순간부터 존재하였고, 그 존재 가치는 누구나 중요하게 여기고 있었다. 하지만, Hardware와 Software가 Service형으로 진화하면서 이제 IT의 차별적인 요소는 Data만 남았기에, 그 중요성은 더욱 더 커질 것이라고 예측하는 것이 자연스럽다.
흔히들 Data에 대해 잘못 생각하는 것 중에 하나는 Data를 수집하는 것이 가장 핵심 요소라고 생각한다. 예전에 Data 수집 방법이 흔치 않던 때에는 타당할 수 있었으나, 요즘처럼 Data가 넘쳐나고 약간의 비용과 수고를 들이면 Data를 Gathering하는 것이 어렵지 않은 지금은 그 말이 맞지 않다. 오히려 Collect한 Data를 어떻게 분석하여 유의미한 정보를 추출하는 것인가가 더욱 더 중요해진 시점이다.
Python for Data Analysis는 이런 시대의 조류에 맞추어 나온 꽤 유용한 책이다. 이 책은 Data 분석 기법을 이론적으로 설명하기 보다는 실용적으로 Python언어 기반으로 Data 분석 알고리즘을 구현하는 방법을 알려주고 있다. 도식화, 색인 같은 기초적인 Data 처리 방식부터 시계열 분석 같은 고급 Data 분석 알고리즘을 구현하는 방법까지 설명해주고 있기 때문에, Data 분석 프로그램을 작성하고 싶은 개발자에게 무척 유용한 책이 될 것이라 생각한다. 비록 언어는 Python이지만, 구현 원리를 잘 이해한다면 C나 Java와 같은 다른 언어로 작성할 때도 많은 도움이 될 것이다. (물론 여기에서 사용한 Python 산술연산 Library들을 이해해야 된다는 전제조건이 붙긴 하지만…)
IT 시대의 변화는 이제 비IT인이더라도 느낄 정도로 그 강도는 점차 강해지고 있다. 과거의 관습에 얽매이는 것보다, 좀더 미래를 이끌어갈 것이 무엇인지 생각하고 이를 대비하는 것이 좋지 않을까?

smackdown***l2013-11-03

데이터 분석의 일면과 파이썬 기초를 동시에 맛볼 수 있는 책!

데이터 분석, 데이터 시각화에 관한 트렌디한 이야기를 들으면서, 관심이 하루하루 늘어가고 있던 와중!
학교를 다니면서 Matlab이나 ModelSim 같은 수학적이고, 종속적인 툴들을 접하다보니, 자유로우면서도 어느정도 공학적 요소를 살릴 수 있는 프로그래밍을 하고 싶다는 생각이 들었다. 광범위하게 쓸 수 있으면서 C언어처럼 자유로우면서 강력한 라이브러리들이 있다는 Python에 대한 관심이 높아져서 이 책을 읽어보았다.

Python를 부담 때문에 접하지 않은 ^^;; 한가지 핑계로써 기존에 가지고 있던 생각은 C나 JAVA보다 느리다라는 것이었는데, 들어가는 저자의 말에 이런 문구가 있었다.
‘개발자의 시간 비용은 CPU의 시간 비용보다 비싸므로 대개는 이런 등가교환에 만족해한다.’

양쪽은 비교할 수 없는 level이지만, 어플리케이션의 성능이 문제가 되지 않는 한 개발자가 Python을 이용하면 이해와 개발 과정에 있어서 시간을 많이 단축시킬 수 있으므로 쓸만하다는 것이다. 새로운 말은 아니지만 Python이 근처 산업 내에서도 많이 쓰이는 걸 부정할 순 없는 설명인 것 같다. 책에서도 과학계산 어플리케이션이나 프로토타입, 과학자와 기술자의 프로그래밍으로의 접근성을 높이기 위해서 Python을 추천한다.

2장은 여러 종류의 데이터를 처리하고 분석하고 시각화하는 간단한 사례를 소개했다.
외부 자료 활용, 데이터 준비, 데이터 변형, 모델링과 계산, 데이터 표현 이라는 대표적인 작업이 있다면, 보통은 각각에 맞는 툴들을 익혀야 한다. 외부 자료를 파싱하는 언어, 데이터 준비와 변형을 위한 DB 언어, 시뮬레이션을 위한 모델링과 계산 툴, 그리고 데이터 시각화 툴까지. 책에서는 이들 목적이 맞물릴 때 생기는 지식 장벽에 대해 Python 하나만으로 해결할 수 있다는 매력적인 장점을 제공한다. [그림]

3, 4장엔 차례로, IPython이라는 개발 환경, NumPy라는 기본 라이브러리에 대해 소개를 했다. 책에서는 EDP를 가지고 예제를 진행하는데 현재 EDP는 Canopy라는 제품으로 바뀌어 있는 상황이고 호환에 있어서는 아직까진 문제가 없다.

5장에서는 저자가 직접 개발한 pandas라는 고수준 자료 구조와 데이터 분석 도구를 제공하는 라이브러리를 가볍게 살펴본다. 간단한 예시만 있지만 색인(Index)를 객체로 잡고 표 모양의 자료구조에서 카테고리화하는데 유동성을 제공하는 것이 한가지 장점으로 등장한다.

6장~7장에서는 데이터를 받고 준비(다듬기, 변형, 병합)하는 과정을 예제로 들었다. 다른 부서에 서 처리한 방대한 엑셀 형태의 자료를 잘 가꾸고 noise들을 깔끔하게 처리해서, Database에 import시키는 과정은 굉장히 괴롭다. 일반적으로도 한가지 포맷에서 다른 포맷으로 자료를 전환시키는 일은 상황에 맞는 좋은 툴을 개발해놓지 않은 이상, 힘들다. 이 책에서는 상황에 딱 맞는 방법론을 빠르게 구현할 수 있는 가능성을 엿볼 수 있었다. 아마 엑셀 -> Database 이 중간의 데이터 호환 처리 과정에서 좋게 쓰일 수 있을 것 같다.

나머지 장에서는 시각화와 금융, 경제, 그밖의 모델링에 있어서 유용한 점을 살펴볼 수 있었다.

모델링 소프트웨어들은 꽤 있지만, 특정 상황에만 종속되어 있지 않다는 것이, 이론이 좋지만 표현과 시각화에 서투르다 생각하는 공대생에게 익혀두면 괜찮은 툴이라는 생각이 든다!

부록/예제소스
자료명	등록일	다운로드
예제소스	2019-05-09	다운로드

부록/예제소스

자료명

등록일

다운로드

예제소스

2019-05-09

다운로드

파이썬 라이브러리를 활용한 데이터 분석(수정보완판)

1.인트로 -

2.메인 내용 -

3.나의 생각 -

4.마무리 -

자료 다운로드시 유의사항

▶ 부록/자료 관련 FAQ