데이터 분석과 데이터 과학

2023. 11. 12. 14:09데이터분석

728x90
반응형

데이터 분석 :

유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정

출처 : (위키피디아)

현대 사회에서 데이터 분석은 비즈니스 결정을 과학적으로 내리기 위한 도구로 사용되는 경향이 있습니다.

데이터 과학이 동일하게 취급되지만,  데이터 과학은 "통계학 데이터 분석, 머신러닝, 데이터 마이닝" 등을 아루르는 큰 개념으로 볼 수 있습니다.

 

 

 

데이터 과학은 데이터 세계와 비즈니스 세계를 잇는 다리입니다. 데이터 과학을 활용해서 소프트웨어나 제품을 개발할 수 있지만 이것이 전부는 아닙니다. 또 데이터 과학이 통계학과 관련이 많다지만 통계학 자체는 아니며, 학술적인 분야 또한 아닙니다. 멋진 그래프를 그리기도 하지만 이것이 데이터 과학의 전부는 아닙니다. 오히려 데이터 과학은 이 모든 것을 포함합니다. 데이터 과학을 하려면 프로그래밍, 통계학, 시각화와 더불어 비즈니스 감각을 갖추어야 합니다.

 

 

  • 기술통계: 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법. 예) 평균 계산, 최솟값, 최댓값 찾기.
  • 탐색적 데이터 분석: 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법. 
  • 가설검정: 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 통계 방법. 

데이터 분석가

 

드류 콘웨이의 데이터 과학 벤 다이어그램

 

비즈니스 지식 없이 "프로그래밍, 수학, 통계 지식"만 사용한다면 "목표"에 맞지 않는 결과가 도출될 수 있습니다. 또 이러한게 없이 도메인 지식(해결해야 할 문제 분야)를 처리한다면 또한 결과는 목표에 맞지 않을 것 입니다.

도메인 지식은 맞닥뜨린 문제에따라 다르므로 일반화하여 설명하기 어렵움.

 

데이테 분석가의 작업 과정:

데이터 수집, 데이터 처리, 데이터 정제, 데이터 분석, 모델링까지 포함됩니다. 좁은 의미로는 기술통계, 탐색적 데이터 분석, 가설검정 등을 넓은 의미로는 데이터 수집부터 모델링까지를 말합니다.


데이터 마이닝 / 머신러닝

데이터 마이닝(data mining)은 데이터에서 패턴 혹은 지식을 추출하는 작업을 말합니다. 머신러닝, 통계학, 데이터 베이스 시스템과 관련이 많습니다. 이러한 패턴과 지식은 사람이 의사 결정을 내리기 위해 활용됩니다. 그런데 왜 데이터 마이닝이라고 할까요? 비슷한 단어로 금을 채취하는 작업을 골드 마이닝(gold mining)이 있습니다. 하지만 모래에서 금을 찾는다고 샌드 마이닝(sand mining)이라고 부르지 않습니다. 비슷한 맥락에서 봤을 때 어쩌면 데이터 마이닝이라는 용어보다 찾으려는 대상을 강조한 패턴 분석(pattern analysis)이나 지식 추출(knowledge extraction)이라는 용어가 더 어울릴 수도 있습니다. 그럼에도 데이터 마이닝이라고 하는 이유는 많은 데이터를 분석한다는 점을 강조하기 위해서일 것입니다.

 

머신러닝(machine learning)은 데이터에서 자동으로 규칙을 학습하여 문제를 해결하는 소프트웨어를 만드는 기술입니다. 요즘 자주 보이는 딥러닝(deep learning)도 머신러닝 알고리즘의 한 종류입니다. 머신러닝은 데이터 마이닝과 다르게 규칙이나 패턴을 사용하는 주체가 사람이 아닌 컴퓨터입니다. 또한 데이터 마이닝 알고리즘은 비교적 규칙을 만드는 과정이 투명한 데 비해 머신러닝 알고리즘은 마치 블랙박스처럼 결정이 내려진 이유를 알기가 어려운 경우가 많습니다.


데이터 분석 도구

사용 언어

파이썬 / R

프로그래밍 환경 

구글 코랩

파이썬 필수 패키지

패키지란?
파이썬에서 유용한 기능이 구현된 파일을 묶어서 유통시키는 단위
다른 언어에서는 "라이브러리"라고도 부르며 종종 두 용어르를 혼영해서 사용
파이썬 패키지는 PyPI에서 찾을 수 있다.

https://pypi.org/

 

PyPI · The Python Package Index

The Python Package Index (PyPI) is a repository of software for the Python programming language.

pypi.org

 

  • 넘파이 : 고성능과학 계산과 다차원 배열을 위판 패키지 / 데이터를 다룰 때 넘파이 배열을 사용
  • 판다스 : 데이터 분석을 위한 전문 패키지 / 마이크로소프트 엑셀의 시트처럼 숫자와 문자를 섞어서 표 형태로 저장할 수 있는 데이터프레임
  • 맷플로립 : 데이터 시각화 패키지 / 정적 or 동적 그래프 제공
  • 사이파 : 넘파이 기반으로 구축된 수학과 과학 계산 전문 패키지 / 미분, 적분, 활률, 선형대수, 최적화 등을 알고리즘으로 구
  • 사이킷런 : 머신러닝 패키지로 넘파이와 사이파이에 크게 의

참고사이트:

https://hongong.hanbit.co.kr/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B3%BC-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EA%B3%BC%ED%95%99-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%A7%88%EC%9D%B4%EB%8B%9D%EA%B3%BC-%EB%A8%B8%EC%8B%A0%EB%9F%AC/

 

데이터 분석과 데이터 과학, 데이터 마이닝과 머신러닝

데이터 분석과 데이터 과학이 가장 크게 다른 점은 두 분야가 만들어 내는 ‘결과물’입니다. 데이터 분석은 올바른 의사 결정을 돕기 위한 통찰을 제공하는 데 초점을 맞추고, 데이터 과학은

hongong.hanbit.co.kr

https://www.quora.com/What-is-data-science

 

What is data science?

Answer (1 of 581): You might have come across the term “Data Science” at least once in recent times. If you are an IT person, you might have an idea about the field, and if you are not from the techies, you may be curious to know what this term is that

www.quora.com

https://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%82%AC%EC%9D%B4%EC%96%B8%EC%8A%A4
https://ko.wikipedia.org/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0_%EB%B6%84%EC%84%9D

 

데이터 사이언스 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 데이터 과학(data science)이란, 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는 과정에서 과

ko.wikipedia.org

 

데이터 분석 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전.

ko.wikipedia.org

https://towardsdatascience.com/introduction-to-statistics-e9d72d818745

 

Data science concepts you need to know! Part 1

This is the first post in a 5-part series that will outline some of the core concepts in data science:

towardsdatascience.com

혼자공부하는 데이터 분석 유튜브 강의

 

[데이터 분석 기초 강의] 혼자 공부하는 데이터 분석 with 파이썬

 

www.youtube.com

https://www.lucypark.kr/blog/2015/06/21/the-data-science-venn-diagram/

 

[번역] 데이터 사이언스 벤 다이어그램 - Lucy Park

새해에 블로그를 부활시켜보겠다고 다짐했는데, 벌써 반년이 지나고도 새 글이 없어서 좋은 글이라도 하나 번역해서 올려야겠다고 생각했다.원문은 Drew Conway의 The Data Science Venn Diagram라는, 데이

www.lucypark.kr

https://github.com/rickiepark/hg-da

 

GitHub - rickiepark/hg-da: <혼자 공부하는 데이터 분석 with 파이썬>의 코드 저장소

<혼자 공부하는 데이터 분석 with 파이썬>의 코드 저장소. Contribute to rickiepark/hg-da development by creating an account on GitHub.

github.com

 

반응형

'데이터분석' 카테고리의 다른 글

넘파이  (0) 2023.12.09
판매 결과 예측 가능 할까?  (0) 2023.11.12
(참조)마크다운 서식 in colab  (0) 2023.11.12