판매 결과 예측 가능 할까?

2023. 11. 12. 15:38데이터분석

728x90
반응형

데이터 찾기

원하는 정보(문제에 맞는 데이터)가 없는 상황이 많다. 이럴 때는 어느 정도 비슷한 데이터를 찾을 수 없는지 생각해봐야 한다. "공개 데이터 세트" 찾아보거나 데이터 과학과 관련된 온라인 포럼에 질문을 올려서 도움을 요청할 수 있다.

 

공공데이터포털

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

도서관 정보나루

 

도서관 정보나루

전국 서울 부산 대구 인천 광주 대전 울산 세종 경기 강원 충북 충남 전북 전남 경북 경남 제주 전체 영유아(0~5) 유아(6~7) 초등(8~13) 청소년(14~19) 20대 30대 40대 50대 60대 이상 전체 영유아(남) 영유

www.data4library.kr

 

제공포맷 : CSV, 엑셀, API 제공

  • CSV 파일

몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다. 확장자는 .csv이며 MIME 형식은 text/csv이다. comma-separated variables라고도 한다.

한줄을 "레코드", 콤마로 구분된  부분을 "필드"라 한다.

  • 엑셀 파일

표 형식으로 데이터의 조직, 분석, 저장을 가능케 하는 상호작용 컴퓨터 애플리케이션이다


코랩에서 데이터 확인하기

https://research.google.com/colaboratory/

 

https://research.google.com/colaboratory/

 

research.google.com

다운로드 받은 데이터를 코랩에 등록 해주면 된다.

 

원하는 파일을 오른쪽 클릭 하여 아래와 같이 경로를 복사해 준다

인코딩 확인

import chardet # 인코딩 확인하는 패키지

with open('/content/BestLoanList_20231112025154.csv', mode='rb') as f:
  d = f.readline()
  print(chardet.detect(d))

인코딩 형식 지정하기

import chardet # 인코딩 확인하는 패키지

with open('/content/BestLoanList_20231112025154.csv', encoding="EUC-KR") as f:
  print(f.readline())
  print(f.readline())
  print(f.readline())
  print(f.readline())
  print(f.readline())

 

판다스 도구로 읽는 것이 편리하나, 큰 파일일 경우 오랜 시간이 걸리므로 파이썬의 open(), readline() 메서드로 몇 줄만 출력해서 파일의 내용을 확인하는게 좋을 수 있다.

파일명이 한글인데 인식을 못할 경우
NFC, NFD 방식 중 맥 OS, 주피터 등 일부는 NFD 방식으로 한글 저장 됨 이럴때는 NFC 방식으로 전환하여 파일을 읽어야 함.

import os
import glob
import unicodedata
for filename in glob.glob("*.csv"): # csv확장자를 여러개 있으면 다 불러와서 filename에 담아서 for문을 돌린다.
    nfc_filename = unicodedata.normalize('NFC', filename) # 불러온 파일을 NFC로 바꺼서nfc_filename객체전환
    os.rename(filename, nfc_filename)  # NFC 전환된 파일로 다시 저장

판다스 사용해보기

판다스는 CSV 파일을 읽어 "데이터프레임"이라는 표 형식 데이터로 저장함.

import pandas as pd
#df = pd.read_csv('/content/BestLoanList_20231112025154.csv', encoding='EUC-KR', low_memory=False) # 큰 데이터는 메모리 부족하여 오류 발생 가능성 있음, dtype 매개변수로 문제 해결
df = pd.read_csv('/content/BestLoanList_20231112025154.csv', encoding='EUC-KR',
                 dtype={'ISBN':str,'세트 ISBN':str,'주제분류번호':str})
df.head()

# csv파일로 저장
df.to_csv("ns_test.csv", index=False)

#엑셀저장, xlswriter 패키지 사용하여 한글 데이터 오류발생 방지
# xslwriter 없을 경우 pip install xslwriter 설치 후 실행
df.to_excel("ns_test.xlsx", index=False, engine='xlsxwriter')

 


공개 데이터 세트 대표 사이트

공공데이터포털

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

통합 데이터 지도

 

통합 데이터지도 – 공공 민간 빅데이터 통합 검색

통합 데이터지도는 빅데이터 플랫폼 및 센터가 생산 유통한 공공‧민간 데이터를 쉽게 연계∙활용할 수 있도록 합니다. 데이터를 친숙하게 이용하고 나아가 데이터 거래의 장을 구축하여 데이

www.bigdata-map.kr

AI 허브

 

AI-Hub

[한국어] 감성 대화 말뭉치 #코퍼스 # 감성대화 # 감성 챗봇 # 우울증 예방 조회수 35,768 관심등록 149 다운수 7,729

aihub.or.kr

국가통계포털

 

KOSIS 국가통계포털

내가 본 통계표 최근 본 통계표 25개가 저장됩니다. 닫기

kosis.kr

구글 데이터 세트 검색

 

Dataset Search

 

datasetsearch.research.google.com

캐글 데이터 세트

 

Find Open Datasets and Machine Learning Projects | Kaggle

Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.

www.kaggle.com

위키피디아 머신러닝 데이터 세트

 

List of datasets for machine-learning research - Wikipedia

From Wikipedia, the free encyclopedia These datasets are applied for machine learning (ML) research and have been cited in peer-reviewed academic journals. Datasets are an integral part of the field of machine learning. Major advances in this field can res

en.wikipedia.org

아마존 웹서비스 오픈 데이터

 

https://docs.aws.amazon.com/

 

docs.aws.amazon.com

UCI 머신러닝 데이터 저장소

 

UCI Machine Learning Repository

Two datasets are included, related to red and white vinho verde wine samples, from the north of Portugal. The goal is to model wine quality based on physicochemical tests (see [Cortez et al., 2009], http://www3.dsi.uminho.pt/pcortez/wine/). Classification,

archive.ics.uci.edu

데이터 분석 커뮤니티

 

로그인 또는 가입하여 보기

Facebook에서 게시물, 사진 등을 확인하세요.

www.facebook.com

캐글 코리아

 

로그인 또는 가입하여 보기

Facebook에서 게시물, 사진 등을 확인하세요.

www.facebook.com

텐서플로 코리아

 

로그인 또는 가입하여 보기

Facebook에서 게시물, 사진 등을 확인하세요.

www.facebook.com

파이토치 코리아

 

로그인 또는 가입하여 보기

Facebook에서 게시물, 사진 등을 확인하세요.

www.facebook.com

사이킷런 코리아

 

로그인 또는 가입하여 보기

Facebook에서 게시물, 사진 등을 확인하세요.

www.facebook.com


참고사이트:

https://www.data.go.kr/

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

https://www.data4library.kr/

 

도서관 정보나루

전국 서울 부산 대구 인천 광주 대전 울산 세종 경기 강원 충북 충남 전북 전남 경북 경남 제주 전체 영유아(0~5) 유아(6~7) 초등(8~13) 청소년(14~19) 20대 30대 40대 50대 60대 이상 전체 영유아(남) 영유

www.data4library.kr

https://ko.wikipedia.org/wiki/CSV_(%ED%8C%8C%EC%9D%BC_%ED%98%95%EC%8B%9D)

 

CSV (파일 형식) - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. CSV(영어: comma-separated values)는 몇 가지 필드를 쉼표(,)로 구분한 텍스트 데이터 및 텍스트 파일이다. 확장자는 .csv이며 MIME 형식은 text/csv이다. comma-separated variables

ko.wikipedia.org

https://ko.wikipedia.org/wiki/%EB%A7%88%EC%9D%B4%ED%81%AC%EB%A1%9C%EC%86%8C%ED%94%84%ED%8A%B8_%EC%97%91%EC%85%80

 

마이크로소프트 엑셀 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 마이크로소프트 엑셀(Microsoft Excel)은 마이크로소프트 윈도우와 OS X에서 작동하는 마이크로소프트사에서 개발해 판매하는 스프레드시트 프로그램이다. 마이크

ko.wikipedia.org

혼자공부하는 데이터 분석 유튜브

 

반응형

'데이터분석' 카테고리의 다른 글

넘파이  (0) 2023.12.09
(참조)마크다운 서식 in colab  (0) 2023.11.12
데이터 분석과 데이터 과학  (1) 2023.11.12