< csv 파일을 읽어들일 때 사용 >
0. csv 파일의 일반적인 특징
1) 각 줄은 하나의 행(row)에 해당한다.
2) 각 열(column) 사이에는 쉼표(,)를 넣어 구분한다.
2-1) 쉼표(,)는 "구분자"라고 부르며, 쉼표 외 다양한 구분자를 사용할 수 있음 ex) |, ^, "tab" 등
3) 모든 행은 같은 갯수의 열을 가져야한다.
3-1) 결측치(null)는 구분자 사이에 값을 입력하지 않는다.
4) 인코딩 방식은 주로 'utf-8', 'euc-kr', 'cp949'를 사용한다.
1. 기본적인 사용 방식(필수 입력 항목)
import pandas as pd
df1 = pd.read_csv("파일경로/파일명.csv")
2. csv 파일의 특징에 따라 argument를 추가 작성하여 사용
import pandas as pd
df1 = pd.read_csv("파일경로/파일명.csv", encoding = "utf-8", sep = ",", header = 0)
인코딩 설정
- encoding = "utf-8"
>> 대체 가능한 인코딩 방식 : utf-8(Default), utf-16, euc-kr, cp949, latin_1(아주 드물게)
구분자 설정
- sep = ","
>> 대체 가능한 구분자 : ,(Default), |, ^, (tab) 등 다양하게 사용 가능
컬럼 헤더 설정
- header = 0
>> 대체 가능한 설정 : 0(Default, 첫 행을 컬럼 헤더로 사용), None(헤더 없이 csv 로드)
- names = ["A", "B", "C"]
>> 컬럼 헤더를 A, B, C 순으로 적용
컬럼 별 자료형 설정
- dtype = None
>> 대체 가능한 설정 : None(Default, 컬럼 별 자료형을 자동으로 인식), {'A' = 'int16'}(A 컬럼을 int16으로 인식함을 지정)
Engine 설정 (사용 상황 등 추후 보완 예정)
- engine = "c"
>> 대체 가능한 설정 : c(Default), python, pyarrow
참고자료
- pandas API reference : https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
'Python' 카테고리의 다른 글
인구이동통계 빅데이터 파이썬으로 분석하기_2 (데이터 조회 및 분석) (0) | 2023.05.24 |
---|---|
인구이동통계 빅데이터 파이썬으로 분석하기_1 (데이터 준비) (0) | 2023.05.19 |
대용량 CSV 파일 편집하기(python)_건축데이터 민간개방 시스템 활용 예시 (0) | 2023.02.05 |