Python

<Python-Pandas> pd.read_csv

범준킴 2022. 12. 31. 15:38
반응형

< csv 파일을 읽어들일 때 사용 >

 

0. csv 파일의 일반적인 특징

 1) 각 줄은 하나의 행(row)에 해당한다.

 2) 각 열(column) 사이에는 쉼표(,)를 넣어 구분한다.

 2-1) 쉼표(,)는 "구분자"라고 부르며, 쉼표 외 다양한 구분자를 사용할 수 있음 ex) |, ^, "tab" 등

 3) 모든 행은 같은 갯수의 열을 가져야한다.

 3-1) 결측치(null)는 구분자 사이에 값을 입력하지 않는다.

 4) 인코딩 방식은 주로 'utf-8', 'euc-kr', 'cp949'를 사용한다.

 

1. 기본적인 사용 방식(필수 입력 항목)

import pandas as pd

df1 = pd.read_csv("파일경로/파일명.csv")

 

2. csv 파일의 특징에 따라 argument를 추가 작성하여 사용

import pandas as pd

df1 = pd.read_csv("파일경로/파일명.csv", encoding = "utf-8", sep = ",", header = 0)

  인코딩 설정 

 - encoding = "utf-8"

  >> 대체 가능한 인코딩 방식 : utf-8(Default), utf-16, euc-kr, cp949, latin_1(아주 드물게)

 

  구분자 설정

 - sep = ","

  >> 대체 가능한 구분자 : ,(Default), |, ^,     (tab) 등 다양하게 사용 가능

 

  컬럼 헤더 설정

  - header = 0

  >> 대체 가능한 설정 : 0(Default, 첫 행을 컬럼 헤더로 사용), None(헤더 없이 csv 로드)

  - names = ["A", "B", "C"]

  >> 컬럼 헤더를 A, B, C 순으로 적용

 

  컬럼 별 자료형 설정

 - dtype = None

 >> 대체 가능한 설정 : None(Default, 컬럼 별 자료형을 자동으로 인식), {'A' = 'int16'}(A 컬럼을 int16으로 인식함을 지정)

 

  Engine 설정 (사용 상황 등 추후 보완 예정)

- engine = "c"

 >> 대체 가능한 설정 : c(Default), python, pyarrow

 

참고자료

- pandas API reference : https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

반응형