<Python-Pandas> pd.read

Python

<Python-Pandas> pd.read_csv

범준킴 2022. 12. 31. 15:38

< csv 파일을 읽어들일 때 사용 >

0. csv 파일의 일반적인 특징

1) 각 줄은 하나의 행(row)에 해당한다.

2) 각 열(column) 사이에는 쉼표(,)를 넣어 구분한다.

2-1) 쉼표(,)는 "구분자"라고 부르며, 쉼표 외 다양한 구분자를 사용할 수 있음 ex) |, ^, "tab" 등

3) 모든 행은 같은 갯수의 열을 가져야한다.

3-1) 결측치(null)는 구분자 사이에 값을 입력하지 않는다.

4) 인코딩 방식은 주로 'utf-8', 'euc-kr', 'cp949'를 사용한다.

1. 기본적인 사용 방식(필수 입력 항목)

import pandas as pd

df1 = pd.read_csv("파일경로/파일명.csv")

2. csv 파일의 특징에 따라 argument를 추가 작성하여 사용

import pandas as pd

df1 = pd.read_csv("파일경로/파일명.csv", encoding = "utf-8", sep = ",", header = 0)

인코딩 설정

- encoding = "utf-8"

>> 대체 가능한 인코딩 방식 : utf-8(Default), utf-16, euc-kr, cp949, latin_1(아주 드물게)

구분자 설정

- sep = ","

>> 대체 가능한 구분자 : ,(Default), |, ^, (tab) 등 다양하게 사용 가능

컬럼 헤더 설정

- header = 0

>> 대체 가능한 설정 : 0(Default, 첫 행을 컬럼 헤더로 사용), None(헤더 없이 csv 로드)

- names = ["A", "B", "C"]

>> 컬럼 헤더를 A, B, C 순으로 적용

컬럼 별 자료형 설정

- dtype = None

>> 대체 가능한 설정 : None(Default, 컬럼 별 자료형을 자동으로 인식), {'A' = 'int16'}(A 컬럼을 int16으로 인식함을 지정)

Engine 설정 (사용 상황 등 추후 보완 예정)

- engine = "c"

>> 대체 가능한 설정 : c(Default), python, pyarrow

참고자료

- pandas API reference : https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

'Python' 카테고리의 다른 글

인구이동통계 빅데이터 파이썬으로 분석하기_2 (데이터 조회 및 분석) (0)	2023.05.24
인구이동통계 빅데이터 파이썬으로 분석하기_1 (데이터 준비) (0)	2023.05.19
대용량 CSV 파일 편집하기(python)_건축데이터 민간개방 시스템 활용 예시 (0)	2023.02.05

현재글<Python-Pandas> pd.read_csv

RECORD INSIDE