파이썬 판다스(Pandas)로 대용량 데이터 불러와서 결측치 제거하고 전처리하는 효율적인 방법 메모리 에러 해결

- 12월 20, 2025

개발

파이썬 판다스(Pandas)로 대용량 데이터 불러와서 결측치 제거하고 전처리하는 효율적인 방법 메모리 에러 해결

⏱️ 읽는 시간: 약 5분 | 📊 2,484자

📑 목차

1. 도입: "메모리 부족(MemoryError)"의 악몽, 한 번쯤 겪어보셨죠?
2. 전략 1: 한 번에 먹지 말고 나누어 먹어라 (Chunking)
3. 전략 2: 데이터 타입 최적화 (다이어트의 시작)

도입: "메모리 부족(MemoryError)"의 악몽, 한 번쯤 겪어보셨죠?

안녕하세요, 여러분. 15년 차 개발자로서 솔직하게 고백하자면, 저도 신입 시절에는 데이터 크기 따위는 신경 쓰지 않고 무작정 read_csv()를 실행했다가 서버를 멈추게 한 적이 한두 번이 아닙니다. 로컬 환경에서 잘 돌아가던 코드가 실서버의 방대한 로그 데이터를 만나는 순간, 터미널 창에 뜨는 MemoryError 메시지는 정말 등골을 서늘하게 만들죠. 아마 이 글을 읽고 계신 분들도 1GB가 넘는 CSV 파일을 열다가 컴퓨터 팬 소리가 비행기 이륙 소리처럼 커지는 경험을 해보셨을 겁니다. ☕ 커피 한 잔 마시고 오면 되어 있겠지 싶었는데, 돌아와 보니 파이썬 커널이 죽어있는 그 허탈함이란...

사실 판다스(Pandas)는 데이터 분석의 맥가이버 칼처럼 훌륭한 도구이지만, 태생적으로 In-Memory 방식이라는 한계가 있습니다. 즉, 데이터를 처리하려면 일단 모든 데이터를 RAM(메모리)에 올려야 한다는 뜻이죠. 게다가 파이썬의 객체 오버헤드 때문에 1GB짜리 CSV 파일은 메모리 상에서 3GB, 심하면 5GB 이상으로 불어나기도 합니다. 오늘은 제가 수많은 시행착오 끝에 정립한 '대용량 데이터를 판다스로 우아하게 다루는 법'을 공유하려 합니다. 단순히 코드를 복사해서 붙여넣는 수준을 넘어, 왜 메모리가 터지는지, 어떻게 구조적으로 해결해야 하는지 그 원리를 깊이 있게 파헤쳐 보겠습니다.

전략 1: 한 번에 먹지 말고 나누어 먹어라 (Chunking)

가장 먼저 고려해야 할, 그리고 가장 확실한 해결책은 바로 청킹(Chunking)입니다. 뷔페에 가서 모든 음식을 한 접시에 담을 수 없듯이, 데이터도 적당한 크기로 잘라서 가져와야 합니다. 판다스의 read_csv 함수에는 chunksize라는 아주 강력한 파라미터가 숨어 있습니다. 이 기능을 사용하면 데이터프레임 전체를 반환하는 대신, 데이터를 순회할 수 있는 TextFileReader 객체를 반환합니다.

작동 원리와 메모리 효율성

원리는 간단합니다. 예를 들어 1,000만 행의 데이터가 있다면, 이를 10만 행씩 100번 나누어 처리하는 것입니다. 메모리에는 오직 현재 처리 중인 10만 행만 올라갑니다. 처리가 끝나면 해당 메모리는 비워지고(혹은 덮어씌워지고) 다음 10만 행이 들어옵니다. 이렇게 하면 4GB 램을 가진 노트북에서도 100GB 데이터를 처리할 수 있게 됩니다. 이것이 바로 스트리밍 처리의 핵심입니다.

실제 프로젝트 경험을 예로 들어보겠습니다. 예전에 A 통신사의 로그 데이터를 분석할 때, 하루치 로그만 해도 20GB가 넘었습니다. 서버 메모리는 32GB였지만, 다른 프로세스들도 돌아가고 있었기에 턱없이 부족했죠. 이때 chunksize를 100,000으로 설정하여 반복문(for loop)을 돌렸습니다. 각 청크(조각)마다 필요한 전처리를 수행하고, 결과만 별도의 리스트에 모으거나 바로 DB에 적재하는 방식을 택했더니 메모리 사용량은 2GB 미만으로 유지되었습니다.

💡 핵심 포인트: 청킹을 사용할 때는 중간 집계 로직을 잘 설계해야 합니다. 단순히 데이터를 자르는 것에서 끝나는 게 아니라, 각 조각에서 결측치를 제거하거나 필터링한 후, 최종적으로 어떻게 합칠(Concat) 것인지 계획이 서 있어야 합니다.

청크 사이즈 설정의 딜레마

"그럼 무조건 작게 자르면 좋은 거 아닌가요?"라고 물으실 수 있습니다. 정답은 No입니다. 청크 사이즈가 너무 작으면 I/O(입출력) 오버헤드가 발생합니다. 하드디스크에서 데이터를 읽어오는 횟수가 너무 빈번해져서 전체 처리 속도가 느려지죠. 반대로 너무 크면 메모리 절약 효과가 떨어집니다.

제 경험상, 일반적인 PC 환경에서는 10,000에서 100,000 행 사이가 적당합니다. 하지만 이는 컬럼(열)의 개수에 따라 다릅니다. 컬럼이 100개라면 행 수를 줄여야 하고, 컬럼이 3개라면 행 수를 늘려도 됩니다. 가장 좋은 방법은 시스템 모니터링 도구를 켜놓고, 메모리 점유율을 확인하며 최적의 값을 튜닝하는 것입니다.

전략 2: 데이터 타입 최적화 (다이어트의 시작)

청킹이 데이터를 나누어 먹는 것이라면, 데이터 타입 최적화는 음식 자체의 칼로리를 낮추는 것입니다. 판다스는 기본적으로 CSV를 읽을 때 데이터 타입을 보수적으로 잡습니다. 정수는 무조건 int64, 실수는 float64, 문자열은 object로 할당하죠. 여기서 엄청난 메모리 낭비가 발생합니다.

숫자형 데이터의 다이어트 (Downcasting)

생각해보세요. 나이(Age) 데이터는 보통 0에서 100 사이입니다. 이를 저장하는 데 64비트(8바이트) 정수형이 필요할까요? 8비트(1바이트)만 있어도 -128부터 127까지 표현할 수 있습니다. 즉, int8만 써도 충분하다는 이야기입니다. int64를 int8로 바꾸는 것만으로도 메모리 사용량을 8분의 1로 줄일 수 있습니다.

int16: -32,768 ~ 32,767 (연도 데이터 등에 적합)

💬 여러분의 경험을 들려주세요!

✨ 이 방법을 시도해보셨나요? 댓글로 공유해주세요!
📌 도움이 되셨다면 저장하고 주변에도 알려주세요.
🔔 더 많은 개발 팁을 받고 싶다면 구독해주세요!

이 글이 도움되셨나요? 공유해주세요!

🔎 관련 상품 추천

아래 링크를 통해 구매 시 운영자에게 일정 수수료가 발생할 수 있습니다.

2. **파이썬 판다스(Pandas)로 대용량 데이터 불러와서 결측치 제거하고 전처리하는 효율적인 방법**

'2. **파이썬 판다스(Pandas)로 대용량 데이터 불러와서 결측치 제거하고 전처리하는 효율적인 방법**' 관련 상품을 쿠팡에서 확인해 보세요.

상품 보러가기 →

이 블로그 검색

DevOps & AI Info

로그 데이터 통합 관리: ELK 스택 구축 및 Kibana 시각화로 로그 지옥 탈출하기