Pandas для початківців: аналіз CSV та Excel
19.04.2026Якщо ви починаєте вивчати Python і хочете швидко працювати з таблицями, бібліотека Pandas стане одним із найкорисніших інструментів. Вона дозволяє читати CSV і Excel-файли, очищати дані, знаходити потрібні значення, групувати інформацію та готувати її до подальшого аналізу. Головна перевага Pandas у тому, що більшість типових операцій виконуються кількома рядками коду.
У цій статті ми розглянемо практичний сценарій: завантажимо дані з файлу, перевіримо їхній вигляд, виконаємо базову фільтрацію, обчислимо прості підсумки та збережемо результат назад у файл. Усе це підійде для першого знайомства з Pandas без складної теорії.
Що таке Pandas і навіщо він потрібен
Pandas — це бібліотека Python для роботи з табличними даними. Вона зручно працює з форматами CSV та Excel, а також допомагає швидко перетворювати сирі дані на зрозумілу таблицю для аналізу. Основні структури в Pandas — це Series і DataFrame. Для початківців найважливіший саме DataFrame, бо він нагадує звичайну таблицю з рядками та стовпцями.
Типові задачі, які легко вирішити з Pandas:
- читання файлів CSV і Excel;
- перегляд перших рядків таблиці;
- пошук пропущених значень;
- фільтрація за умовою;
- обчислення середніх, сум і групових показників;
- збереження результатів у новий файл.
Підготовка середовища
Щоб почати, достатньо встановити Pandas. Для роботи з Excel-файлами також зазвичай потрібна додаткова підтримка для читання та запису. Якщо ви працюєте в середовищі на кшталт Jupyter Notebook або у звичайному Python-скрипті, логіка буде однаковою.
Базовий імпорт виглядає так:
import pandas as pd
Саме скорочення pd стало стандартом у спільноті Python, тому ви зустрінете його майже в будь-якому прикладі.
Читання CSV-файлу
CSV — один із найпоширеніших форматів для табличних даних. У ньому інформація зберігається у вигляді тексту, де значення розділені комами або іншим символом. Pandas читає такі файли дуже просто:
df = pd.read_csv('sales.csv')
Після цього дані потрапляють у DataFrame. Щоб зрозуміти, що саме ви завантажили, зручно подивитися на перші рядки:
print(df.head())
Метод head() показує перші 5 рядків за замовчуванням. Це допомагає одразу побачити назви стовпців, формат даних і можливі проблеми, наприклад зайві пробіли або неправильні значення.
Корисні параметри read_csv
Часто файли мають свої особливості. Наприклад, інший роздільник, кодування або десятковий знак. У таких випадках Pandas дозволяє налаштувати читання:
df = pd.read_csv('sales.csv', sep=';', encoding='utf-8')
Якщо у файлі використовується крапка з комою, важливо вказати sep=’;’. Якщо виникають проблеми з відображенням українських символів, варто перевірити кодування файлу.
Читання Excel-файлу
Excel часто використовується для звітів, списків і фінальних таблиць. Pandas дозволяє читати такі файли майже так само просто, як CSV:
df = pd.read_excel('report.xlsx')
Якщо в Excel є кілька аркушів, можна вказати конкретний:
df = pd.read_excel('report.xlsx', sheet_name='January')
Для початківця це дуже зручно: не потрібно вручну копіювати дані з Excel у Python. Достатньо вказати файл, і таблиця вже готова для аналізу.
Огляд структури даних
Після завантаження файлу важливо зрозуміти, скільки в таблиці рядків, які є стовпці та чи немає проблем із типами даних. Для цього існує кілька корисних методів:
- df.info() — показує типи стовпців і кількість ненульових значень;
- df.shape — повертає кількість рядків і стовпців;
- df.columns — показує назви стовпців;
- df.describe() — дає статистичний підсумок для числових даних.
Наприклад:
print(df.info())
print(df.shape)
print(df.columns)
print(df.describe())
Ці команди допомагають швидко оцінити якість набору даних і зрозуміти, з чим ви працюєте.
Фільтрація та вибір даних
Одна з найчастіших задач — знайти лише потрібні рядки. Припустімо, у вас є таблиця продажів із колонками Product, Category, Revenue та Date. Якщо потрібно вибрати всі продажі певної категорії, це робиться дуже просто:
electronics = df[df['Category'] == 'Electronics']
Так само можна фільтрувати за числовою умовою:
high_sales = df[df['Revenue'] > 1000]
Якщо потрібно вибрати лише кілька стовпців, використовуйте квадратні дужки з назвами колонок:
subset = df[['Product', 'Revenue']]
Комбінація фільтрації рядків і вибору стовпців дає змогу дуже швидко формувати потрібний зріз даних.
Робота з пропущеними значеннями
У реальних таблицях часто трапляються порожні клітинки. Pandas вміє їх виявляти та обробляти. Спершу варто подивитися, де саме є пропуски:
print(df.isna().sum())
Цей вираз покаже кількість порожніх значень у кожному стовпці. Далі можна обрати один із базових підходів: видалити рядки з пропусками або заповнити їх значенням за замовчуванням.
df_clean = df.dropna()
df_filled = df.fillna(0)
Перший варіант зручний, коли пропущених значень небагато і їх можна просто прибрати. Другий корисний, якщо потрібно зберегти всі рядки, наприклад у звітності.
Групування та прості підрахунки
Коли даних багато, корисно не дивитися на кожен рядок окремо, а підсумовувати їх за категоріями. Для цього в Pandas є метод groupby(). Наприклад, щоб дізнатися загальний дохід по кожній категорії:
category_sum = df.groupby('Category')['Revenue'].sum()
А якщо потрібно знайти середнє значення:
category_avg = df.groupby('Category')['Revenue'].mean()
Такі операції особливо корисні для аналізу продажів, відвідуваності, витрат або будь-яких інших табличних даних, де є колонка з категорією та числовий показник.
Сортування та впорядкування результатів
Після обчислень часто хочеться побачити найбільші або найменші значення. Для цього використовується сортування:
sorted_df = df.sort_values(by='Revenue', ascending=False)
Якщо потрібно відсортувати за декількома стовпцями, Pandas також це підтримує. Наприклад, можна спочатку сортувати за категорією, а потім за доходом. Такий підхід зручний, коли потрібно підготувати таблицю до звіту або подальшого експорту.
Збереження результатів у CSV або Excel
Після очищення та аналізу дані часто потрібно зберегти у новий файл. Для CSV це робиться так:
df.to_csv('clean_sales.csv', index=False)
Параметр index=False прибирає службовий індекс, щоб у файлі не з’явився зайвий стовпець. Для Excel використовується схожий підхід:
df.to_excel('clean_sales.xlsx', index=False)
Це зручно, якщо ви хочете передати результат колегам або продовжити роботу вже в Excel.
Приклад повного робочого сценарію
Ось короткий приклад, який поєднує основні кроки:
import pandas as pd
df = pd.read_csv('sales.csv')
print(df.head())
print(df.info())
# Прибираємо порожні значення
clean_df = df.dropna()
# Фільтруємо записи з доходом понад 1000
selected = clean_df[clean_df['Revenue'] > 1000]
# Підсумовуємо дохід по категоріях
summary = selected.groupby('Category')['Revenue'].sum()
print(summary)
# Зберігаємо результат
selected.to_csv('filtered_sales.csv', index=False)
Цього невеликого набору команд уже достатньо для багатьох базових задач аналізу даних. Звідси можна рухатися далі: працювати з датами, об’єднувати таблиці, будувати графіки та автоматизувати звіти.
Висновок
Pandas — це чудовий старт для всіх, хто хоче аналізувати CSV та Excel у Python. Бібліотека дозволяє швидко завантажити дані, перевірити їх якість, відфільтрувати потрібні рядки, виконати підрахунки та зберегти результат. Для початківця найкраща стратегія — навчитися читати таблицю, розуміти її структуру і поступово додавати нові операції.
Якщо ви вже можете відкрити файл, переглянути кілька рядків, відфільтрувати дані та обчислити просту статистику, то ви зробили важливий крок у вивченні Python для аналізу даних. Далі Pandas відкриває ще більше можливостей, але навіть базових інструментів вистачає, щоб вирішувати реальні практичні задачі.