Pandas для початківців: аналіз CSV та Excel

19.04.2026 0 By AdminA

Якщо ви починаєте вивчати Python і хочете швидко працювати з таблицями, бібліотека Pandas стане одним із найкорисніших інструментів. Вона дозволяє читати CSV і Excel-файли, очищати дані, знаходити потрібні значення, групувати інформацію та готувати її до подальшого аналізу. Головна перевага Pandas у тому, що більшість типових операцій виконуються кількома рядками коду.

У цій статті ми розглянемо практичний сценарій: завантажимо дані з файлу, перевіримо їхній вигляд, виконаємо базову фільтрацію, обчислимо прості підсумки та збережемо результат назад у файл. Усе це підійде для першого знайомства з Pandas без складної теорії.

Що таке Pandas і навіщо він потрібен

Pandas — це бібліотека Python для роботи з табличними даними. Вона зручно працює з форматами CSV та Excel, а також допомагає швидко перетворювати сирі дані на зрозумілу таблицю для аналізу. Основні структури в Pandas — це Series і DataFrame. Для початківців найважливіший саме DataFrame, бо він нагадує звичайну таблицю з рядками та стовпцями.

Типові задачі, які легко вирішити з Pandas:

читання файлів CSV і Excel;
перегляд перших рядків таблиці;
пошук пропущених значень;
фільтрація за умовою;
обчислення середніх, сум і групових показників;
збереження результатів у новий файл.

Підготовка середовища

Щоб почати, достатньо встановити Pandas. Для роботи з Excel-файлами також зазвичай потрібна додаткова підтримка для читання та запису. Якщо ви працюєте в середовищі на кшталт Jupyter Notebook або у звичайному Python-скрипті, логіка буде однаковою.

Базовий імпорт виглядає так:

import pandas as pd

Саме скорочення pd стало стандартом у спільноті Python, тому ви зустрінете його майже в будь-якому прикладі.

Читання CSV-файлу

CSV — один із найпоширеніших форматів для табличних даних. У ньому інформація зберігається у вигляді тексту, де значення розділені комами або іншим символом. Pandas читає такі файли дуже просто:

df = pd.read_csv('sales.csv')

Після цього дані потрапляють у DataFrame. Щоб зрозуміти, що саме ви завантажили, зручно подивитися на перші рядки:

print(df.head())

Метод head() показує перші 5 рядків за замовчуванням. Це допомагає одразу побачити назви стовпців, формат даних і можливі проблеми, наприклад зайві пробіли або неправильні значення.

Корисні параметри read_csv

Часто файли мають свої особливості. Наприклад, інший роздільник, кодування або десятковий знак. У таких випадках Pandas дозволяє налаштувати читання:

df = pd.read_csv('sales.csv', sep=';', encoding='utf-8')

Якщо у файлі використовується крапка з комою, важливо вказати sep=’;’. Якщо виникають проблеми з відображенням українських символів, варто перевірити кодування файлу.

Читання Excel-файлу

Excel часто використовується для звітів, списків і фінальних таблиць. Pandas дозволяє читати такі файли майже так само просто, як CSV:

df = pd.read_excel('report.xlsx')

Якщо в Excel є кілька аркушів, можна вказати конкретний:

df = pd.read_excel('report.xlsx', sheet_name='January')

Для початківця це дуже зручно: не потрібно вручну копіювати дані з Excel у Python. Достатньо вказати файл, і таблиця вже готова для аналізу.

Огляд структури даних

Після завантаження файлу важливо зрозуміти, скільки в таблиці рядків, які є стовпці та чи немає проблем із типами даних. Для цього існує кілька корисних методів:

df.info() — показує типи стовпців і кількість ненульових значень;
df.shape — повертає кількість рядків і стовпців;
df.columns — показує назви стовпців;
df.describe() — дає статистичний підсумок для числових даних.

Наприклад:

print(df.info())
print(df.shape)
print(df.columns)
print(df.describe())

Ці команди допомагають швидко оцінити якість набору даних і зрозуміти, з чим ви працюєте.

Фільтрація та вибір даних

Одна з найчастіших задач — знайти лише потрібні рядки. Припустімо, у вас є таблиця продажів із колонками Product, Category, Revenue та Date. Якщо потрібно вибрати всі продажі певної категорії, це робиться дуже просто:

electronics = df[df['Category'] == 'Electronics']

Так само можна фільтрувати за числовою умовою:

high_sales = df[df['Revenue'] > 1000]

Якщо потрібно вибрати лише кілька стовпців, використовуйте квадратні дужки з назвами колонок:

subset = df[['Product', 'Revenue']]

Комбінація фільтрації рядків і вибору стовпців дає змогу дуже швидко формувати потрібний зріз даних.

Робота з пропущеними значеннями

У реальних таблицях часто трапляються порожні клітинки. Pandas вміє їх виявляти та обробляти. Спершу варто подивитися, де саме є пропуски:

print(df.isna().sum())

Цей вираз покаже кількість порожніх значень у кожному стовпці. Далі можна обрати один із базових підходів: видалити рядки з пропусками або заповнити їх значенням за замовчуванням.

df_clean = df.dropna()

df_filled = df.fillna(0)

Перший варіант зручний, коли пропущених значень небагато і їх можна просто прибрати. Другий корисний, якщо потрібно зберегти всі рядки, наприклад у звітності.

Групування та прості підрахунки

Коли даних багато, корисно не дивитися на кожен рядок окремо, а підсумовувати їх за категоріями. Для цього в Pandas є метод groupby(). Наприклад, щоб дізнатися загальний дохід по кожній категорії:

category_sum = df.groupby('Category')['Revenue'].sum()

А якщо потрібно знайти середнє значення:

category_avg = df.groupby('Category')['Revenue'].mean()

Такі операції особливо корисні для аналізу продажів, відвідуваності, витрат або будь-яких інших табличних даних, де є колонка з категорією та числовий показник.

Сортування та впорядкування результатів

Після обчислень часто хочеться побачити найбільші або найменші значення. Для цього використовується сортування:

sorted_df = df.sort_values(by='Revenue', ascending=False)

Якщо потрібно відсортувати за декількома стовпцями, Pandas також це підтримує. Наприклад, можна спочатку сортувати за категорією, а потім за доходом. Такий підхід зручний, коли потрібно підготувати таблицю до звіту або подальшого експорту.

Збереження результатів у CSV або Excel

Після очищення та аналізу дані часто потрібно зберегти у новий файл. Для CSV це робиться так:

df.to_csv('clean_sales.csv', index=False)

Параметр index=False прибирає службовий індекс, щоб у файлі не з’явився зайвий стовпець. Для Excel використовується схожий підхід:

df.to_excel('clean_sales.xlsx', index=False)

Це зручно, якщо ви хочете передати результат колегам або продовжити роботу вже в Excel.

Приклад повного робочого сценарію

Ось короткий приклад, який поєднує основні кроки:

import pandas as pd

df = pd.read_csv('sales.csv')
print(df.head())
print(df.info())

# Прибираємо порожні значення
clean_df = df.dropna()

# Фільтруємо записи з доходом понад 1000
selected = clean_df[clean_df['Revenue'] > 1000]

# Підсумовуємо дохід по категоріях
summary = selected.groupby('Category')['Revenue'].sum()
print(summary)

# Зберігаємо результат
selected.to_csv('filtered_sales.csv', index=False)

Цього невеликого набору команд уже достатньо для багатьох базових задач аналізу даних. Звідси можна рухатися далі: працювати з датами, об’єднувати таблиці, будувати графіки та автоматизувати звіти.

Висновок

Pandas — це чудовий старт для всіх, хто хоче аналізувати CSV та Excel у Python. Бібліотека дозволяє швидко завантажити дані, перевірити їх якість, відфільтрувати потрібні рядки, виконати підрахунки та зберегти результат. Для початківця найкраща стратегія — навчитися читати таблицю, розуміти її структуру і поступово додавати нові операції.

Якщо ви вже можете відкрити файл, переглянути кілька рядків, відфільтрувати дані та обчислити просту статистику, то ви зробили важливий крок у вивченні Python для аналізу даних. Далі Pandas відкриває ще більше можливостей, але навіть базових інструментів вистачає, щоб вирішувати реальні практичні задачі.

Comments

comments

Вебскрапінг на Python: вибір між BeautifulSoup, requests і Playwright

Як очистити Excel або CSV у Python швидко