Заполнение пропущенных значений в pandas fillna
Pandas fillna – это метод, который используется для заполнения пропущенных значений (NaN) в объекте pandas. Пропущенные значения могут возникать в данных из-за различных причин, таких как ошибки ввода, неполные данные или пропуски в исходном источнике данных. Заполнять эти значения очень важно, чтобы избежать искажения результатов анализа данных или проблем при выполнении вычислений.
Для использования метода fillna необходимо иметь объект pandas DataFrame или Series. В DataFrame представлены структурированные данные в виде таблицы с рядами и столбцами, а в Series – одномерные данные, похожие на массив.
Синтаксис использования fillna следующий:
df.fillna(value, method, axis, inplace)
где:
- value – значение, которое будет использоваться для заполнения пропущенных значений
- method – метод заполнения, например, 'ffill' для заполнения значением предыдущей ячейки или 'bfill' для заполнения значением следующей ячейки
- axis – ось операции заполнения, 0 для заполнения по столбцам и 1 для заполнения по рядам
- inplace – флаг, позволяющий изменять исходный объект или создать копию с заполненными значениями
Пример 1: Заполнение всех пропущенных значений в DataFrame определенным числом:
import pandas as pd
data = {'A': [1, 2, None, 4, 5],
'B': [None, 2, 3, None, 5],
'C': [1, None, 3, 4, 5]}
df = pd.DataFrame(data)
df.fillna(0, inplace=True)
В результате получаем:
A B C
0 1.0 0.0 1.0
1 2.0 2.0 0.0
2 0.0 3.0 3.0
3 4.0 0.0 4.0
4 5.0 5.0 5.0
Пример 2: Заполнение пропущенных значений в DataFrame с использованием предыдущего и следующего значений:
import pandas as pd
import numpy as np
data = {'A': [1, np.nan, 3, np.nan, 5],
'B': [6, 7, np.nan, 9, 10],
'C': [11, 12, 13, np.nan, 15]}
df = pd.DataFrame(data)
df.fillna(method='ffill', inplace=True)
В результате получаем:
A B C
0 1.0 6.0 11.0
1 1.0 7.0 12.0
2 3.0 7.0 13.0
3 3.0 9.0 13.0
4 5.0 10.0 15.0
Заполнение пропущенных значений с использованием fillna – это один из способов обработки пропусков в данных с помощью pandas. Этот метод позволяет оперативно исключить NaN значения из дальнейшего анализа или вычислений, и заполнить их релевантными данными. Кроме приведенных примеров, fillna имеет и другие возможности, такие как заполнение пропусков средним или медианой значениями. Знание и умение использовать этот метод является важной частью работы с данными в pandas.