Tag: pandas

Переопределение столбца Pandas DataFrame со значениями словаря, где ключи словаря соответствуют столбцу без индекса?

У меня есть DataFrame df и dict d, например: >>> df ab 0 5 10 1 6 11 2 7 12 3 8 13 4 9 14 >>> d = {6: 22, 8: 26} Для каждого (key, val) в словаре я хотел бы найти строку, где столбец a соответствует ключу, и переопределить столбец b со […]

Очистка данных excel с помощью python с использованием пакета pandas

Я прочитал файл xls в Python с помощью pandas, используя pd.read_excel Я пытаюсь очистить свои данные, но я вышел из своей лиги. Между каждой записью есть пустая строка. В примере pic это excel row 4, 9 и 11. Существует столбец комментариев, обозначенный в примере (см. Ссылку) как «col_F». Каждая запись содержит по крайней мере одну […]

Групповые этикетки в barplart matplotlib с использованием Pandas MultiIndex

У меня есть панда DataFrame с MultiIndex: group subgroup obs_1 obs_2 GroupA Elem1 4 0 Elem2 34 2 Elem3 0 10 GroupB Elem4 5 21 и так далее. Как отмечено в этом SO-вопросе, это действительно выполнимо в matplotlib, но я предпочел бы (если возможно) использовать тот факт, что я уже знаю иерархию (благодаря MultiIndex). В […]

Как сортировать столбцы dataframe на основе значений в нескольких строках?

Например, df = pd.DataFrame({'x':[1,1,1,2,3,3], 'y':['a','a','c','b','b','b']}) ct = pd.crosstab(df.x, df.y) ct yabc x 1 2 0 1 2 0 1 0 3 0 2 0 Как отсортировать столбцы ct на основе значений в row1, row2 и row3 (в этом порядке приоритета)? Я пробовал следующее, ни одна из которых не работает ct.sort_values([1, 2, 3], axis=1) ct.sort_values(['1','2','3'], axis=1)

df.loc вызывает предупреждающее сообщение SettingWithCopyWarning

Следующая строка моего кода вызывает предупреждение: import pandas as pd s = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD')) s.loc[-1] = [5,np.nan,np.nan,6] grouped = s.groupby(['A']) for key_m, group_m in grouped: group_m.loc[-1] = [10,np.nan,np.nan,10] C:\Anaconda3\lib\site-packages\ipykernel\__main__.py:10: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame Согласно документации, это рекомендуемый способ, так что происходит? […]

Групповые данные по сезонам с использованием python и pandas

Я хочу использовать Pandas и Python для итерации через мой CSV-файл и группировать данные по сезонам, вычисляя среднее значение для каждого сезона в году. В настоящее время ежеквартальный сценарий – январь-март, апрель-июнь и т. Д. Я хочу, чтобы сезоны соответствовали месяцам – 11: «Зима», 12: «Зима», 1: «Зима», 2: «Весна», 3: Весна ', 4:' Весна […]

интерполирование значений из фрейма данных на основе значения столбца

Предполагая, что у меня есть следующая проблема: import pandas as pd import numpy as np xp = [0.0, 0.5, 1.0] np.random.seed(100) df = pd.DataFrame(np.random.rand(10, 4), columns=['x0', 'y1', 'y2', 'y3']) df x0 y1 y2 y3 0 0.5434 0.2784 0.4245 0.8448 1 0.0047 0.1216 0.6707 0.8259 2 0.1367 0.5751 0.8913 0.2092 3 0.1853 0.1084 0.2197 0.9786 4 […]

Как читать datetime с часовым поясом в пандах

Я пытаюсь создать dataframe из csv, и его первый столбец похож на "2013-08-25T00:00:00-0400"; "2013-08-25T01:00:00-0400"; "2013-08-25T02:00:00-0400"; "2013-08-25T03:00:00-0400"; "2013-08-25T04:00:00-0400"; Это время с часовым поясом! Я уже использовал что-то вроде df1 = DataFrame(pd.read_csv(PeriodC, sep=';', parse_dates=[0], index_col=0)) но результат был 2013-09-02 04:00:00 2013-09-03 04:00:00 2013-09-04 04:00:00 2013-09-05 04:00:00 2013-09-06 04:00:00 2013-09-07 04:00:00 2013-09-08 04:00:00 Может ли кто-нибудь объяснить мне, […]

Python Pandas DataFrame – невозможно отобразить полосы и линии на тех же осях

Я, возможно, делаю что-то не так, но я изо всех сил стараюсь сделать следующее: # plot bars and lines in the same figure, sharing both x and y axes. df = some DataFrame with multiple columns _, ax = plt.subplots() df[col1].plot(kind='bar', ax=ax) df[col2].plot(ax=ax, marker='o', ls='-') ax.legend(loc='best') Я ожидал увидеть график с некоторыми барами и строкой. […]

Замена значений в мультииндексе pandas

У меня есть dataframe с мультииндекс. Я хочу изменить значение второго индекса при выполнении определенных условий для первого индекса. Я нашел аналогичный (но другой) вопрос здесь: Замените значение в MultiIndex (pandas), которое не отвечает на мою точку, потому что речь шла об изменении одной строки, и решение передало значение первого индекса (который не необходимо изменить). […]

Python - лучший язык программирования в мире.