Tag: pandas

Построение нескольких линий с помощью боке и панд

Я хотел бы предоставить pandas dataframe для Bokeh для построения линейной диаграммы с несколькими строками. Ось x должна быть df.index, и каждая df.column должна быть отдельной строкой. Это то, что мне хотелось бы сделать: import pandas as pd import numpy as np from bokeh.plotting import figure, show toy_df = pd.DataFrame(data=np.random.rand(5,3), columns = ('a', 'b' ,'c'), […]

Загрузить CSV в Pandas MultiIndex DataFrame

У меня есть CSV-файл 719mb, который выглядит так: from, to, dep, freq, arr, code, mode (header row) RGBOXFD,RGBPADTON,127,0,27,99999,2 RGBOXFD,RGBPADTON,127,0,33,99999,2 RGBOXFD,RGBRDLEY,127,0,1425,99999,2 RGBOXFD,RGBCHOLSEY,127,0,52,99999,2 RGBOXFD,RGBMDNHEAD,127,0,91,99999,2 RGBDIDCOTP,RGBPADTON,127,0,46,99999,2 RGBDIDCOTP,RGBPADTON,127,0,3,99999,2 RGBDIDCOTP,RGBCHOLSEY,127,0,61,99999,2 RGBDIDCOTP,RGBRDLEY,127,0,1430,99999,2 RGBDIDCOTP,RGBPADTON,127,0,115,99999,2 and so on… Я хочу загрузить в pandas DataFrame. Теперь я знаю, что есть загрузка из метода csv: r = pd.DataFrame.from_csv('test_data2.csv') Но я специально хочу загрузить его как […]

Nump hstack – «ValueError: все входные массивы должны иметь одинаковое количество измерений», но они делают

Я пытаюсь присоединиться к двум массивам numpy. У меня есть набор столбцов / функций после запуска TF-IDF в одном столбце текста. В другом я имею один столбец / функцию, которая является целым числом. Поэтому я читаю в столбце данных поезда и теста, запускаю TF-IDF на этом, а затем я хочу добавить еще один целочисленный столбец, […]

python: удалить все строки в dataframe pandas, содержащие строку

У меня есть данные dataframe с данными pandas, и я хочу удалить все строки, содержащие строку в любом столбце. Например, ниже мы видим, что столбец «gdp» имеет строку в индексе 3 и «cap» в индексе 1. data = y gdp cap 0 1 2 5 1 2 3 ab 2 8 7 2 3 3 […]

проверьте, является ли переменная dataframe

когда моя функция f вызывается с переменной, я хочу проверить, является ли var файловым фреймом pandas: def f(var): if var == pd.DataFrame(): print "do stuff" Я думаю, решение может быть довольно простым, но даже с def f(var): if var.values != None: print "do stuff" Я не могу заставить его работать, как ожидалось.

как zscore нормализовать столбец pandas с nans?

У меня есть кадр данных pandas со столбцом реальных значений, который я хочу нормализовать zscore: >> a array([ nan, 0.0767, 0.4383, 0.7866, 0.8091, 0.1954, 0.6307, 0.6599, 0.1065, 0.0508]) >> df = pandas.DataFrame({"a": a}) Проблема в том, что одно значение nan делает весь массив nan : >> from scipy.stats import zscore >> zscore(df["a"]) array([ nan, nan, […]

Python Pandas реплицирует строки в dataframe

Если данные выглядят так: Store,Dept,Date,Weekly_Sales,IsHoliday 1,1,2010-02-05,24924.5,FALSE 1,1,2010-02-12,46039.49,TRUE 1,1,2010-02-19,41595.55,FALSE 1,1,2010-02-26,19403.54,FALSE 1,1,2010-03-05,21827.9,FALSE 1,1,2010-03-12,21043.39,FALSE 1,1,2010-03-19,22136.64,FALSE 1,1,2010-03-26,26229.21,FALSE 1,1,2010-04-02,57258.43,FALSE И я хочу дублировать строки с IsHoliday равным TRUE, я могу сделать: is_hol = df['IsHoliday'] == True df_try = df[is_hol] df=df.append(df_try*10) Но есть ли лучший способ сделать это, поскольку мне нужно дублировать праздничные строки в 5 раз, и я должен добавить […]

Сортировка в пандах для больших наборов данных

Я хотел бы отсортировать данные по определенному столбцу, в частности, значениям p. Однако проблема заключается в том, что я не могу загрузить все свои данные в память. Таким образом, следующее не работает или, скорее, работает только для небольших наборов данных. data = data.sort(columns=["P_VALUE"], ascending=True, axis=0) Есть ли быстрый способ сортировки моих данных по данному столбцу, […]

pandas reindex DataFrame с объектами datetime

Можно ли переиндексировать pandas DataFrame с помощью столбца, состоящего из объектов datetime? У меня есть DataFrame df со следующими столбцами: Int64Index: 19610 entries, 0 to 19609 Data columns: cntr 19610 non-null values #int datflt 19610 non-null values #float dtstamp 19610 non-null values #datetime object DOYtimestamp 19610 non-null values #float dtypes: int64(1), float64(2), object(1) Я могу […]

Суммирование на многоиндексном уровне в серии панд

Используя пакет Pandas в python, я хотел бы суммировать (маргинализировать) на одном уровне в серии с трехуровневым мультииндексе для создания серии с двухиндийским мультииндексером. Например, если у меня есть следующее: ind = [tuple(x) for x in ['ABC', 'ABc', 'AbC', 'Abc', 'aBC', 'aBc', 'abC', 'abc']] mi = pd.MultiIndex.from_tuples(ind) data = pd.Series([264, 13, 29, 8, 152, 7, […]

Python - лучший язык программирования в мире.