Tag: pandas

SettingWithCopy Предупреждение при использовании .loc

Упрощенная задача: Мне нужно извлечь и изменить определенные строки DataFrame на основе того, имеет ли текст внутри столбца символ «-». Тире и все, что нужно, нужно удалить, а оставшийся текст должен быть тем, что было перед «-». have: textcol 0 no dash here 1 one – here want: textcol 0 one вот код, используемый для […]

конвертировать серии, возвращенные pandas.Series.value_counts в словарь

Я пытаюсь использовать pandas.Series.value_counts для получения частоты значений в фреймворке данных, поэтому я просматриваю каждый столбец и получаю value_count, который дает мне серию: Я изо всех сил пытаюсь преобразовать эту результирующую серию в dict: groupedData = newData.groupby('class') for k, group in groupedData: dictClass[k] = {} for eachlabel in dataLabels: myobj = group[eachlabel].value_counts() for eachone in […]

Использование TimeGrouper '1M' для группировки и суммирования по столбцам – это испортить мой индекс даты pandas python

Обнаружена ошибка: фрагменты кода, размещенные как решения ниже, работают. Проблема с моими результатами была внедрена в источник данных (FEC.GOV). Я нашел его и сейчас перехожу. Спасибо за это время, терпение, помощь и т. Д. От сообщества по этой проблеме! Поскольку были предложены решения для работы с фрагментами, найденными на сайте github, я предоставляю следующую ссылку […]

Повторная дискретизация Pandas с использованием numpy percentile?

Вы когда-нибудь использовали функцию процентиля numpy при использовании функции pandas resample? Учитывая, что «данные» – это кадр данных с одним столбцом с данными 10min, я хотел бы сделать что-то вроде этого: dataDaily=data.resample('D',how=np.percentile(data['Col1'],q=90) Я получил следующую ошибку: 'numpy.float64' object is not callable Вы когда-нибудь пробовали это?

Как написать pandas dataframe для Vertica?

У меня есть некоторые данные, установленные в кадре данных pandas, который я хочу написать Vertica. Я уже создал свою таблицу, используя библиотеку vertica_python. Каков наилучший способ записи моего фрейма данных в Vertica?

Сортировка данных по длине строки

Я хочу сортировать по длине имени. Кажется, что нет key параметра для sort_values поэтому я не уверен, как это сделать. Вот тест df: import pandas as pd df = pd.DataFrame({'name': ['Steve', 'Al', 'Markus', 'Greg'], 'score': [2, 4, 2, 3]})

Переиндексируйте фреймворк с повторяющимися значениями индекса

Поэтому я импортировал и объединил 4 csv в один dataframe, называемый данными. Однако при проверке индекса dataframe: index_series = pd.Series(data.index.values) index_series.value_counts() Я вижу, что несколько записей индекса имеют 4 счета. Я хочу полностью переиндексировать DataFrame данных, поэтому каждая строка теперь имеет уникальное значение индекса. Я пытался: data.reindex(np.arange(len(data))) который дал ошибку «ValueError: не может переиндексироваться с […]

Pandas читает dataframe из csv с индексом как string, а не int

Мой файл csv выглядит следующим образом: INDEX, VAL 04016170,22 04206261,11 0420677,11 df = pd.read_csv('data.csv', index_col='INDEX') Как заставить панды читать индекс как строку, а не как целое (для сохранения первого 0 )?

Добавление баров ошибок к групповому графику в пандах

Я создаю сюжет в пандах, сначала создавая следующий DataFrame: plotData=resultData.groupby(['student_model','lo_id']).describe().nShots.unstack().reset_index() plotData['se'] = plotData['std']/np.sqrt(plotData['count']) Результирующий файл данных выглядит следующим образом: Затем я поворачиваю и рисую так: plotData.pivot(index='student_model',columns='lo_id',values='mean').plot(kind='bar') В результате: Все в порядке, но мне нужно добавить значения из столбца «se» в качестве ошибок в сюжете и не может заставить его работать. Я знаю, что могу добавить […]

Как панды решают порядок, когда есть связь?

Пандас 0.12.0 В DataFrame ниже, почему, например, он перемешивает индексы? Посмотрите на 4, индексы идут от 1,15,6,7. Каковы аргументационные панды, которые используют, чтобы решить, как заказать, я бы предположил, что индексы остаются последовательными для равной ценности. mydf=pd.DataFrame(np.random.randint(1, 6, 20),columns=["stars"]) mydf.sort(['stars'], ascending=False) stars 19 5 14 5 1 4 15 4 6 4 7 4 4 […]

Python - лучший язык программирования в мире.