Tag: pandas

Как разбить данные на 3 набора (поезд, валидация и тест)?

У меня есть панда данных, и я хочу разделить его на 3 отдельных набора. Я знаю, что используя train_test_split из sklearn.cross_validation , можно разделить данные на два набора (поезд и тест). Однако я не мог найти решения о разделении данных на три набора. Желательно, чтобы я хотел иметь индексы исходных данных. Я знаю, что обходным […]

Как разбить элементы серии pandas и поместить их в формат JSON?

У меня есть объект серии pandas S, некоторые элементы являются парами имен и значений, например a-12 b-23 c-42 d-25 … некоторые просто abcd …. и так далее, мне нужно сделать это, чтобы получить это в формате Json, например: {Name:a,Value:12} {Name:b,Value:23} {Name:c,Value:42} {Name:d,Value:25} … Если только a, b, c, d, а не пары, значения – NaN. […]

Нахождение растущей тенденции в Пандах

Учитывая набор данных (временных рядов), как интерпретировать данные таким образом, чтобы они увеличивались / уменьшались, а не были постоянными, неизменными и т. Д. Year Revenue 1993 0.85 1994 0.99 1995 1.01 1996 1.12 1997 1.25 1998 1.36 1999 1.28 2000 1.44

Сортировка строк в столбце и графе печати

У меня есть dataframe, но все строки дублируются, и когда я пытаюсь распечатать график, он содержит дублированный столбец. Я пытаюсь удалить его, но потом мой график печатает неправильно. Мой csv здесь . DataFrame common_users : used_at common users pair of websites 0 2014 1364 avito.ru and e1.ru 1 2014 1364 e1.ru and avito.ru 2 2014 […]

ошибка: код в pandas числовые разрывы столбцов с ошибкой форматирования строки

Я читаю таблицу с pandas , а один из столбцов имеет даты в формате YYYYMMMDD. Он читается как числовая колонка во всех моих попытках. Я мог бы переварить его правильно (хотя и медленно) с неуклюжим кодом сначала, но тогда текущая версия икоты в некотором роде я не понимаю. Итак, это сработало: treatments['month'] = treatments['INDATUMA'] % […]

slice original df после groupby (). nlargest (x) операция

Учитывая проблемы с groupby() и nlargest() как описано здесь и здесь . Я пытаюсь решить проблемы. Примечание: для простоты я использовал nlargest(1) , однако это могло быть любое количество выборов. {'city1': {0: 'Chicago', 1: 'Chicago', 2: 'Chicago', 3: 'Chicago', 4: 'Miami', 5: 'Houston', 6: 'Austin'}, 'city2': {0: 'Toronto', 1: 'Detroit', 2: 'St.Louis', 3: 'Miami', 4: […]

Группируйте по часам и заговорам в Боке

Я пытаюсь получить заговор как данные запаса в Боке, как в ссылке http://bokeh.pydata.org/en/latest/docs/gallery/stocks.html 2004-01-05,00:00:00,01:00:00,Mon,20504,792 2004-01-05,01:00:00,02:00:00,Mon,16553,783 2004-01-05,02:00:00,03:00:00,Mon,18944,790 2004-01-05,03:00:00,04:00:00,Mon,17534,750 2004-01-06,00:00:00,01:00:00,Tue,17262,747 2004-01-06,01:00:00,02:00:00,Tue,19072,777 2004-01-06,02:00:00,03:00:00,Tue,18275,785 Я хочу использовать столбец 2: startTime и 5: count, и я хочу группировать по столбцу и суммировать counts в соответствующие часы. код: не дает выход import numpy as np import pandas as pd #from bokeh.layouts […]

MultiIndex / Перестановка различий между версиями Pandas

У меня есть DataFrame, используя следующий код: import pandas as pd import numpy as np index = pd.DatetimeIndex(['2017-05-04', '2017-05-05', '2017-05-08', '2017-05-09', '2017-05-10'], dtype='datetime64[ns]',name = 'date', freq='B') columns = pd.MultiIndex(levels=[['HSBA LN Equity', 'UCG IM Equity', 'ISP IM Equity'], ['LAST PRICE', 'HIGH', 'LOW']], labels=[[0, 0, 0, 1, 1, 1, 2, 2, 2], [0, 1, 2, 0, 1, […]

ValueError с Pandas – сформированные пройденные значения

Я пытаюсь использовать Pandas и PyODBC, чтобы вытащить из представления SQL Server и выгрузить содержимое в файл excel. Тем не менее, я получаю сообщение об ошибке при сбросе фрейма данных (я могу распечатать содержимое colums и dataframe): ValueError: Shape of passed values is (1, 228), indices imply (2, 228) На этом форуме есть несколько других […]

Создание вспомогательных таблиц в листе Excel из xml с использованием дерева элементов python

<?xml version="1.0" encoding="UTF-8"?> -<Metrics> -<File name="N:/Users/Source/Callbacks.c"> -<Entity name="N:/Users/Source/CAN_Callbacks.c" type="file"> <Metric name="STTDE" value="2.205"/> <Metric name="STM28" value="27"/> <Metric name="STTDO" value="1.999"/> </Entity> -<Entity name="ApplNwmBusoff" type="function"> <Metric name="STM07" value="1"/> <Metric name="STUNV" value="1"/> <Metric name="STSUB" value="1"/> </Entity> </File> </Metrics> Это xml-код. Я хочу создать субтитры в листе Excel следующим образом: Это мой код: import os import xml.etree.ElementTree as ET import […]

Python - лучший язык программирования в мире.