Tag: csv

Объединение CSV-файлов по столбцам

Предположим, у меня есть два CSV-файла, называемых A и B в Python . head выглядит так: headerNameA1,headerNameA2 1.12412424,1 1,1 1,1 1,1 head B выглядит так: headerNameB1,headerNameB2 1,1 1,1 1,1 1,1 Моя цель – объединить их в файл C Однако моя цель – не загружать их в оперативную память, так как они большие файлы. Результатом C […]

Запись CSV-файла с помощью умляутов, вызывающих «кодек UnicodeEncodeError: 'ascii', не может кодировать символ"

Я пытаюсь написать персонажей с двойными точками (умлауты), такими как ä, ö и Ö. Я могу записать его в файл с data.encode("utf-8") но результат b'\xc3\xa4\xc3\xa4\xc3\x96' не является приятным (UTF-8 как буквенные символы). Я хочу получить "ääÖ" как записанный в файл. Как я могу писать данные с символами умляута в CSV-файл в Python 3? import csv […]

Как объединить 2 CSV-файла с общим значением столбца, но оба файла имеют разное количество строк

file1.csv contains 2 columns: c11;c12 file2.csv contains 2 columns: c21;c22 Common column: c11, c21 Пример: f1.csv a;text_a b;text_b f;text_f x;text_x f2.csv a;path_a c;path_c d;path_d k;path_k l;path_l m:path_m Выход f1 + f2: a;text_a;path_a b;text_b,'' c;'';path_c d;'';path_d f;text_f;'' k;'';path_k l;'';path_l m;'';path_m x;text_x;'' Как реализовать это с помощью python?

Фильтрация CSV-файла в python

Я загрузил этот файл csv , который создает электронную таблицу информации о генах. Важно то, что в столбцах HLA-* есть информация о генах. Если ген слишком мал разрешения, например DQB1*03 тогда строка должна быть удалена. Если данные слишком высоки, например, DQB1*03:02:01 , то необходимо удалить тег :01 в конце. Итак, в идеале я хочу, чтобы […]

Разбор одного столбца из csv в текстовый файл с использованием python

Я, наконец, получил свой файл dbf как csv, но теперь я смущен тем, как разобрать это в текстовый файл для дальнейшего редактирования. Я читал модуль csv, но, честно говоря, моя голова начала вращаться. Так много из этого показалось мне греческим. Тем не менее, я хотел бы, чтобы код для использования модуля был, если это возможно. […]

Как я могу предотвратить csv.DictWriter () или writow () округление моих поплавков?

У меня есть словарь, который я хочу записать в файл csv, но поплавки в словаре округляются, когда я пишу их в файл. Я хочу сохранить максимальную точность. Где происходит округление и как я могу его предотвратить? Что я сделал Я последовал примеру DictWriter, и я запускаю Python 2.6.1 на Mac (10.6 – Snow Leopard). # […]

Групповые данные из файла CSV по значению поля

У меня есть файл csv, который имеет дублирующее значение в первом столбце. Я хочу собрать все значение второго столбца в списке для одного значения первого столбца column1 column2 a 54.2 s 78.5 k 89.62 a 77.2 a 65.56 Я хочу получить print a # [54.2,77.2,65.56] print s # [78.5] print k # [89.62]

Как пропустить предварительные строки заголовка с помощью csv.DictReader?

Я хочу, чтобы csv.DictReader выводил имена полей из файла. Документы говорят: «Если параметр fieldnames опущен, значения в первой строке csvfile будут использоваться как имена полей». , но в моем случае первая строка содержит заголовок и вторую строку, которая содержит имена. Я не могу применить next(reader) как в Python 3.2, пропустить строку в csv.DictReader, потому что […]

ValueError: недостаточно значений для распаковки (ожидается 11, получено 1)

Я написал сценарий для автоматизации системы, но я получаю ошибку, описанную в названии. Мой код ниже – соответствующая часть скрипта. В чем проблема? import csv import os DIR = "C:/Users/Administrator/Desktop/key_list.csv" def Customer_List(csv): customer = open(DIR) for line in customer: row = [] (row['MEM_ID'], row['MEM_SQ'], row['X_AUTH_USER'], row['X_AUTH_KEY'], row['X_STORAGE_URL'], row['ACCESSKEY'], row['ACCESSKEYID'], row['ACCESSKEY1'], row['ACCESSKEYID1'], row['ACCESSKEY2'], row['ACCESSKEYID2'])=line.split() if csv […]

Проблема с grouby на миллионы ключей на файл с чередованием в python pandas

У меня очень большой CSV-файл (десятки Gigas), содержащий веб-журналы со следующими столбцами: user_id , time_stamp , category_clicked . Я должен создать бомбардира, чтобы определить, какие категории пользователей любят и не любят. Обратите внимание, что у меня более 10 миллионов пользователей. Сначала я разрезал его в кусках и сохранил их в HDFStore именем input.h5 затем я […]

Python - лучший язык программирования в мире.