Tag: unicode

Python unicode Decode Error SUDs

ОК, поэтому у меня есть # -*- coding: utf-8 -*- в верхней части моего скрипта, и он работал для того, чтобы извлекать данные из базы данных с забавными символами (Ñ, Õ, é, -, -, , …) в нем и хранить эти данные в переменных … но я столкнулся с другими проблемами, см., Что я извлекаю […]

strip () и strip (string.whitespace) дают разные результаты, несмотря на документацию, предполагающую, что они должны быть одинаковыми

У меня строка Unicode с некоторыми неразрывными пробелами в начале и конце. Я получаю разные результаты при использовании strip() vs. strip(string.whitespace) . >>> import string >>> s5 = u'\xa0\xa0hello\xa0\xa0' >>> print s5.strip() hello >>> print s5.strip(string.whitespace) hello Документация для strip() говорит: «Если опущено или None , аргумент chars умолчанию удаляет пробелы». В документации для string.whitespace […]

Работа с ключами unicode в словаре python

Я изучаю API Twitter с помощью Python 2.7.x. Я сохранил ряд случайных твитов, и я пытаюсь их обработать. Каждый твит преобразуется в словарь с json.loads, и все словари являются частью списка. Учитывая один твит, я хочу иметь возможность извлекать определенные поля из словаря. Клавиши – это все строки в Юникоде. Если я перебираю ключи в […]

Как заставить PyCharm отображать данные Unicode в консоли?

Я переключился на PyCharm и получил взрыв, используя его. Я кодирую проекты, которые используют языки, отличные от английского (т.е. иврит и арабский), и нужно время от времени отлаживать кодировки. По какой-то причине PyCharm не отображает символы Unicode в консоли отладки. Я установил кодировку IDE в UTF-8, но это не помогло. Есть идеи?

Фиксация ошибочных строк Unicode

Неверная строка unicode – это код, в который случайно закодированы байты. Например: Текст: שלום , Windows-1255-encoded: \x99\x8c\x85\x8d , Unicode: u'\u05e9\u05dc\u05d5\u05dd' , Faulty Unicode: u'\x99\x8c\x85\x8d' Я иногда сталкиваюсь с такими строками при анализе тегов ID3 ​​в файлах MP3. Как я могу исправить эти строки? (например, конвертировать u'\x99\x8c\x85\x8d' в u'\u05e9\u05dc\u05d5\u05dd' )

расположение памяти в строках Unicode

Я знаю, кто-то объясняет, почему, когда я создаю равные строки Unicode в Python 2.7, они не указывают на одно и то же место в памяти. Как и в «обычных» строках >>> a1 = 'a' >>> a2 = 'a' >>> a1 is a2 True хорошо, что я ожидал, но >>> ua1 = u'a' >>> ua2 = […]

Python: UnicodeDecodeError: кодек ascii не может декодировать байт 0xef в позиции 0: порядковый номер не в диапазоне (128)

У меня в настоящее время проблема с моим кодом python 3. replace_line('Products.txt', line, tenminus_str) Я пытаюсь превратить строку в utf-8, но когда я пытаюсь сделать это, как и с другими, я получаю такие ошибки, как отсутствие атрибутов, и когда я пытаюсь добавить, например … .decode("utf8") … до конца, я все еще получаю ошибки, что использует […]

Идентификация нормализации: почему микро-знак преобразован в греческую букву mu?

Я просто наткнулся на следующую странную ситуацию: >>> class Test: µ = 'foo' >>> Test.µ 'foo' >>> getattr(Test, 'µ') Traceback (most recent call last): File "<pyshell#4>", line 1, in <module> getattr(Test, 'µ') AttributeError: type object 'Test' has no attribute 'µ' >>> 'µ'.encode(), dir(Test)[-1].encode() (b'\xc2\xb5', b'\xce\xbc') Введенный мной символ всегда является знаком μ на клавиатуре, но […]

Как найти коды Unicode, для которых шрифт имеет глифы, в системе на базе Debian?

С языка сценариев (например, Python или Ruby) в системе на основе Debian я бы хотел найти один из следующих: Все кодовые страницы Unicode, которые имеют определенный шрифт, имеют глифы для Все шрифты, которые имеют глифы для определенного кода Unicode (Очевидно, что 1 или 2 могут быть получены из другого, поэтому все, что проще, было бы […]

Запросы URLDecoding

Я пытаюсь получить исходный url от requests . Вот что я имею до сих пор: res = requests.get(…) url = urllib.unquote(res.url).decode('utf8') Затем я получаю сообщение об ошибке: UnicodeEncodeError: 'ascii' codec can't encode characters in position 60-61: ordinal not in range(128) Первоначальный url, который я запросил, это: https://www.microsoft.com/de-at/store/movies/american-pie-pr\xc3\xa4sentiert-nackte-tatsachen/8d6kgwzl63ql И вот что происходит, когда я пытаюсь напечатать: […]

Python - лучший язык программирования в мире.