Tag: unicode

Регулярные выражения и Unicode в Python: разница между sub и findall

У меня возникают трудности с поиском ошибки в моем скрипте Python (2.7). Я получаю разницу с использованием sub и findall в распознавании специальных символов. Вот код: >>> re.sub(ur"[^-' ().,\w]+", '' , u'Castañeda', re.UNICODE) u'Castaeda' >>> re.findall(ur"[^-' ().,\w]+", u'Castañeda', re.UNICODE) [] Когда я использую findall, он правильно видит – как алфавитный символ, но когда я использую […]

Как преобразовать путь в путь Mac OS X, нормальную форму почти-NFD?

Mac обычно работает с файловой системой HFS +, которая нормализует пути. То есть, если вы сохраните файл с акцентом é в нем ( u'\xe9' ), например, а затем выполните os.listdir вы увидите, что имя файла преобразовано в u'e\u0301' . Это нормальная нормализация Unicode NFD, unicodedata может обрабатывать модуль unicodedata Python . К сожалению, HFS + […]

SQLAlchemy и UnicodeDecodeError

Я получаю UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128) когда я передаю текст из базы данных MySQL, к которой я обращаюсь с помощью SQLAlchemy, к этой функции: re.compile(ur"<([^>]+)>", flags=re.UNICODE).sub(u" ", s) Кодировка базы данных – это utf-8, и я даже передаю кодировку функции create_engine SQLAlchemy. Изменить: Вот как […]

Строки Unicode Python и интерактивный интерпретатор Python

Я пытаюсь понять, как python 2.5 имеет дело с строками unicode. Хотя сейчас я думаю, что у меня есть хорошее представление о том, как я должен обращаться с ними в коде, я не совсем понимаю, что происходит за кулисами, особенно когда вы вводите строки в командной строке интерпретатора. Таким образом, python pre 3.0 имеет два […]

Как отменить декомпозицию Unicode с помощью Python?

Используя Python 2.5, у меня есть некоторый текст, хранящийся в объекте unicode: Dinis e Isabel, uma difı'cil relac¸aoo conjugal e polı'tica Это, похоже, разложит Unicode . Есть ли общий способ в Python, чтобы отменить разложение, поэтому я получаю: Dinis e Isabel, uma difícil relação conjugal e política

Соответствие букв на любом языке

Как я могу сопоставить букву с любого языка, используя регулярное выражение в python 3? re.match([a-zA-Z]) будет соответствовать символам английского языка, но я хочу, чтобы все языки поддерживались одновременно. Я не хочу сопоставлять ' in can't или «подчеркивание» или любой другой тип форматирования. Я хочу, чтобы мое регулярное выражение соответствовало: c , a , n , […]

Преобразование формата unicode в формат datetime в формате strptime

Я пытаюсь преобразовать объект unicode в объект datetime. Я прочитал документацию: http://docs.python.org/2/library/time.html#time.strptime и попробовал datetime.strptime(date_posted, '%Y-%m-%dT%H:%M:%SZ') но я получаю сообщение об ошибке ValueError: time data '2014-01-15T01:35:30.314Z' does not match format '%Y-%m-%dT%H:%M:%SZ' Любая обратная связь о том, что является правильным форматом? Я ценю время и знания.

Проверьте, существует ли JSON (свойство объекта) и печатается в виде декодирования в формате Unicode

Я получаю следующие данные из API Instagram , я пытаюсь получить property text из caption используя следующий код: data = simplejson.load(info) # info is retrieved using the urllib2 for post in data['data']: if post['caption'] is not "null": try: post['caption']['text'] except NameError: post['caption']['text'] = 0 if post['caption']['text'] is not 0: print post['caption']['text'] Но я продолжаю получать […]

Строка Юникода Python, хранящаяся как «\ u84b8 \ u6c7d \ u5730» в файле, как ее преобразовать в Unicode?

Некоторые данные Unicode хранятся в файле как «\ u84b8 \ u6c7d \ u5730» без какой-либо кодировки. Есть ли способ скрывать их в Python?

Python: данные против текста?

В презентации Guido van Rossum о Python 3000 упоминается несколько вещей, чтобы сделать переход от Python 2 к Python 3 более легким. Он специально говорит об обработке текста с момента перехода на Unicode, поскольку единственным представлением строк в Python 3 является одно из основных изменений. Что касается обработки текста, один слайд (# 14) говорит: В […]

Python - лучший язык программирования в мире.