Tag: unicode

Почему unicodedata не распознает определенные символы?

В Python 2, по крайней мере, unicodedata.name() не распознает определенные символы. ActivePython 2.7.0.2 (ActiveState Software Inc.) based on Python 2.7 (r27:82500, Aug 23 2010, 17:17:51) [MSC v.1500 64 bit (AMD64)] on win 32 Type "help", "copyright", "credits" or "license" for more information. >>> from unicodedata import name >>> print(u'\n') >>> name(u'\n') Traceback (most recent call […]

Как определить длину байта строки, кодированной utf-8, в Python?

Я работаю с загрузкой Amazon S3, и у меня возникают проблемы с длинными именами клавиш. S3 ограничивает длину ключа байтами, а не символами. Из документов: Имя ключа представляет собой последовательность символов Юникода, кодировка UTF-8 которой составляет не более 1024 байтов. Я также пытаюсь встроить метаданные в имя файла, поэтому мне нужно уметь вычислять текущую длину […]

Как работать с unicode в Python

Я пытаюсь очистить весь HTML из строки, поэтому конечный вывод – текстовый файл. У меня есть некоторые исследования по различным «конвертерам», и я начинаю склоняться к созданию своего собственного словаря для сущностей и символов и выполнения замены в строке. Я рассматриваю это, потому что хочу автоматизировать процесс, и есть много изменчивости в качестве базового html. […]

Tokenizing unicode с помощью nltk

У меня есть текстовые файлы, которые используют кодировку utf-8, которые содержат символы, такие как «ö», «ü» и т. Д. Я бы хотел разобрать текстовую форму этих файлов, но я не могу заставить токенизатор работать правильно. Если я использую стандартный токенизатор nltk: f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk' text = f.read() f.close […]

Почему имена POST с Unicode отправляются правильно при использовании multipart / form-data?

Я хочу отправить запрос POST с прикрепленным файлом, хотя некоторые имена полей имеют в них символы Unicode. Но серверы они не получили правильно, как показано ниже: >>> # normal, without unicode >>> resp = requests.post('http://httpbin.org/post', data={'snowman': 'hello'}, files={('kitten.jpg', open('kitten.jpg', 'rb'))}).json()['form'] >>> resp {u'snowman': u'hello'} >>> >>> # with unicode, see that the name has become […]

Красивые проблемы с супом и юникодом

Я использую BeautifulSoup для анализа некоторых веб-страниц. Иногда я сталкиваюсь с ошибкой «unicode hell», например: Глядя на источник этой статьи на TheAtlantic.com [ http://www.theatlantic.com/education/archive/2013/10/why-are-hundreds-of-harvard-students-studying-ancient-chinese-philosophy/ 280356 / ] Мы видим это в свойствах og: description meta: <meta property="og:description" content="The professor who teaches&nbsp;Classical Chinese Ethical and Political Theory claims, &quot;This course will change your life.&quot;" /> Когда […]

Как преобразовать символы Unicode в float в Python?

Я анализирую веб-страницу, которая имеет Unicode-представления фракций. Я хотел бы иметь возможность напрямую перенести эти строки и преобразовать их в float. Например: «⅕» станет 0,2 Любые предложения о том, как это сделать в Python?

Python декодирует строку «\ u041b»

У меня строка unicode, я уверен, что это UTF-8, но я не могу ее декодировать. Строка '\u041b\u0435\u0433\u043a\u043e\u0432\u044b\u0435' . Как его декодировать?

Python 3 UnicodeDecodeError: кодек 'charmap' не может декодировать байт 0x9d

Я хочу сделать поисковую систему, и я следую учебному курсу в какой-то сети. Я хочу проверить parse html from bs4 import BeautifulSoup def parse_html(filename): """Extract the Author, Title and Text from a HTML file which was produced by pdftotext with the option -htmlmeta.""" with open(filename) as infile: html = BeautifulSoup(infile, "html.parser", from_encoding='utf-8') d = {'text': […]

Фильтрация определенных байтов в python

Я получаю эту ошибку в моей программе python: ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters Этот вопрос, случайный текст из / dev / random, поднимающий ошибку в lxml: все строки должны быть совместимы с XML: Unicode или ASCII, не NULL байты , объясняет проблему. Решение заключалось […]

Python - лучший язык программирования в мире.