Удалить символы с подчеркнутыми символами – Python

Я получаю некоторые данные с веб-страницы и читаю их вот так в python

origional_doc = urllib2.urlopen(url).read() 

Иногда этот url имеет символы, такие как é and ä and ect. , как я мог удалить эти символы из строки, прямо сейчас это то, что я пытаюсь,

  • Pandas groupby: Как получить объединение строк
  • lambda vs. operator.attrgetter ('xxx') в качестве функции сортировки в Python
  • Как обрабатывать сигнал в python на машине Windows
  • Получить текст из всплывающего окна
  • Логарифмическая доходность в рамке данных pandas
  • Асинхронные HTTP-вызовы в Python
  •  import unicodedata origional_doc = ''.join((c for c in unicodedata.normalize('NFD', origional_doc) if unicodedata.category(c) != 'Mn')) 

    Но я получаю сообщение об ошибке

     TypeError: must be unicode, not str 

  • Python упорядочивает нерегулярные временные ряды с линейной интерполяцией
  • Какой способ Python вы бы предложили проверить записи базы данных whois?
  • cProfile сохранение данных в файл вызывает перебои символов
  • Оператор обновления Python MYSQL
  • Как развернуть функцию в python с ее зависимостями?
  • В чем разница между функцией, несвязанным методом и связанным методом?
  • 2 Solutions collect form web for “Удалить символы с подчеркнутыми символами – Python”

    Это должно сработать. Он уничтожит все символы, которые не являются ascii.

      original_doc = (original_doc.decode('unicode_escape').encode('ascii','ignore')) 

    используя re вы можете ввести все символы, которые находятся в определенном шестнадцатеричном диапазоне ascii.

     >>> re.sub('[\x80-\xFF]','','é and ä and ect') ' and and ect' 

    Вы также можете сделать обратное и суб-все, что НЕ в базовых 128 символах:

     >>> re.sub('[^\x00-\x7F]','','é and ä and ect') ' and and ect' 
    Python - лучший язык программирования в мире.