как получить содержимое javascript в python

У меня есть веб-сайт, на котором есть данные, которые я хочу получить в javascript. Как его получить?

Код выглядит так: – http://pastebin.com/zhdWT5HM

  • Python + BeautifulSoup: как получить оболочку из HTML на основе текста?
  • Сценарий Python для перевода через google translate
  • BeautifulSoup ведет себя по-разному на машине Amazon EC2
  • Устранение неполадок AttributeError: объект ResultSet не имеет атрибута 'findAll'
  • Разбор HTML в python - lxml или BeautifulSoup? Какая из них лучше для каких целей?
  • BeautifulSoup4 stripped_strings дает мне байтовые объекты?
  • Я хочу получить из строки «var playersData». Я хочу получить эту вещь: – «playerId»: «showPlayer» (без кавычек, очевидно). Как мне это сделать?

    Я попробовал прекрасный суп. Мой текущий скрипт выглядит так

    q = requests.get('websitelink') soup = BeautifulSoup(q.text) searching = soup.findAll('script',{'type':'text/javascript'}) for playerIdin searching: x = playerId.find_all('var playersData', limit=1) print x 

    Я получаю [] в качестве вывода. Кажется, я не могу понять свою проблему. Пожалуйста, помогите парням и парням 🙂

  • Извлечение текста между тегами ссылок в python с помощью BeautifulSoup
  • клон-элемент с beautifulsoup
  • Заменить SRC всех элементов IMG с помощью Parser
  • Почему BeautifulSoup не находит конкретный класс таблицы?
  • Какой самый простой способ избежать HTML в Python?
  • BeautifulSoup: просто входите в тег, независимо от того, сколько охватывающих тегов есть
  • One Solution collect form web for “как получить содержимое javascript в python”

    BeautifulSoup поможет только найти желаемый тег script . Затем у вас будет несколько вариантов: вы можете извлечь нужные данные с помощью парсера javascript, например slimit , или использовать регулярные выражения:

     import re from bs4 import BeautifulSoup page = """ <script type="text/javascript"> var logged = true; var video_id = 59374; var item_type = 'official'; var debug = false; var baseUrl = 'http://www.example.com'; var base_url = 'http://www.example.com/'; var assetsBaseUrl = 'http://www.example.com/assets'; var apiBaseUrl = 'http://www.example.com/common'; var playersData = [{"playerId":"showsPlayer","userId":true,"solution":"flash","playlist":[{"itemId":"5090","itemAK":"Movie"}]]; </script><script type="text/javascript" > """ soup = BeautifulSoup(page) pattern = re.compile(r'"playerId":"(.*?)"', re.MULTILINE | re.DOTALL) script = soup.find("script", text=pattern) print pattern.search(script.text).group(1) 

    Печать:

     showsPlayer 
    Python - лучший язык программирования в мире.