Tag: nltk

Найти рифму с помощью NLTK в Python

У меня есть стихотворение, и я хочу, чтобы код Python просто печатал те слова, которые рифмуются друг с другом. Пока я могу: Разбейте предложения стихотворения, используя wordpunct_tokenize() Очистите слова, удалив знаки препинания Сохраните последнее слово каждого предложения стихотворения в списке Сгенерируйте другой список, используя cmudict.entries() с элементами как последние слова и их произношение. Я застрял […]

Эффективный способ создания матрицы плотности термина из pandas DataFrame

Я пытаюсь создать матрицу плотности термина из pandas dataframe, поэтому я могу оценить термины, появляющиеся в кадре данных. Я также хочу удержать «пространственный» аспект моих данных (см. Комментарий в конце сообщения для примера того, что я имею в виду). Я новичок в пандах и NLTK, поэтому я ожидаю, что моя проблема будет разрешима с помощью […]

Как избежать вычислений каждый раз, когда модуль python перезагружается

У меня есть модуль python, который использует огромную глобальную переменную словаря, в настоящее время я помещаю код вычисления в верхний раздел, каждый первый раз импорт или перезагрузка модуля занимает более одной минуты, что совершенно неприемлемо. Как я могу сохранить результат вычисления где-нибудь, чтобы следующий импорт / перезагрузка не мог его вычислить? Я пробовал cPickle, но […]

Использование моего собственного корпуса для классификации категорий в Python NLTK

Я новичок NTLK / Python и смог загрузить свой собственный корпус с помощью CategorizedPlaintextCorpusReader, но как я действительно тренирую и использую данные для классификации текста? >>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader >>> reader = CategorizedPlaintextCorpusReader('/ebs/category', r'.*\.txt', cat_pattern=r'(.*)\.txt') >>> len(reader.categories()) 234

как использовать word_tokenize в кадре данных

Недавно я начал использовать модуль nltk для анализа текста. Я застрял в одном месте. Я хочу использовать word_tokenize в dataframe, чтобы получить все слова, используемые в определенной строке блока данных. data example: text 1. This is a very good site. I will recommend it to others. 2. Can you please give me a call at […]

Извлечение определенного значения листа из структуры дерева nltk с помощью Python

У меня есть некоторые вопросы о функциях дерева NLTK. Я пытаюсь извлечь определенное слово из древовидной структуры, как показано ниже. test = Tree.parse('(ROOT(SBARQ(WHADVP(WRB How))(SQ(VBP do)(NP (PRP you))(VP(VB ask)(NP(DT a)(JJ total)(NN stranger))(PRT (RP out))(PP (IN on)(NP (DT a)(NN date)))))))') print "Input tree: ", test print test.leaves() (SBARQ (WHADVP (WRB How)) (SQ (VBP do) (NP (PRP you)) […]

Избавиться от стоп-слов и знаков препинания

Я изо всех сил пытаюсь остановить NLTK. Вот мой код. Может ли кто-нибудь сказать мне, что случилось? from nltk.corpus import stopwords def removeStopwords( palabras ): return [ word for word in palabras if word not in stopwords.words('spanish') ] palabras = ''' my text is here '''

Токизация арабских слов с использованием NLTK

Я использую NLTK word_tokenizer для разделения предложения на слова. Я хочу подделать это предложение: في_بيتنا كل شي لما تحتاجه يضيع …ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء Код, который я пишу: import re import nltk lex = u" في_بيتنا كل شي لما تحتاجه يضيع …ادور على شاحن فجأة يختفي ..لدرجة اني […]

Некоторые материалы NLP, связанные с грамматикой, помечением, вытеснением и смысловым смысловым смыслом в Python

Предыстория (TLDR, предоставленная для завершения) Поиск рекомендаций по оптимальному решению нечетного требования. Я (литературный) студент на четвертом курсе в колледже, имея только собственное руководство в программировании. Я достаточно компетентен с Python, что у меня не будет проблем с реализацией решений, которые я нахожу (большую часть времени), и развиваться на них, но из-за моей новизны я […]

NLTK не может найти исполняемый файл Java

Я использую NLTK's nltk.tag.stanford, которому нужно вызвать исполняемый файл java. Я установил JAVAHOME в C: \ Program Files \ Java \ jdk1.6.0_25, где установлен мой jdk, но при запуске программы я получаю ошибку "NLTK was unable to find the java executable! Use the config_java() or set the JAVAHOME variable" Затем я потратил 3 часа на […]

Python - лучший язык программирования в мире.