Tuesday, December 14, 2010

Стоп-символы русского языка

Стоп символы, они же стоп-слова, это отнюдь не слова, на которых все останавливаются. Их еще называют "шумовые слова", это слова, встречающиеся практически во всех текстах и не несущие специальной смысловой нагрузки. Обычно, в большинстве алгоритмов обработки текстов, эти слова удаляются первым шагом. В частности, поисковые машины, вроде яндекса или гугла, при индексировании сайтов не обращают на них внимания.
В русском языке, к стоп символам относятся предлоги, суффиксы, причастия, междометия, частицы итп. Этот список стоп-слов я составил для себя, но, может быть, он кому-то еще пригодится:


- еще него сказать
а ж нее со
без же ней совсем
более жизнь нельзя так
больше за нет такой
будет зачем ни там
будто здесь нибудь тебя
бы и никогда тем
был из ним теперь
была из-за них то
были или ничего тогда
было им но того
быть иногда ну тоже
в их о только
вам к об том
вас кажется один тот
вдруг как он три
ведь какая она тут
во какой они ты
вот когда опять у
впрочем конечно от уж
все которого перед уже
всегда которые по хорошо
всего кто под хоть
всех куда после чего
всю ли потом человек
вы лучше потому чем
г между почти через
где меня при что
говорил мне про чтоб
да много раз чтобы
даже может разве чуть
два можно с эти
для мой сам этого
до моя свое этой
другой мы свою этом
его на себе этот
ее над себя эту
ей надо сегодня я
ему наконец сейчас
если нас сказал
есть не сказала


Помимо указанных слов имеет смысл еще фильтровать цифры, отдельные буквы и знаки препинания.

P.S. Cуществуют еще, так называемые, зависимые стоп-символы. Это, например, слово Владимир в фразе Владимир Путин. Такие слова нельзя выделить в отдельный список, однако их приходится учитывать при создании алгоритмов анализа текстов. Многие из них являются частью именованных элементов и представляют особый интерес. К ним мы еще обязательно вернемся.

11 comments:

  1. Спасибо пригодится

    ReplyDelete
  2. по моему не хватает "б", учитывая что "г" и "ж" присутствуют

    ReplyDelete
  3. С программированием понятно, а с лингвистикой и структурой высказывания? Как-то уж очень упрощенно получается. Сдается мне, что упрощенно-формальный подход к тексту уничтожает смысловую составляющую. Впрочем, занимательно.
    Рост.

    ReplyDelete
  4. Интересная подборка стоп слов, но я пожалуй не соглашусь со всеми: глаголы сказать и др. - на мой взгляд стоп слова - это предлоги, местоимения, вопросительные слова

    ReplyDelete
    Replies
    1. Вообще говоря, список слов зависит от конкретного приложения. В приложении для юристов, стоп словами могут быть такие слова как: закон или статья. В данном списке приведены слова общей лексики которые часто используются в блогах и новостных статьях.

      Delete
  5. А чем плохи высокоидфные?

    ReplyDelete
  6. Подборка пожалуй пригодится для анализа.

    ReplyDelete
  7. Я бы добавил еще слово
    'значит'. Это слово сплошь и рядом употребляется как слово-зараза.

    ReplyDelete
  8. Я бы добавил еще слово
    'значит'. Это слово сплошь и рядом употребляется как слово-зараза.

    ReplyDelete
  9. Как блять слово ЕЩЕ может быть стоп-словом?
    Фантазеры идиотские!!!!

    ReplyDelete