Законы Зипфа

3 декабря, 2013

Законы Зипфа

Filed under: БЛОГ — wildmale @ 14:22

В 1949 году американским лингвистом Джорджем Зипфом были описаны закономерности распределения слов в написанном тексте на любом из современных языков. Эти законы не имеют математических доказательств и основаны только на статистическом анализе, поэтому считаются эмпирическими. Не смотря на это, они работают и не вызывают никаких сомнений.

Определение законов Зипфа

Необходимо взять очень большой набор информации и подсчитать, сколько вхождений каждого слова в данном тексте. Затем составляется список слов и распределяется от самого большего числа вхождений к самому меньшему.

Частота – это количество вхождений каждого слова в данном файле.
Ранг – номер, под которым находится слово в упорядоченном списке по убыванию количества его вхождений.
Слова, которые входят в данную информацию с равномерной частотой, наделены одинаковым рангом.

Первый закон Зипфа гласит: «ранг-частота»

Выбирая наугад случайную позицию слова в тексте, определяем, что вероятность распределения его позиции именно здесь, обратно пропорциональна частоте его вхождения. Эта вероятность определяется, как отношение частоты слова к общему количеству слов. На основании этого, первый закон Зипфа гласит: вероятность, с которой обнаруживается любое слово, умноженное на ранг — есть величина постоянная.

Любая информация, которая пишется человеком, работает по этому, статистическому закону. Следует заметить, что закон верен именно статистически, а не математически, поскольку в небольших параграфах всегда велика возможность отклонения, но чем больше текст, тем меньше эти отклонения.

Второй закон Зипфа: «количество-частота»

Совершенно разные в одном большом тексте вполне могут иметь равное количество вхождений. Если рассматривать этот вариант на графике, где ось икс будет изображать частоту слов, а ось игрек — количество, то мы увидим, что любой написанный файл будет иметь одинаковые графики. Логарифмический масштаб этого графика представляет собой почти прямую линию. Линейный масштаб графика представлен в виде гиперболы, которая одинакова для всех текстов, написанных на одном языке.

Неожиданные следствия

Мы уже говорили, что кривая распределения «количество-частота» представлена в виде гиперболы. Ее ветви близки к прямой линии, а участок перегиба ярко выражен. Именно здесь существует небольшая зона, где располагаются самые значимые слова, которые называются ключевыми. По законам Зипфа распределяются они в естественных текстах, которые написаны людьми, что приводит к возможности благодаря этим законам распознать «нечеловеческие» и «неестественные» тексты.

Для чего это нужно?

Законы Зипфа помогают нам распознать текст, который написан человеком от тех, которые создаются скриптами для заполнения дорвея. В этом случае совсем не обязательно знать язык, на котором написан данный текст, достаточно разбираться в морфологии. Также эти законы объясняют нам, что оптимальный процент ключевых слов в тексте, есть несостоятельный миф. Настоящая зависимость вхождения ключевых слов гораздо сложнее, чем банальное процентное содержание какого-либо из них. Поэтому не стоит останавливаться на количестве нужных вам слов отдельно от подсчета количества их же остальных, встречающихся в нем.

htmlka Справочник по html

3 декабря, 2013

Законы Зипфа

Комментариев нет