Перейти на главную страницу

Главное меню

Перечень разделов новостей..


 

Друзья

Наши друзья

» sapeua.com

 

Последние новости RSS-лента

Текстовое ранжирование в Яндексе, подход TF*IDF. А не изменилась ли формула?

Текстовое содержание документа сайта – один из четырех наиболее весомых факторов, влияющих на ранжирование в поисковых системах, в частности, в Яндексе. Поисковые системы при расчете текстовой релевантности документа запросу обычно используют TF*IDF подход, основанный на оценке важности употребления слова в контексте документа. Произведение TF*IDF определяет уровень соответствия документа запросу, где множитель TF представляет собой прямую частоту вхождения термина в документ, а IDF – обратную частоту документа относительно запроса. В классическом случае для термина t[i] частоты TF и IDF определяются следующим образом.
расчет tf в подходе tf*idf
Где ni количество вхождений термина t[i] в документ, а знаменатель представляет собой общую длину документа. Т.е. в классическом случае TF – плотность вхождения термина в документ.
расчет idf в подходе tf*idf
Где |D| – общее количество документов (в базе поисковой системы), а в знаменателе представлено число документов (в базе поисковой системы), содержащих термин t[i]. Таким образом, чем реже употребляется слово в базе поисковой системы, тем выше у него обратная частота IDF.

Современные поисковые системы обычно используют различные модификации классической формулы. В частности Яндекс, как было получено посредством методики Миныча, в 2006-2007 годах в качестве прямой и обратной частоты вхождения термина в документ использовал
подходе tf*idf в яндексе
Где ni – количество вхождений термина t[i] в документ, nmax – количество вхождений самого частотного термина в пределах документа, TotalLemms – общее количество терминов в коллекции, т.е. длина поисковой базы Яндекса в словах, CF[i] – количество вхождений термина t[i] в поисковую базу, а величину p[i] часто называли весом слова. Если немного пораскинуть мозгами, то можно заметить, что в формуле прямой частоты рулит встречаемость термина в документе, т.е. чем чаще мы употребляем продвигаемый запрос, тем выше текстовая релевантность. Максимальная текстовая релевантность относительно термина t[i] достигается тогда, когда количество вхождений запроса t[i] сравнивается с самым частотным ni= nmax. Анализ формулы также показывает, что плотность вхождения ключевых слов в содержание документа никоим образом не влияет на ранжирование.


В период использования этой формулы Яндексом в подходе TF*IDF для текстового ранжирования ресурс текстовой релевантности был практически неограничен. Достаточно было написать огромный “естественный” текст на тему ключевых слов,  увеличив, таким образом, автоматически количество вхождений продвигаемых запросов естественным образом, и позиции по ним сразу шли вверх.

В последнее время по некоторым весьма конкурентным запросам стали заметны следующие тенденции в текстовом содержании документов, находящихся на первых строках выдачи:

1)  Стали появляться документы с огромными псевдо-естественными текстами и высокой плотностью содержания в них продвигаемых запросов (некоторые даже настолько увлекаются сочинением виртуозных текстов, которые невозможно читать, что попадают под санкции Яндекса);
2) Кроме того, стали хорошо себя чувствовать и небольшие тексты с высокой плотностью содержания ключевых запросов.

Эти тенденции наталкивают на мысли, а не поменялась ли у Яндекса формула для расчета прямой частоты TF? Может быть опять рулит старая добрая плотность ключевых запросов? Давайте проанализируем формулу TF из доклада Яндекса, представленного на РОМИПе 2006:
tf в яндексе

Где ni – количество упоминаний термина t[i] в документе, DocLength – длина документа в словах (включая тег Title), k1, k2 – некоторые постоянные числовые коэффициенты. Анализ формулы показывает:

1) Чем выше плотность вхождения термина в документ, при фиксированной длине документа, тем больше TF и выше текстовая релевантность документа этому запросу.
2) Чем больше длина документа, при фиксированной плотности вхождения запроса в документ, тем выше TF, а, следовательно, и текстовая релевантность.

Сделанные из анализа выводы неплохо согласуются с замеченными тенденциями в текстовом содержании документов, находящихся среди лидеров в поисковой выдаче Яндекса по конкурентным запросам, неправда ли? Если предположить, что в Яндексе при расчете текстовой релевантности на основании подхода TF*IDF, действительно, используется подобная формула для TF, то следующие рекомендации помогут увеличить текстовую релевантность вашей страницы продвигаемому запросу.

  • “Золотое” правило продвижения: один запрос – одна страница становится еще более актуальным в такой модели для TF, поэтому старайтесь еще более жестко ему следовать.
  • Пишите объемные “естественные” тексты, насыщенные ключевыми словами.
  • Несмотря на то что при фиксированной длине документа рулит плотность продвигаемых запросов, не стоит делать ее заоблачной. Вероятнее всего Яндекс имеет в своем распоряжении “механизм” отлова переоптимизированных страниц, либо ему в этом помогут ваши конкуренты. Плотности до 10% будет вполне достаточно, чтобы превзойти конкурентов в текстовой составляющей и не попасть под фильтр. Кроме того формула для прямой частоты TF устроена так, что, начиная с некоторого значения, увеличение плотности практически не дает вклад в текстовую релевантность.



 (голосов: 0)

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь. Мы рекомендуем Вам зарегистрироваться либо зайти на сайт под своим именем.
Теги:
Просмотров 68355

аватар #1 Написал: Anhel, 29 мая 2010 05:22

Группа: Гости | Регистрация: --


"Чем больше длина документа, при фиксированной плотности вхождения запроса в документ, тем выше TF, а, следовательно, и текстовая релевантность."

ЧТО ЗА БРЕДЯТИНА ? наоборот все. посмотри формулу епта


ICQ: --
[цитировать]


добавить Добавление комментария











Авторизация

Войти на сайт..

Ваш паспорт: пройдите авторизацию

Авторизация

Пароль есть, но Вы его забыли?
Впервые на сайте? Зарегистрируйтесь!

 

Календарь

«    Май 2012    »
ПнВтСрЧтПтСбВс
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
 

 

Популярные

Самые рейтинговые..


 

Архив новостей

Тут тоже много интересного..

Август 2010 (1)
Июль 2010 (1)
Июнь 2010 (1)
Май 2010 (68)
Апрель 2010 (5)
Январь 2010 (2)

 

Статистика

Немного инфы..



Счётчик

Счётчик

Счётчик

 
Размещение рекламы | Контакты
Публикуемые текстовые материалы предоставлены здесь только для ознакомления. Все права на них принадлежат их владельцам.
Copyright © 2009-2010. Sapeua.com - система заработка, библиотека заработка. Монетизация, заработок на сайте.