Многоязычный Яндекс сентября 5, 2007, 12:23
На сегодняшний день в индексной базе Яндекса - 2 976 732 307 веб-страницы.
Что интересно. В базе множество сайтов не русскоязычных (а также не украинских и не белорусских).
К примеру, такой расклад по некоторым зонам:
Доменная зона Франции (.FR) - страниц — 16 982, сайтов — не менее 1 702
rhost="fr*"
Доменная зона Германии (.DE) - страниц — 3 571 911, сайтов — не менее 7 838
rhost="de*"
Доменная зона Китая (.CN) - страниц — 251 430, сайтов — не менее 2 504
rhost="cn*"
Далее приводить не стану, понятно что не русскоязычных страниц в индексе хватает.
Но вот какой вопрос. Зачем бот-индексатор всё это кушает?
Вероятно он переходит по ссылкам с наших сайтов на эти сайты и индексирует их. Зачем же он это делает? Можно предположить что бот этот очень любопытный и стремится к изучению языков, но ведь собрать то он собрал все эти иноземные паги, но язык то так и не понимает. И ведь что то в выдаче по запросам есть, но кэш пустой (посмотрите кэш любой страницы ну хоть на китайском), однако в кэше есть русский, украинский и белорусский (что неудивительно).
А теперь попробуйте добавить китайскую пагу в AddURL.
Что, не кушает? ![]()


Комментарии»
во мля... как-то я на серчах поднимал тему "турки атакуют", связанную с популярностью в статистике лайва турецкого запроса... а теперяче мона поднимать тему "НАШЕСТВИЕ КИТАЙЦЕВ на Яндекс"
есть предложение вывести Яндекс на чистую воду:
нужно пробежаться по доменным зонам и даже с 50% погрешностью(может на них русские доры сидят
) вычислить количество фейкового индекса...
на момент написания он говорит: "Поиск по 2 976 732 307 веб-страницам"
а по факту???
мля...... тему запалил... на днях ждем отключения оператора "RHOST"
А чего нам этот RHOST то дает толком, кроме того что уличили Яндекс в иноземныз примесях в индексе?
Интересно, но по сути бесполезно.
Не понятно зачем бот урлы в этих зонах собирает.
Вероятно, доля иноязычных запросов в Яндексе, хоть и составляет небольшие проценты, но достаточно велика для того, чтобы влиять на качество поиска. Настолько велика, что для улучшения этого качества было принято решение добавить в выдачу иноязычные сайты. Ведь, согласитесь, вполне логично видеть сайт nokia.com по запросу nokia или panasonic.com по соответствующему запросу. Пусть даже на этих сайтах и нет ни единой кириллической буквы.
Имхо, яндексу до содержания этих страниц вообще до фени. И ранжирует исключительно за счет ссылочного с "наших" ресурсов, которые понимает.
Константин, но почему же тогда эти паги без кириллических букв не скармливаются через AddURL и в кэше их нет. Кстати, посмотрите как раз кэш nokia.com по запросу "nokia"))
И всё таки логичнее и достаточнее видеть именно nokia.ru, без nokia.com, имхо.
SergoZD, т.е. ваше имхо в том что Яндекс всё таки и в ссылочном иноязычные паги не учитывает?
jED, а чего с кешем nokia.com? Такой же пустой, как и у прочих подобных сайтов. А nokia.ru у меня лично идет как раз на первом месте, аккурат перед nokia.com.
По поводу вопроса мне - как он может учитывать в ссылочном ссылки с тех страниц, о содержании которых он не знает? (А все страницы с пустым кешем - именно такие), так что да, моё имхо - даже если страница в выдаче есть (как например winamp.com, nokia.com и подобные), но с пустым кешем - ссылки с них для яндекса по барабану.
Кстати подобные страницы уже давно вылезать стали, у меня есть подобные примеры для русскоязычных сайтов, но у которых индексация в robots.txt запрещена, а так же с 301 редиректом.
SergoZD, так вот я о том и говорю. На хрена Яндексу урлы забугорных сайтов, именно урлы, ибо содержания их он не знает и ссылки с них не учитываются в ссылочном. Но он же зачем то собирает их по ссылкам с наших сайтов.
Собственно и странно если юзер заходит в Яндекс.РУ и хочет найти по англоязычному запросу англоязычную пагу, он всё таки ищет по этому запросу инфо на русском, имхо.
Хотя немецкий он всё таки понимает. Пример: http://www.yandex.ru/yandsearch?text=Vormarsch
см. кэш сайтов
Чет я впутался с этим Яндексом и его прибамбасами)
В общем то, пораскинув мозг
я могу согласиться с логикой что ежели пользователь Яндекса ставит ссылку на пионир.жп, то эта страница безусловно может быть интересна всем остальным юзерам Яндекса
, но как-то всё это уж очень странно.