Видео: игÑÐ¾Ð²Ð°Ñ Ð¸ÑÑеÑика aka 4 меÑÑÑа (Ноябрь 2024)
Чтобы получать мои новости, я часто сканирую Новости Google, в которых собраны статьи со всего мира, основанные на том, что «робот» определил в тренде. Это все о том, что в тренде. Как правило, он пропускает последние новости и полностью игнорирует важные комментарии, такие как моя колонка. Вместо этого он, похоже, предпочитает переходить на неработающие ссылки - под этим я подразумеваю Wall Street Journal , для чтения которого требуется подписка.
Сегодня показательный пример. На CES появилась свежая новость о том, что Dish Network делает ставку на покупку Clearwire. Но вместо того, чтобы ссылаться на любую из связанных историй на бесплатных и читаемых сайтах, Google решает, что главная новость должна исходить от Wall Street Journal .
В прошлом у Google была какая-то сделка, которая позволяла пользователям хотя бы прочитать основной параграф или даже всю статью, прежде чем заблокировать платный доступ. Если вы не знаете обходной прием (обсуждается ниже), это больше не применяется. Теперь вы бежите в платный доступ и все готово. Я предполагаю, что фактические подписчики преодолеют это, но мне интересно, как боты Google получают это, чтобы найти историю во-первых. Google платит? Я сомневаюсь. Так что для ботов Google должен быть какой-то бэкдор, верно?
Это фальшивка и оказывает плохую услугу пользователям Google. Google преодолевает все эти трудности, чтобы победить людей, пытающихся поиграть в систему, но позволяет Wall Street Journal снять этот трюк? По сути, это платная подписка на Wall Street Journal . Это то, что хочет Google? Google получает сокращение?
Google не может быть так просто исправить это раздражение. Это займет одну минуту - пять вершин. Это слишком много работы?
Если у компании есть платный брандмауэр, встроенный в ее сервис, Google вообще не должен искать этот сайт. Боты должны знать, что есть платный доступ, и просто избегать поиска. И да, я хотел бы объяснить, как именно боты могут искать сайт, заблокированный платным доступом. Это тайна.
Платный доступ должен быть точно таким же, как и «robots.txt», который сообщает роботу-обходчику об уходе. Но что-то подозрительно в отношениях WSJ и Google. Самый простой способ уничтожить всех ботов - это метатег в файле robots.txt, например: ,
Вместо этого WSJ специально блокирует определенные подкаталоги, но, очевидно, не все. И еще страннее, если вы выполняете поиск в новостях Google по той же статье, а не просто нажимаете на ссылку в кратком изложении, вы получаете статью с помощью другого механизма.
Я бросаю вызов более техническим читателям, чтобы выяснить, что происходит с этими двумя, изучив файл robots.txt, используемый WSJ . Публичный документ доступен здесь.
В любом случае, у сайтов есть платные каналы по финансовым причинам. Если они хотят играть в игры со своим контентом, это одно, но их следует запретить в результатах поиска так же, как Google пытается помешать людям, пытающимся играть в систему. Google запретит незадачливому блоггеру за унылое поведение. Как насчет работы с большими сайтами таким же образом?
Вы можете подписаться на Джона С. Дворжака в Твиттере @therealdvorak.
Еще Джон К. Дворжак:
Уйдите не по теме с Джоном С. Двораком.
ПОСМОТРЕТЬ ВСЕ ФОТОГРАФИИ В ГАЛЕРЕЕ