Сегодня в рамках марафона решил рассмотреть пару вопросов, которые мне приходится объяснять почти каждому кто стучит мне в аську.
Первый вопрос это наличие и формирование файла robots.txt. Что же это за такой вредный файл о котором многие не знают?
В данном файле вы указываете правила по которым будут определенные поисковые боты гулять по вашему личному блогу и индексировать контент.
Данный файл ложится в корневую директорию вашего сайта. Приведу пример своего файла и рассмотрю его структуру.
User-agent:Yandex
Crawl-delay:5
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/uploads
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /comments
Disallow: /category/*/*
Disallow: */comments
Disallow: /feed
Disallow: */feed
Disallow: /trackback
Disallow: */trackback
Disallow: /*?
Disallow: /*?*
Disallow: /xmlrpc.php
Allow: /wp-content/uploads
Host: invite4you.ru
Sitemap: https://invite4you.ru/sitemap.xml.gz
User-agent: *
Sitemap: https://invite4you.ru/sitemap.xml.gz
User-agent: — это название поискового бота, это может быть как бот Яндекса, Гугла и других поисковых систем. Также у многих поисковых систем, которые ориентируются на международные стандарты существуют разные боты. К примеру
Googlebot — главный бот, отвечающий за индексацию.
Googlebot-Image — Бот индексации картинок.
Также читал информацию, что Яндекс тоже рвется к мировым стандартам и скоро у Яшки будет разделение ботов, что конечно не может не радовать.
User-agent: * — это правила для всех неописанных ботов, что к примеру в данном файле у меня прописаны правила для бота Яндекса, а остальные боты будут пользоваться именно этими правилами.
Disallow — это то, что вы запрещаете к индексации т.е. всякого рода системные файлы а также возможные дубликаты контента. По умолчанию когда вы создаете пост в WordPress, то он ведь появляется не только по адресу поста, а также в архиве, в категориях, в тегах и еще может где нить, в зависимости от настроек и плагинов. Так что, эти параметром вы должны закрыть все возможные дубли.
Allow — то, что мы принудительно указываем к индексации. В моем случае, это весь медийный контент моего сайта.
Host: — прописывается уже после попадания вашего сайта в поисковую систему, так как тут вы должны указать правильно адрес вашего сайта с www, либо без него и это вы сможете увидеть только после попадания его в индекс уже в поисковой системе.
Sitemap: — адрес к карте сайта, либо как у меня к сжатой, либо можно к обычной xml. Тут дело вкуса, кому что нравится.
Данный файл меня устраивает полностью, но его можно также еще многим дополнить, тут дело вкуса каждого, а также дело дополнительных настроек и плагинов. К примеру тут также можно закрыть теги и все что пожелаете.
И когда вы ко мне обращаетесь за скриптом обраток для прогона, я вам даю строку Disallow: /catalog/ и вам нужно просто ее добавить к каждому из User-agent. Надеюсь тут стало все понятно.
Другой вопрос. Как получить ключ к антикапче, активированный через аллсабмиттер в демо версии. Для начала вы скачиваете демо версию программы. Устанавливаете и запускаете. Далее
Нажимаем не пункт меню, у нас откроется новое окно. В нем слева нажимаем Настройки
У нас откроются настройки и мы увидим ссылку на антигейт.
Нажимаем на ссылку и нас перекидывает на сайт разработчиков программы.
После ввода логина и пароля вас перекинет на страницу регистрации в антигейте и там вам останется ввести только поле с паролем.
После вы попадете в панель управления вашим аккаунтом и там вы должны нажать
и после вы уже увидите нужный ключ
Именно его вам и надо будет предоставить мне для прогона с вашим ключем, после прогона вы можете его сменить и ничего страшного в этом не будет. Надеюсь теперь я сокращу пару часов однообразных объяснений в аське. Всем удачи в марафоне и также жду дальше ваши проекты для прогона. Сегодня прогоны не делал, так как был занят весь день именно объяснением данного поста всем постучавшим.
Ну и немного юмора. Надеюсь не с кем такого не случалось.