Июнь
29

Парсеры URL адресов выдачи Яндекса и Гугла под Human Emulator

Парсеры URL адресов выдачи Яндекса и Гугла под Human EmulatorВот и настал день, который я обещал, а именно выложить 2 парсера URL выдачи поисковых систем Яндекс и Гугл, написанных на Human Emulator’е. Изначально писал их под себя, но позже решил выложить в паблик.
До этого парсил базы при помощи Allsubmitter’а, но стал он мне надоедать тем, что Гугл стал часто банить даже если ставишь задержку в 30000. Видать это задержка не между каждым запросом к поисковику, а между разными искомыми фразами. И второе это то, что запрашивает выдачу всего с 10 URL на странице, а ведь можно больше!

Функционал моих парсеров:

На одной странице выдачи выводится по 50 результатов для Яндекса и 100 для Гугла.

В парсере под Яндекс прикручена система антикапчи (ключ вводить в 8 строке). В парсере Гугла я не смог сымитировать выдачу страницы с капчей, при частых запросах меня просто банили на некоторое время. Хотя это не слишком важно, т.к. при задержке в 15 секунд между запросами парсинг проходит без бана. А если вдруг и наткнемся на бан, то произойдет задержка для бана, которая по умолчанию в скрипте равна 5 минутам.

Для Яндекса задержку необходимо устанавливать намного больше что бы не нарываться на капчу, например при задержки 140-160 секунд я попал на 3 капчи при парсинге примерно 60 страниц. Еще раз напомню что капча обходится через сервис антикапчи. Так что можно считать это не существенным, можно сделать задержку небольшой и капчи слать на антикапчу.

В каждом парсере можно устанавливать свой промежуток задержки (от и до). Список поисковых запросов необходимо вписать в текстовых документ key.txt, 1 запрос на одну строку. Еще необходимо будет вписать верный полный путь до файла xweb_human_emulator.php в 3 строке. Все результаты парсинга будут сохранены в текстовые файл result.txt.

Коротко что где и как:

  • В 3 строке вписать верный путь до файла xweb_human_emulator.php.
  • В парсере под Яндекс вписать в 8 строке ключ от антикапчи.
  • Установить необходимые задержки при необходимости в строках 5 и 6.
  • Список запросов вставить в файл key.txt (каждый запрос с новой строки).
  • Результаты сохраняются в файле result.txt.
  • СКАЧАТЬ скрипты парсинга URL выдачи Яндекса и Гугла Скачано 1797 раз






    6 комментариев к записи “Парсеры URL адресов выдачи Яндекса и Гугла под Human Emulator”

    • Алексей 23.11.2010 в 7:57 дп

      Как я разобрался в скрипте используется функция на 23 строке которая была введена в версии 4.02, а nulled версия последняя которую я видел 3.хх. Как быть? может есть варианты запуска на 3 версии Эмулятора?

      Ответ

      AWM Ответ:

      Эту строку надо просто удалить и будет работать на старых версиях.
      Обновил скрипты, + добавил распознование капчи в парсере под гугл.

      Ответ

    • xXx 10.12.2010 в 10:16 пп

      Помогите пожалуйста кто знает.
      Что может быть такое ??? При запуске ya.php визит 30 сек и вылетает… При этом выводит:

      “Начинаем парсить 50 запросов

      Парсим 1 запрос форум недвижимость
      Спарсили страницу 1
      Страниц больше нет

      Fatal error: Maximum execution time of 30 seconds exceeded in C:\Program Files\XWeb\Human Emulator\Templates\Objects\Web\xhe_browser.php on line 44″

      версия Human Emulator – 3.0.4, устанолвлен:
      Denwer3_Base_PHP52_2010-03-18_a2.2.4_p5.2.12_zendoptimizer_m5.1.40_pma3.2.3
      и Denwer3_MySQL5_2010-01-29_my5.1.40 (((

      Ответ

      AWM Ответ:

      Максимальное время выполнения для скрипта стоит у вас 30 секунд. Надо его увеличить. И как я понял, в качестве PHP используется не встроенный в хуман интерпретатор PHP, а внешний из Денвера. В общем нужно в фале php.ini увеличить время выполнения скрипта, директива max_execution_time. Или можно в начале скрипта прописать такую строчку: set_time_limit(0);

      Ответ

    • Сергей 30.12.2010 в 2:00 дп

      Весь измучился ) Помогите плиз.
      В 3 строке вписать верный путь до файла xweb_human_emulator.php
      т.е если я включаю из папки parser-ya/ya.php и прописываю после открытия в 3 строчке
      C://Program Files/Xedant/Human Emulator/Templates/xedant_human_emulator.php
      должно работать?
      А у меня выдаёт:
      “Начинаем парсить 1 запросов
      Fatal error: Call to undefined function curl_init() in C:\Program Files\Xedant\Human Emulator\Templates\Objects\Web\xhe_browser.php on line 38
      terminate”
      Читал сверху что это из за неправильной ссылки. Десять раз перепроверил.
      Подумал что может быть надо указывать С://parser-ya/ya.php но тогда вообще ничего не происходит. Помогите разобраться. Очень хочется по пользоваться скриптами ((

      Ответ

      AWM Ответ:

      Ошибка возникает из-за того что в PHP не подключен модуль CURL. Как установить его можно узнать у Гугла.

      Ответ

    Написать комментарий

    Подтвердите, что Вы не бот — выберите человечка с поднятой рукой:

    Следуйте за мной на Twitter! Следуйте за мной на Twitter!
    Будь в курсе! Подпишись на RSS! Будь в курсе! Подпишись на RSS!

    Лучшие партнерки

    Рубрики

    Подписки

    Неплохая адалт партнерская программа за подписки и СМС

    ТОП 10 записей

    Опрос

    Какие дорвеи вы создаете?

    Просмотреть результаты

    Loading ... Loading ...

    Последние комментарии

    Теги

    Архивы Баннер Варез Кликандер Ключевики Парсер Партнерка Подписки Псевдоподписки Ротатор СМС Скрипт Софт Файлы тИЦ 8coins Bonus-file CMS Convertit Entercash Google Human Emulator Liveinternet Online видео Rambler Sape Smsconvert VideoRich Wordpress Yandex Zipcoin

    На линии

    Посетители: 2 гостей

    Архив

    Запросов: 56 | за 2.005 секунд. Потребление памяти: 7.22МБ