Парсеры URL адресов выдачи Яндекса и Гугла под Human Emulator
Вот и настал день, который я обещал, а именно выложить 2 парсера URL выдачи поисковых систем Яндекс и Гугл, написанных на Human Emulator’е. Изначально писал их под себя, но позже решил выложить в паблик.
До этого парсил базы при помощи Allsubmitter’а, но стал он мне надоедать тем, что Гугл стал часто банить даже если ставишь задержку в 30000. Видать это задержка не между каждым запросом к поисковику, а между разными искомыми фразами. И второе это то, что запрашивает выдачу всего с 10 URL на странице, а ведь можно больше!
Функционал моих парсеров:
На одной странице выдачи выводится по 50 результатов для Яндекса и 100 для Гугла.
В парсере под Яндекс прикручена система антикапчи (ключ вводить в 8 строке). В парсере Гугла я не смог сымитировать выдачу страницы с капчей, при частых запросах меня просто банили на некоторое время. Хотя это не слишком важно, т.к. при задержке в 15 секунд между запросами парсинг проходит без бана. А если вдруг и наткнемся на бан, то произойдет задержка для бана, которая по умолчанию в скрипте равна 5 минутам.
Для Яндекса задержку необходимо устанавливать намного больше что бы не нарываться на капчу, например при задержки 140-160 секунд я попал на 3 капчи при парсинге примерно 60 страниц. Еще раз напомню что капча обходится через сервис антикапчи. Так что можно считать это не существенным, можно сделать задержку небольшой и капчи слать на антикапчу.
В каждом парсере можно устанавливать свой промежуток задержки (от и до). Список поисковых запросов необходимо вписать в текстовых документ key.txt, 1 запрос на одну строку. Еще необходимо будет вписать верный полный путь до файла xweb_human_emulator.php в 3 строке. Все результаты парсинга будут сохранены в текстовые файл result.txt.
Коротко что где и как:
СКАЧАТЬ скрипты парсинга URL выдачи Яндекса и Гугла Скачано 1797 раз
6 комментариев к записи “Парсеры URL адресов выдачи Яндекса и Гугла под Human Emulator”
Написать комментарий
Лучшие партнерки
- ConvertIT (Подписки, Псевдо и СМС)
- LimonCash (Подписки и СМС)
- JinCash (Подписки, Псевдо и СМС)
- SmsConvert v3 (Подписки, Псевдо и СМС)
- TeaserNet (Тизеры)
- TraffMonster (Clickunder, Popunder, ICQ)
- BodyClick (Тизеры, Контекст, Clickunder)
- StimulProfit (Варез, файлы)
- Bonus-File (Варез, файлы)
- BitCash (Варез, файлы)
- ZipCoin (Архивы)
- ZipPro (Архивы)
- LoadPartners (Кинопартнерка)
- DirCash (Кинопартнерка - 85%!)
Рубрики
Подписки
ТОП 10 записей
- Вывод новостей на Wordpress’е в несколько колонок - 4,571 просмотров
- Парсеры URL адресов выдачи Яндекса и Гугла под Human Emulator - 4,524 просмотров
- Скрипт ротатора для кликандера, баннеров и т.п. - 3,272 просмотров
- Парсер ключевых слов с Рамблера - 1,342 просмотров
- ZIPCoin – Партнерка по заработку на файлах (платные архивы) - 1,332 просмотров
- Entercash – новая идея от Смсконверт, прячем ссылки за СМС - 917 просмотров
- Convertit – Высокий конверт адалт трафа - 863 просмотров
- Скрипт самого простого ротатора кода - 848 просмотров
- Фильтры sape.ru для поднятия тИЦ – бесплатно - 767 просмотров
- SMSConvert v3 – Конверт любого трафа на псевдоподписках и СМС - 671 просмотров
Опрос
Последние комментарии
- AWM на Парсер ключевых слов с Рамблера
- AWM на Парсер ключевых слов с Рамблера
- AWM на Вывод новостей на Wordpress’е в несколько колонок
- AWM на Парсеры URL адресов выдачи Яндекса и Гугла под Human Emulator
- petya на Парсер ключевых слов с Рамблера
- SmeTar на Парсер ключевых слов с Рамблера
- Сергей на Парсеры URL адресов выдачи Яндекса и Гугла под Human Emulator
- tunis на Вывод новостей на Wordpress’е в несколько колонок
- AWM на Парсеры URL адресов выдачи Яндекса и Гугла под Human Emulator
- xXx на Парсеры URL адресов выдачи Яндекса и Гугла под Human Emulator




Как я разобрался в скрипте используется функция на 23 строке которая была введена в версии 4.02, а nulled версия последняя которую я видел 3.хх. Как быть? может есть варианты запуска на 3 версии Эмулятора?
Ответ
AWM Ответ:
Ноябрь 30th, 2010 в 7:11 дп
Эту строку надо просто удалить и будет работать на старых версиях.
Обновил скрипты, + добавил распознование капчи в парсере под гугл.
Ответ
Помогите пожалуйста кто знает.
Что может быть такое ??? При запуске ya.php визит 30 сек и вылетает… При этом выводит:
“Начинаем парсить 50 запросов
Парсим 1 запрос форум недвижимость
Спарсили страницу 1
Страниц больше нет
Fatal error: Maximum execution time of 30 seconds exceeded in C:\Program Files\XWeb\Human Emulator\Templates\Objects\Web\xhe_browser.php on line 44″
версия Human Emulator – 3.0.4, устанолвлен:
Denwer3_Base_PHP52_2010-03-18_a2.2.4_p5.2.12_zendoptimizer_m5.1.40_pma3.2.3
и Denwer3_MySQL5_2010-01-29_my5.1.40 (((
Ответ
AWM Ответ:
Декабрь 21st, 2010 в 8:29 дп
Максимальное время выполнения для скрипта стоит у вас 30 секунд. Надо его увеличить. И как я понял, в качестве PHP используется не встроенный в хуман интерпретатор PHP, а внешний из Денвера. В общем нужно в фале php.ini увеличить время выполнения скрипта, директива max_execution_time. Или можно в начале скрипта прописать такую строчку: set_time_limit(0);
Ответ
Весь измучился ) Помогите плиз.
В 3 строке вписать верный путь до файла xweb_human_emulator.php
т.е если я включаю из папки parser-ya/ya.php и прописываю после открытия в 3 строчке
C://Program Files/Xedant/Human Emulator/Templates/xedant_human_emulator.php
должно работать?
А у меня выдаёт:
“Начинаем парсить 1 запросов
Fatal error: Call to undefined function curl_init() in C:\Program Files\Xedant\Human Emulator\Templates\Objects\Web\xhe_browser.php on line 38
terminate”
Читал сверху что это из за неправильной ссылки. Десять раз перепроверил.
Подумал что может быть надо указывать С://parser-ya/ya.php но тогда вообще ничего не происходит. Помогите разобраться. Очень хочется по пользоваться скриптами ((
Ответ
AWM Ответ:
Февраль 8th, 2011 в 9:32 дп
Ошибка возникает из-за того что в PHP не подключен модуль CURL. Как установить его можно узнать у Гугла.
Ответ