Перед началом парсинга надо определится что нам надо. Если нам нужны гостевые ( а на их примере я и буду показывать ) тогда мы будем стараться, в первую очередь собрать как можно больше их, но в тоже времени среди них должно быть как можно меньше форумов и каталогов. Это и есть основной прикол признаков. Начинаю делать спецификацию парсинга более совершенной спам базы для хрумера. И так Let’s Go! 1) Сайт-овые: • URL-овые. • Текстовые. ( CMS-ные ) 2) Региональные: • По доменым зонам. • По языкам. 3) Время-ные: • Годовые - по дате последнего отзыва. • Годовые - пq копирайту. 4) Титловые: • Буквеные • Символьные • Словесные 5) Тематические: • White List key • Black List key 6) Url access: • Url Yes - Где уже есть ссылка. • Url No - Где уже нет ссылки. 7) Языки разметки станиц: • Html • Php • Другие если они есть! 8) Структурные: • Цепочные • Разделимые ( или простые ) Теперь описание более подробное: Сайтовые: • URL-овые Данный вид признака являет включенным в URL. Таковым может быть любое слово которое так или иначе несёт в себе смысловую часть и является кеем для какой либо страницы. На пример в данном случае это может быть такие слова: Guestbook, gbook, guest, book и так далее. Для того чтоб сделать запрос гуглу чтоб он выдал результаты только по этому признаку мы делаем вот такие запросы: inurl: Guestbook inurl: gbook inurl: guest inurl: book • Текстовые. ( CMS-ные ) К данному типу относятся стандартные “высказывания” какой либо КМС системы. Все очень просто: Ну вот на пример я дам вам дам 2 примера на 2 очень популярные CMS системы и вы сами убедитесь как легко напарсить сайты на одном и том же движке. А для этого нам нужно сделать вот такой банальный запрос: 1)”Регистрация на сайте Напомнить пароль?” – (запрос набирать с кавычками )Таки да тут будут процентов так 90 одни сайты на DataLife. 2) “Powered by WordPress” – ( опять же брать с кавычками ) Ну тут уже из запроса всё ясно что в серпе будет одни сайты на WordPress. Также работает эта система и для гестов, ну как выходит база для хрумера? Региональные: • По доменым зонам. Тут уже идёт классификация уже по зонам. Как бы запросто идет парсинг для базы в одной или другой зоне. Далее идет списочек зон а пользоваться надо вот так. site:.com site:.net site:.biz и тп. Список можете скачать тут : Список зон by Maiami • По языкам. Не составит труда узнать как пишется слово Регистрация на различных языках. Для этого просто скомбинируйте это слово с запросом из пункта 1 и всё! У вас совсем другoй серпп. Запрос будет иметь такой формат: Intext: Sing Up Intext: Регистрация Для ленивых прошу: Регистрация – русский Inregistrare – Румынский Sing Up – Английский Join– Английский Registration– Английский Registro – Испанский Registrierung – Немецкий Время-ные: • Годовые - по дате отзыва. Тут уже только нужно будет просто фильтровать по первому или последнему посту. Вписываем какой либо формат даты и ждём. Узко уточняющий признак. Вот примеры: inurl:guestbook intext:20/06/2008 inurl:guestbook intext:20.06.2008 • Годовые - по Копирайту. Когда был сотворен сайт. Тут аналогично все просто. Просто сотворяем что-то типа такого. inurl:guestbook "Copyright © 2009" inurl:guestbook "Copyright 2009" inurl:guestbook "Copyright © 2007-2009" И опять же чем больше фантазий тем лучше. Можете менять цифры и формат как хотите. Титловые: • Буквеные Просто в Титле будем искать одну из букв. Это нам будет очень сильно сужать поиск и выдавать все новые гостевухи, которые до этого Гугл нам не выдавал. Ну и примеры: inurl:guestbook +intitle:b inurl:guestbook +intitle:q inurl:guestbook +intitle:r Как видите все равно результатов много, потому как гостевые книги очень часто делают певцы, актёры и так далее и в Титл домена они прописывают свои инициалы. Всё гениально и не сложно. А такие гесты в спам базе для хрумера очень пиаристные иногда. • Символьные Всё также как и смотрим верх но тут типа такого: inurl:guestbook +intitle:& inurl:guestbook +intitle:'s – ну тут и буква. Просто так уточняется кому принадлежит гостевуха. Многие и забыли про них, а мы неет! • Словесные Тут уже те слова которые относятся к странице постинга. Примеры: inurl:guestbook +intitle:add inurl:guestbook +intitle:post inurl:guestbook +intitle:write И т.п Тематические: • White List key Очень хорошие гостевухи как я говорил у актёров или у певцов. Также можно и спортсменов сюда включить. Так вот род их занятий очень часто указывается в Титле. Мы же будем рыться в Гугле пока он не выдаст нам всё! inurl:guestbook +intitle:music inurl:guestbook +intitle:films inurl:guestbook +intitle:dance И т.п • Black List key Всё тоже самое но только уже мы убираем то что выше. Так как певцов и актёров у нас много, то наша база для хрумера станет огромной. inurl:guestbook -intitle:music inurl:guestbook -intitle:films inurl:guestbook -intitle:dance Url access: • Url Yes - Где уже есть ссылка. Тут мы будем выбирать гостевухи где уже есть ссылки. Это очень важно потому так просто в одном или другом типе может быть не разрешено использовать УРЛ. Я разделил этот пункт ещё на 2 пункта. 1) Ссылки от людей Это ссылки, которые люди оставили, так сказать гостевая книга чистая и если там и есть ссылки, то они только человеческие. Пример запросов: inurl:guestbook +intext:http://myspace inurl:guestbook +intext:http://flickr inurl:guestbook +intext:http://flickr inurl:guestbook +intext:http://facebook.com 2) Ссылки от спама inurl:guestbook +intext:http://viagra inurl:guestbook +intext:http://Cialis А можно и так ещё: inurl:guestbook +intext: inurl:guestbook +intext:[url=http:// Как вы видите у нас получается прекрасная база для хрумера. • Url No - Где уже нет ссылки. Чистые, без ссылок гостевухи. Но тут велика вероятность, что и вы не можете оставить ссылку. А может быть и то, что вы вытащили из гула такие гостевухи которые никто раньше и не смог достать, и потому вы будете первый и все сливки будут вам! inurl:guestbook -intext:http:// inurl:guestbook -intext:inurl:guestbook -intext:[url=http:// Струкрутные: • Цепочный УРЛ. В каком разделе находится гостевуха, в том разделе и будем её парсить. Разные WEBмастера ставят её в разные субкатегории и потому мы нашли ещё один признак! winked inurl:guestbook/guestbook.html inurl:gbook/guestbook.html inurl:book/guestbook.html • Раздельный УРЛ ( или простые ) inurl: Guestbook.html Ну и последнее, но не менее важными, это: Языки разметки станиц: • Html Тольго гостевые на Html inurl: Guestbook.html inurl: Gbook.html inurl: Guest.html • Php Тольго гостевые на PHP inurl: Guestbook.php inurl: Gbook.php inurl: Guest.php • Другие если конечно они есть smile Все с креативной частью мы уже завязали и все наши признаки для парсинга базы данных для хрумера сохраняем в TXT файл. Так теперь в программу идём Агрессора и там загружаем список запросов который мы сделали, для этого есть кнопка Из Файла ( я на скрине отметил ). Ставим галочку автосохранение и выбираем поисковик Google. Парсинг Спам базы для хрумера. Источник http://maiamiblog.com/
|