О копипасте

Из людей, пытающихся зарабатывать на сапе, наверное только самый упоротый не понял, что путь к большим доходам лежит по дороге из желтого кирпича многостраничных сайтов от 1000 страниц. Понятно, что если покупать копирайтинг и рерайт на адвего, то можно остаться без штанов, так что на помощь манимейкеру приходит копипаста.



Конечно, копипаста-копипастой, но процесс хочется хотя бы как-то автоматизировать, не сидеть же руками как обезьянка в самом деле. Кто-то пишет RSS-грабберы, но тут такой ньюанс, что это самый легкодоступный источник контента, на который все обращают внимание с самого начала, так что поисковые системы сразу к таким сайтам относятся с некоторым сомнением, так как он растиражирован по самое нихачу.

Самый интересный контент - это такой контент, который недоступен через RSS (т.е. недоступен ленивым конкурентам), а в идеале недоступен поисковикам вообще (вроде социалок типа вконтакте). К социалкам я отношусь не_очень, так что целюсь в контент который лежит в открытых местах для поисковиков местах, но хороший (не растащен на кучу сателлитов и хорошо структурирован).

Многие люди помнят бум vipbabla - когда люди предложили за смешную цену парсеры всего подряд для людей толком не умеющих даже задать шаблоны для парсинга.

Их первый скрипт (генератор сателлитов) был с первого взгляда божественным - даёшь ему слово-тематику сайта, выбираешь шаблон, жмёшь кнопку - он генерит сателлит. Ключи парсит из вордстата, по ним находит в выдаче статьи, их автоматом копипастит удаляя лишний мусор, делает перелинкованный случайным образом каталог статей, в некоторые статьи втыкает картинки, спарсенные из яндекс.картинки, текст уникализирует: синонимайзерит и умеет перегонять на английский туда-обратно. Было как сказка, тут не 100 сайтов в день, как учил Сеоштейн, а сотни, тысячи. В индекс они по большей части попадали, но выпадали быстрее, чем на них успевал подняться тиц и продаться первые ссылки.

Их второй скрипт (webgrabber) - был поумнее, более конфигурируемый, ему указываешь сайт - он с него парсит статьи. Сам находит статьи на сайте, сам вырезает лишние теги, довольно симпатично. Много контента набрать реально, конечно есть косяки - он тег #a# вырезает не очень умно, вместе с анкором, так что если кто-то в статье делает ссылкой значимое по смыслу слово - предложение становится оборванным. Разбивка на абзацы теряется - но простеньким php скриптом разбить текст на абзацы случайным образом разве что новичок манимейкинга не сможет. Сайт, сделанный на копипасте каталогов статей из 3-4 источников + какая-нибудь плюшка типа небольшая фото-галерея или форум парсенный из вконтакте держался ощутимо лучше, чем сателлит, созданный первым скриптом (и уж гораздо лучше сателлита на вордпрессе, который тупо награбил несколько RSS каналов), но тоже долговечным назвать его - язык не поворачивается.

(Разумеется оба скрипта от випбабла давно есть в паблике, занулёные, ссылки давать не буду, если кому интересно - сами найдёте)

Но нам хочется идти к успеху и дальше, чтобы АГС не трогал, сайты жили условно вечно и не надо было тратить большие деньги на копирайтинг.

Мне кажется (а моё "кажется" опирается на некоторый опыт), что для успеха копипасты должны (не обязаны конечно, но с ними веселее) выполняться 4 пункта:
  1. Для парсинга должно быть выбрано более 3 источников. Причём хороших источников, структурированных, и информация из них должна перемешиваться. Т.е. парсим мы например доску объявлений про автомобили, если объявления берутся из одного места, то технические характеристики автомобилей - из другого, и там очерёдность отображения полей "объём двигателя", "потребление бензина" должны быть перетусована.
  2. Структура нашего сателлита должна отличаться от структуры сайта, с которого вы копипастим и желательно не быть блоговой. Т.е. стандартная схема: страницы, на которых размещены анонсы наших статей, снизу пагинатор и полные статьи - она несколько тянет на дно. В идеале следует придумать несколько видов материалов, дополнительные поля для разных видов материалов, в эти дополнительные поля собирать нужную информацию, для разных типов материала различные шаблоны отображения. Кстати, если для каких-то данных мы можем легко придумать дополнительные поля, но их истинное значение для товара нам неизвестно: ничто не мешает нам использовать размножающийся шаблон в этом месте, типа "Вес ноутбука:{2|3|4}.{1|2|3|4|5|6|7|8|9} кг" или "Ноутбук *название ноутбука* {{идеально|оптимально} подходит|{лучшее|надёжное} решение|{хороший|правильный} выбор|просто создан} для {компьютерных игр|развлечения|мультимедийный задач} и {офиса|работы}". Такие размножающиеся шаблоны помогают.
  3. Наш сателлит должен предоставлять/имитировать некий полезный сервис (в широком смысле этого слова). То есть отвечать/делать вид, что отвечает запросу человека, пришедшего на сателлит, и быть не просто ужасной отсканированной статьёй по строительству/экономике из книжки, которая потеряла актуальность лет 30 назад, а быть актуальной подборкой информации по теме из разных источников. В этом плане в очень выгодном свете предстают интернет-магазины для небольших городов (да и не только). Парсим базу товаров откуда-нибудь, где отдельно заданы атрибуты, создаём мелочёвку вроде поиска по одинаковым значениям параметров, поиск по параметрам, лежащих в диапазоне (на каждый такой поиск - отдельная страничка, хе-хе), цены умножаем на (0.9+(rand()%20)/100), немного рандомим с наличием товара на складе, подставляем в название магазина всюду небольшой город и - Яндекс редко такое банит, думая что предоставляет пользователям из этого города ценную информацию.
  4. Сателлит должен изменяться по времени. В идеале - появление новых страниц. Можно каждый день/неделю чуток перетряхивать цены и немного менять наличие товара на складе, или публиковать новые объекты/товары/статьи с задержкой. Это можно и нужно автоматизировать. Главное не быть статичным, ибо реальные магазины, которые не обновляются по несколько месяцев, вызывают у поисковых систем оправданные сомнения, а мы хотим жить вечно.
Вот как-то так.

Вопросы, уточнения?

Или может в комментариях появится умный человек и расскажет как обстоят дела на самом деле?

.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.

Кстати, из людей, взявших в своё время скрипт для
наполнения киносайтов через адвего - расскажите о своих успехах, времени прошло немало. Бесплатно сошлюсь (а я когда-то брал деньги за то что я ссылаюсь? :) ) на ваши посты, если вы ведёте блоги.

.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.

В прошлом посте упомянул книгу Хфактора о заработке на MFA. BackSpark эту книгу уже как несколько недель переводит. Сейчас она на 1/3 где-то готова. Вот посты из нее http://backspark.net/category/kurs-po-adsense. Я считаю, что полезно.

.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.oOo.

Почитаешь, что
творится в Беларуси - и понимаешь, что в "Сираной Рашке" не так уж и плохо :)

No comments:

Post a Comment

Followers

Pageviews