Отключен JavaScript

У вас отключен JavaScript. Некоторые возможности системы не будут работать. Пожалуйста, включите JavaScript для получения доступа ко всем функциям.

Системы автоматического наполнения сайта

Автор from_odessa, 13 янв 2007 02:03

Авторизуйтесь для ответа в теме

Сообщений в теме: 56

#31 Dr. Dre

Мастер

Пользователи
Cообщений: 641

Отправлено 22 Январь 2007 - 18:33

Как поисковик определяет, что это уже где то было, плиз

лол, вопрос на 5 баллов!

Наверх

#32 Fluraman

Стажер

Продвинутые пользователи
Cообщений: 382

Отправлено 23 Январь 2007 - 02:20

[quote name='Dr. Dre'][quote]Как поисковик определяет, что это уже где то было, плиз[/quote]
лол, вопрос на 5 баллов!

[/quote]

просто трудно это представить, что поисковик, индексируя сайт сопостовляет содержимое оного с контентом всего, скажем, русскоязычного интернета ( в случае, что сайт русскоязычный ), а если я беру переведенный гуглом контент с другого сайта, то как тут обстоят дела, плиз

http://flur.ru/pages/catalog.htmhttp://flur.ruhttp://zagoryanka.com.

Наверх

#33 YAYAYA

Стажер

Пользователи
Cообщений: 498

Отправлено 23 Январь 2007 - 06:42

[quote name='Fluraman'][quote name='Dr. Dre'][quote]Как поисковик определяет, что это уже где то было, плиз[/quote]
лол, вопрос на 5 баллов!

http://sienfuegos.nm.ru
а также http://tinyurl.com/5f9gsm и заработай на этом

Наверх

#34 Fluraman

Стажер

Продвинутые пользователи
Cообщений: 382

Отправлено 23 Январь 2007 - 12:29

[quote name='YAYAYA'][quote name='Fluraman'][quote name='Dr. Dre'][quote]Как поисковик определяет, что это уже где то было, плиз[/quote]
лол, вопрос на 5 баллов! :lol:

[/quote]

Если я правильно понял, то поисковик сопоставляет символы (слова, буквы, знаки препинания, тэги и др.), а не смысл написанного, так?

и второй вопрос: поисковик в тупую сопоставлят контент, или начинает сопоставлять в случае если заголовки сообщений совпадают, плиз

http://flur.ru/pages/catalog.htmhttp://flur.ruhttp://zagoryanka.com.

Наверх

#35 Yevgeniy777

Новичок

Пользователи
Cообщений: 28

Отправлено 23 Январь 2007 - 17:03

Попробую ответить на большинство вопросов в этой теме.

Во-первых автоматический забор контента с других сайтов практикуется для создания новостных ресурсов. Связано это прежде всего с тем, что именно новостные сайты обновляются часто и регулярно. Какой смысл грабить сайт, который добавляет по 1 статье в месяц?

А именно это и есть основная проблема. Ведь прежде чем чего-то сграбить надо найти откуда это сграбить. А это не так просто, как может показаться. Проще обстоят дела именно с новостями не связанным с какой-то определенной темой. Именно по принципу все подряд.

Если же сайт тематический, то автоматический сбор контента это бред. Полуавтоматический возможен. Я его и сам практикую (меньше месяца) на http://onlinehomebusiness.ru/ Смысл в том, что информация автоматически загружается в базу данных, после этого я ее просматриваю и решаю, что оставить, а что нет.

При автоматическом заборе контента необходимо так же учитывать, что это довольно солидная нагрузка на сервер донора. Поэтому многие новостные сайты прямо пишут, что автоматический забор запрещен. Делается это именно из-за того, что сервер может не выдержать нагрузки.

Поэтому лучше согласовать это с владельцами сайта. Кто-то будет против, но кто-то и согласится.

------------------


<?

$url = "http://tiens.by/news/export.php?how=2&color=red&style=digitall";

$fp = fopen("$url", "r");

$up = fread($fp, 4409);

print "$up";

fclose($fp); 

?>

Этот код, приведенный на предыдущей странице работать не будет. Он позволяет прочитать только 4409 символов открытого файла. На любом крупном сайте этого хватит только на то, чтобы прочитать мета-теги и заголовок. Просто поставить большое число тоже нельзя, потому что на каждом сервере эта величина ограничена. Чтобы прочитать большой файл делается цикл, который читает исходник по частям.


<?php

$text='';

$file_name='http://любой_ваш_домен_или_путь_к_файлу/';

$fp=fopen ($file_name, "r");

if (!($fp)){echo 'Файл не найден'; exit;} //проверка на существование файла

while (!feof($fp)){ $text.=fread($fp, 999); } /*цикл, проверят кончился ли файл и записывает все кусочки по 999 символов в одну переменную $text */

fclose ($fp);

echo $text;

?>

Но это только начало. Вы получили текст файла, а дальше что? Дальше требуется его обработать. Делается это как правило с помощью регулярных выражений. Но для каждого сайта это будут свои правила, поэтому
универсальный граббер на мой взгляд не имеет смысла поскольку одинаковых сайтов, как было верно отмечено, нет. Каждый сайт требует индивидуального подхода. Хотя общие черты конечно же есть.

Те программы, разработчики которых утверждают, что у них все автоматизировано требуют настройки код каждый сайт. Без этого никак. Кто может знать, что именно и с какой страницы Вам надо забрать? Никто.

--------------------------

RSS ленты преобразуются в контент очень легко, но не позволяют сделать полноценный сайт. Это только заголовки с кратким описанием. Кому это интересно? Хотя для показа контекстной рекламы сойдет, но афишировать свою причастность к такому сайту не очень-то хотелось бы.

Но это вполне возможно использовать для формирования дайджеста новостей на своем сайте. Против забора RSS лент никто против не будет. Они для этого и существуют.

--------------------------

Сайты целиком состоящие из чужого контента индексируются не хуже. Если бы это было не так, то тогда существовал бы только один новостной сайт. Но все новостные сайты обмениваются контентом. Ну может за исключением только самых крупных с большим штатом собственных корреспондентов.

Дело здесь в другом. Хуже, а точнее медленнее индексируются новые сайты, не имеющие веса "в глазах поисковика". Робот заходит но не индексирует. Это правда. Только терпение, здесь помощник и разбавление чужого контента собственной информацией по мере сил.

---------------------------

То что лучше публиковать только собственный контент, это понятно, но не всегда на это есть время и желание тратить деньги на копирайтеров.

Да и что-бы делали те, кто пишет статьи для раскрутки своего сайта, если бы их произведения нигде не перепечатывались? :wink:

Наверх

#36 Dr. Dre

Мастер

Пользователи
Cообщений: 641

Отправлено 24 Январь 2007 - 18:01

Если я правильно понял, то поисковик сопоставляет символы (слова, буквы, знаки препинания, тэги и др.), а не смысл написанного, так?

и второй вопрос: поисковик в тупую сопоставлят контент, или начинает сопоставлять в случае если заголовки сообщений совпадают, плиз

У каждого поисковика реализовано это по разному, но никто из их представителей не раскрывает секретов, иначе обмануть их будет очень легко. Ну разве что такие мелочи, что Яндекс учитывает регистр букв, а Гугл нет. Смысл, конечно, уловить они не могут, но определить тематику, основные кеи страницы, совпадение фрагментов текста с уже имеющимися в базе документами - легко.
Yevgeniy777 все достаточно подробно расписал по поводу сплогов, хочу еще добавить, что в конкурентных тематиках хитрых вебмастеров уже немало пасется и контент, который вами удачно стырен с чужого сайта может уже висеть и на сайтах конкурентов

Как по мне, так лучше снять с себя проблему уникальности контента, собрать большие базы слов, разбитые по тематикам, и фигачить доры

а освободившееся от обдумывания нюансов уникальности время проводить как-нибудь поприятнее 8)

Наверх

#37 Overlook

Новичок

Пользователи
Cообщений: 4

Отправлено 25 Январь 2007 - 02:19

сделал подобный сайтик - с автонаполнением из RSS-лент.
Вроде работает, что-то там забирает, что-то показывает.
Как с этого бы денюжку поиметь, вот в чем вопрос...

Наверх

#38 Dr. Dre

Мастер

Пользователи
Cообщений: 641

Отправлено 25 Январь 2007 - 12:01

36: Overlook, вешай контекстеую рекламу. 1 такой сайт это мелочь, их сотни надо клепать, а не на один любоваться :lol:

Наверх

#39 from_odessa

Новичок

Пользователи
Cообщений: 37

Отправлено 25 Январь 2007 - 14:35

36: Overlook А на каком скрипте сайт работает?

Наверх

#40 Overlook

Новичок

Пользователи
Cообщений: 4

Отправлено 25 Январь 2007 - 18:18

Что вы имеете ввиду - "на каком скрипте"?

На нескольких разных. Один - читает ленты, другой их парсит, третий формирует страницы, четвертый ведет архив, и так далее...

Наверх

#41 from_odessa

Новичок

Пользователи
Cообщений: 37

Отправлено 25 Январь 2007 - 18:28

огласите весь список, пожалуйста...

если не сложно, конечно...

Наверх

#42 Overlook

Новичок

Пользователи
Cообщений: 4

Отправлено 25 Январь 2007 - 19:47

filter
deRSS
run_daily
run_every10
runner
...

самописные они, на Перле, чего файлы перечислять-то...

Наверх

#43 newcontinent

Новичок

Пользователи
Cообщений: 88

Отправлено 05 Февраль 2007 - 22:43

Для
систем автоматического наполнения сайта
хорошо бы
систему автоматического чтения
для полноты комплекса

Наверх

#44 Ishutin

Новичок

Пользователи
Cообщений: 37

Отправлено 06 Март 2007 - 21:55

Я всё равно ЗА уникальный контент... :roll:
Ну и что толку от того, что вы награббите?
Ну будут у вас посетители...потом яндекс будет принимать серьёзные меры
и накроется всё это медным тазом... :lol:

Лучше свой контент писать

Пусть воруют! А если ещё и ссылку ставить будут, то это ж вообще хорошо! :lol:

Наверх

#45 R.S.

Новичок

Пользователи
Cообщений: 29

Отправлено 09 Март 2007 - 12:52

43: Ishutin

По мне так тоже, лучше качество, чем количество! :lol:

Но… каждому своё! :wink: Кто-то вот доры клепает и не плохо себя чувствует, судя по всему. :lol:

Наверх

#46 Fluraman

Стажер

Продвинутые пользователи
Cообщений: 382

Отправлено 02 Май 2007 - 02:24

Блин! У кого нить есть реальноработающий грабер с фильтром. Если есть, то скока это стоит. Я имею в ввиду работающий скрипт и где можно это поюзать в демо режиме.

http://flur.ru/pages/catalog.htmhttp://flur.ruhttp://zagoryanka.com.

Наверх

#47 Бука

Профессионал

Продвинутые пользователи
Cообщений: 1 687

Отправлено 02 Май 2007 - 11:17

Грабер чего именно? RSS? HTML? Вообще в принципе или конкретных сайтов?
Задача как поставлена-то?

Без обид - но все это напоминает одного давнего знакомого:
- а дайте пример какого-нибудь скрипта?
- какого?
- любого!
- ну для чего?
- посмотреть!

Наверх

#48 Fluraman

Стажер

Продвинутые пользователи
Cообщений: 382

Отправлено 02 Май 2007 - 13:17

Грабер чего именно? RSS? HTML? Вообще в принципе или конкретных сайтов?
Задача как поставлена-то?

Без обид - но все это напоминает одного давнего знакомого:
- а дайте пример какого-нибудь скрипта?
- какого?
- любого!
- ну для чего?
- посмотреть!

Мне нужно нечто что будет собирать в сети информацию в ввиде текстов и фотографий по заранее заданым ключевым словам.
Хотелось бы, что бы это были статьи целиком, а не только заголовки или короткие новости.

http://flur.ru/pages/catalog.htmhttp://flur.ruhttp://zagoryanka.com.

Наверх

#49 Бука

Профессионал

Продвинутые пользователи
Cообщений: 1 687

Отправлено 02 Май 2007 - 15:57

Типа рассуждение:
- стандарта на размещение статей в Инете не существует. Всякий лепит как умеет.
- поиск по ключевым словам в принципе возможен, хотя это и нарушает лицензионные соглашения, с Яндексом например. Но кого у нас это пугает?

Следовательно, найти нужные статьи можно, а вот сграбить их совсем уж на автомате нельзя, или будет криво.
Можно либо заточить грабилки под определенные сайты, либо под определенные форматы (тот же RSS), либо попробовать создать нечто интеллектуальное, с семантическими анализаторами контента.

Вывод:
- готовую реально работающую универсальную грабилку не найти.
- можно сделать на заказ под определенные сайты.
- можно профинансировать разработки в области Искуственного Интеллекта.
- можно протолкнуть новый формат новостей и потом грабить легко и непринужденно.

Пункт 2 вполне реален, но за деньги. Сумма зависит от объема, охвата, сроков и т.п.
В некоторых случаях будет целесообразнее человека посадить на это дело.

Остальное - теории.
ИМХО так.

Наверх

#50 Fluraman

Стажер

Продвинутые пользователи
Cообщений: 382

Отправлено 02 Май 2007 - 22:41

48: Бука, а что же тогда собирает ньюс грабер?

http://flur.ru/pages/catalog.htmhttp://flur.ruhttp://zagoryanka.com.

Наверх

#51 Бука

Профессионал

Продвинутые пользователи
Cообщений: 1 687

Отправлено 03 Май 2007 - 09:56

судя по названию - он собирает новости.
Новости можно найти во-первых, в формате RSS (т.е. в стандартизированном виде), во-вторых, на сайтах информационных агенств (т.е. 10-100-1000 сайтов с более-менее постоянным дизайном и форматом сообщений).

Т.е. либо в определенном формате, либо на определенных сайтах - см.выше, о чем я и говорил.

Наверх

#52 mrtx

Новичок

Пользователи
Cообщений: 45

Отправлено 15 Август 2007 - 12:41

Посмотрите тут http://lasto.com/shop/

Есть скрипты - "Стахановский портатор" и "Гугловый референт"

Наверх

#53 YAYAYA

Стажер

Пользователи
Cообщений: 498

Отправлено 26 Август 2007 - 21:25

Стахановский портатор

улыбнуло

http://sienfuegos.nm.ru
а также http://tinyurl.com/5f9gsm и заработай на этом

Наверх

#54 ynat

Новичок

Пользователи
Cообщений: 73

Отправлено 10 Сентябрь 2007 - 15:30

[quote name='YAYAYA'][quote]Стахановский портатор[/quote]
улыбнуло :lol:

[/quote]

Скажите, а то, что у вас на сайте партнерок аферисты, это тоже должно улыбнуть ? :lol:

Я вот,допустим, предполагала это, но все равно неприятно.
Или хотя-бы не пишите, что НАДЕЖНЫЕ

Наверх

#55 gogison

Новичок

Пользователи
Cообщений: 48

Отправлено 17 Октябрь 2007 - 23:56

filter
deRSS
run_daily
run_every10
runner
...

самописные они, на Перле, чего файлы перечислять-то...

Ну и как посещаемость сайта?

http://allsubmitter.ukrcommerce.com

Наверх

#56 YAYAYA

Стажер

Пользователи
Cообщений: 498

Отправлено 19 Октябрь 2007 - 14:59

[quote name='ynat'][quote name='YAYAYA'][quote]Стахановский портатор[/quote]
улыбнуло :lol:

[/quote]

Скажите, а то, что у вас на сайте партнерок аферисты, это тоже должно улыбнуть ?

Я вот,допустим, предполагала это, но все равно неприятно.
Или хотя-бы не пишите, что НАДЕЖНЫЕ[/quote]
укажите какие именно аферисты у меня на сайте партнерок?
может я чего и не знаю :wink:
P/S/ если в рекламе что-то крутится из "аферистов", то это вопрос к брокеру, который это допускает :lol: