Перейти к содержимому

Comfy Theme© by Fisana
 

Фотография

Системы автоматического наполнения сайта


  • Авторизуйтесь для ответа в теме
Сообщений в теме: 56

#31 Dr. Dre

Dr. Dre

    Мастер

  • Пользователи
  • PipPipPipPipPip
  • Cообщений: 641

Отправлено 22 Январь 2007 - 18:33

Как поисковик определяет, что это уже где то было, плиз

лол, вопрос на 5 баллов! :D
  • 0
;)

#32 Fluraman

Fluraman

    Стажер

  • Продвинутые пользователи
  • PipPipPip
  • Cообщений: 382

Отправлено 23 Январь 2007 - 02:20

[quote name='Dr. Dre'][quote]Как поисковик определяет, что это уже где то было, плиз[/quote]
лол, вопрос на 5 баллов! :D[/quote]

просто трудно это представить, что поисковик, индексируя сайт сопостовляет содержимое оного с контентом всего, скажем, русскоязычного интернета ( в случае, что сайт русскоязычный ), а если я беру переведенный гуглом контент с другого сайта, то как тут обстоят дела, плиз
  • 0
http://flur.ru/pages/catalog.htmhttp://flur.ruhttp://zagoryanka.com.

#33 YAYAYA

YAYAYA

    Стажер

  • Пользователи
  • PipPipPip
  • Cообщений: 498

Отправлено 23 Январь 2007 - 06:42

[quote name='Fluraman'][quote name='Dr. Dre'][quote]Как поисковик определяет, что это уже где то было, плиз[/quote]
лол, вопрос на 5 баллов! :D[/quote]

просто трудно это представить, что поисковик, индексируя сайт сопостовляет содержимое оного с контентом всего, скажем, русскоязычного интернета ( в случае, что сайт русскоязычный ), а если я беру переведенный гуглом контент с другого сайта, то как тут обстоят дела, плиз[/quote]
а вот так вот и сопоставляет :lol:
  • 0
http://sienfuegos.nm.ru :)
а также http://tinyurl.com/5f9gsm и заработай на этом

#34 Fluraman

Fluraman

    Стажер

  • Продвинутые пользователи
  • PipPipPip
  • Cообщений: 382

Отправлено 23 Январь 2007 - 12:29

[quote name='YAYAYA'][quote name='Fluraman'][quote name='Dr. Dre'][quote]Как поисковик определяет, что это уже где то было, плиз[/quote]
лол, вопрос на 5 баллов! :lol:[/quote]

просто трудно это представить, что поисковик, индексируя сайт сопостовляет содержимое оного с контентом всего, скажем, русскоязычного интернета ( в случае, что сайт русскоязычный ), а если я беру переведенный гуглом контент с другого сайта, то как тут обстоят дела, плиз[/quote]
а вот так вот и сопоставляет :lol:[/quote]

Если я правильно понял, то поисковик сопоставляет символы (слова, буквы, знаки препинания, тэги и др.), а не смысл написанного, так?

и второй вопрос: поисковик в тупую сопоставлят контент, или начинает сопоставлять в случае если заголовки сообщений совпадают, плиз
  • 0
http://flur.ru/pages/catalog.htmhttp://flur.ruhttp://zagoryanka.com.

#35 Yevgeniy777

Yevgeniy777

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 28

Отправлено 23 Январь 2007 - 17:03

Попробую ответить на большинство вопросов в этой теме.

Во-первых автоматический забор контента с других сайтов практикуется для создания новостных ресурсов. Связано это прежде всего с тем, что именно новостные сайты обновляются часто и регулярно. Какой смысл грабить сайт, который добавляет по 1 статье в месяц?

А именно это и есть основная проблема. Ведь прежде чем чего-то сграбить надо найти откуда это сграбить. А это не так просто, как может показаться. Проще обстоят дела именно с новостями не связанным с какой-то определенной темой. Именно по принципу все подряд.

Если же сайт тематический, то автоматический сбор контента это бред. Полуавтоматический возможен. Я его и сам практикую (меньше месяца) на http://onlinehomebusiness.ru/ Смысл в том, что информация автоматически загружается в базу данных, после этого я ее просматриваю и решаю, что оставить, а что нет.

При автоматическом заборе контента необходимо так же учитывать, что это довольно солидная нагрузка на сервер донора. Поэтому многие новостные сайты прямо пишут, что автоматический забор запрещен. Делается это именно из-за того, что сервер может не выдержать нагрузки.

Поэтому лучше согласовать это с владельцами сайта. Кто-то будет против, но кто-то и согласится.

------------------

<?

$url = "http://tiens.by/news/export.php?how=2&color=red&style=digitall";

$fp = fopen("$url", "r");

$up = fread($fp, 4409);

print "$up";

fclose($fp); 

?>

Этот код, приведенный на предыдущей странице работать не будет. Он позволяет прочитать только 4409 символов открытого файла. На любом крупном сайте этого хватит только на то, чтобы прочитать мета-теги и заголовок. Просто поставить большое число тоже нельзя, потому что на каждом сервере эта величина ограничена. Чтобы прочитать большой файл делается цикл, который читает исходник по частям.


<?php

$text='';

$file_name='http://любой_ваш_домен_или_путь_к_файлу/';

$fp=fopen ($file_name, "r");

if (!($fp)){echo 'Файл не найден'; exit;} //проверка на существование файла

while (!feof($fp)){ $text.=fread($fp, 999); } /*цикл, проверят кончился ли файл и записывает все кусочки по 999 символов в одну переменную $text */

fclose ($fp);

echo $text;

?>

Но это только начало. Вы получили текст файла, а дальше что? Дальше требуется его обработать. Делается это как правило с помощью регулярных выражений. Но для каждого сайта это будут свои правила, поэтому
универсальный граббер на мой взгляд не имеет смысла поскольку одинаковых сайтов, как было верно отмечено, нет. Каждый сайт требует индивидуального подхода. Хотя общие черты конечно же есть.

Те программы, разработчики которых утверждают, что у них все автоматизировано требуют настройки код каждый сайт. Без этого никак. Кто может знать, что именно и с какой страницы Вам надо забрать? Никто.

--------------------------

RSS ленты преобразуются в контент очень легко, но не позволяют сделать полноценный сайт. Это только заголовки с кратким описанием. Кому это интересно? Хотя для показа контекстной рекламы сойдет, но афишировать свою причастность к такому сайту не очень-то хотелось бы.

Но это вполне возможно использовать для формирования дайджеста новостей на своем сайте. Против забора RSS лент никто против не будет. Они для этого и существуют.

--------------------------

Сайты целиком состоящие из чужого контента индексируются не хуже. Если бы это было не так, то тогда существовал бы только один новостной сайт. Но все новостные сайты обмениваются контентом. Ну может за исключением только самых крупных с большим штатом собственных корреспондентов.

Дело здесь в другом. Хуже, а точнее медленнее индексируются новые сайты, не имеющие веса "в глазах поисковика". Робот заходит но не индексирует. Это правда. Только терпение, здесь помощник и разбавление чужого контента собственной информацией по мере сил.

---------------------------

То что лучше публиковать только собственный контент, это понятно, но не всегда на это есть время и желание тратить деньги на копирайтеров.

Да и что-бы делали те, кто пишет статьи для раскрутки своего сайта, если бы их произведения нигде не перепечатывались? :wink:
  • 0

#36 Dr. Dre

Dr. Dre

    Мастер

  • Пользователи
  • PipPipPipPipPip
  • Cообщений: 641

Отправлено 24 Январь 2007 - 18:01

Если я правильно понял, то поисковик сопоставляет символы (слова, буквы, знаки препинания, тэги и др.), а не смысл написанного, так?

и второй вопрос: поисковик в тупую сопоставлят контент, или начинает сопоставлять в случае если заголовки сообщений совпадают, плиз


У каждого поисковика реализовано это по разному, но никто из их представителей не раскрывает секретов, иначе обмануть их будет очень легко. Ну разве что такие мелочи, что Яндекс учитывает регистр букв, а Гугл нет. Смысл, конечно, уловить они не могут, но определить тематику, основные кеи страницы, совпадение фрагментов текста с уже имеющимися в базе документами - легко.
Yevgeniy777 все достаточно подробно расписал по поводу сплогов, хочу еще добавить, что в конкурентных тематиках хитрых вебмастеров уже немало пасется и контент, который вами удачно стырен с чужого сайта может уже висеть и на сайтах конкурентов :P

Как по мне, так лучше снять с себя проблему уникальности контента, собрать большие базы слов, разбитые по тематикам, и фигачить доры :D а освободившееся от обдумывания нюансов уникальности время проводить как-нибудь поприятнее 8)
  • 0
;)

#37 Overlook

Overlook

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 4

Отправлено 25 Январь 2007 - 02:19

сделал подобный сайтик - с автонаполнением из RSS-лент.
Вроде работает, что-то там забирает, что-то показывает.
Как с этого бы денюжку поиметь, вот в чем вопрос...
  • 0

#38 Dr. Dre

Dr. Dre

    Мастер

  • Пользователи
  • PipPipPipPipPip
  • Cообщений: 641

Отправлено 25 Январь 2007 - 12:01

36: Overlook, вешай контекстеую рекламу. 1 такой сайт это мелочь, их сотни надо клепать, а не на один любоваться :lol:
  • 0
;)

#39 from_odessa

from_odessa

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 37

Отправлено 25 Январь 2007 - 14:35

36: Overlook А на каком скрипте сайт работает?
  • 0

#40 Overlook

Overlook

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 4

Отправлено 25 Январь 2007 - 18:18

Что вы имеете ввиду - "на каком скрипте"? :D

На нескольких разных. Один - читает ленты, другой их парсит, третий формирует страницы, четвертый ведет архив, и так далее...
  • 0

#41 from_odessa

from_odessa

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 37

Отправлено 25 Январь 2007 - 18:28

огласите весь список, пожалуйста... :D

если не сложно, конечно...
  • 0

#42 Overlook

Overlook

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 4

Отправлено 25 Январь 2007 - 19:47

filter
deRSS
run_daily
run_every10
runner
...

:D

самописные они, на Перле, чего файлы перечислять-то...
  • 0

#43 newcontinent

newcontinent

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 88

Отправлено 05 Февраль 2007 - 22:43

Для
систем автоматического наполнения сайта
хорошо бы
систему автоматического чтения
для полноты комплекса
  • 0

#44 Ishutin

Ishutin

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 37

Отправлено 06 Март 2007 - 21:55

Я всё равно ЗА уникальный контент... :roll:
Ну и что толку от того, что вы награббите?
Ну будут у вас посетители...потом яндекс будет принимать серьёзные меры
и накроется всё это медным тазом... :lol:Лучше свой контент писать :D
Пусть воруют! А если ещё и ссылку ставить будут, то это ж вообще хорошо! :lol:
  • 0

#45 R.S.

R.S.

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 29

Отправлено 09 Март 2007 - 12:52

43: Ishutin

По мне так тоже, лучше качество, чем количество! :lol:
Но… каждому своё! :wink: Кто-то вот доры клепает и не плохо себя чувствует, судя по всему. :lol:
  • 0

#46 Fluraman

Fluraman

    Стажер

  • Продвинутые пользователи
  • PipPipPip
  • Cообщений: 382

Отправлено 02 Май 2007 - 02:24

Блин! У кого нить есть реальноработающий грабер с фильтром. Если есть, то скока это стоит. Я имею в ввиду работающий скрипт и где можно это поюзать в демо режиме.
  • 0
http://flur.ru/pages/catalog.htmhttp://flur.ruhttp://zagoryanka.com.

#47 Бука

Бука

    Профессионал

  • Продвинутые пользователи
  • PipPipPipPipPipPipPip
  • Cообщений: 1 687

Отправлено 02 Май 2007 - 11:17

Грабер чего именно? RSS? HTML? Вообще в принципе или конкретных сайтов?
Задача как поставлена-то?

Без обид - но все это напоминает одного давнего знакомого:
- а дайте пример какого-нибудь скрипта?
- какого?
- любого!
- ну для чего?
- посмотреть!
  • 0

#48 Fluraman

Fluraman

    Стажер

  • Продвинутые пользователи
  • PipPipPip
  • Cообщений: 382

Отправлено 02 Май 2007 - 13:17

Грабер чего именно? RSS? HTML? Вообще в принципе или конкретных сайтов?
Задача как поставлена-то?

Без обид - но все это напоминает одного давнего знакомого:
- а дайте пример какого-нибудь скрипта?
- какого?
- любого!
- ну для чего?
- посмотреть!


Мне нужно нечто что будет собирать в сети информацию в ввиде текстов и фотографий по заранее заданым ключевым словам.
Хотелось бы, что бы это были статьи целиком, а не только заголовки или короткие новости.
  • 0
http://flur.ru/pages/catalog.htmhttp://flur.ruhttp://zagoryanka.com.

#49 Бука

Бука

    Профессионал

  • Продвинутые пользователи
  • PipPipPipPipPipPipPip
  • Cообщений: 1 687

Отправлено 02 Май 2007 - 15:57

Типа рассуждение:
- стандарта на размещение статей в Инете не существует. Всякий лепит как умеет.
- поиск по ключевым словам в принципе возможен, хотя это и нарушает лицензионные соглашения, с Яндексом например. Но кого у нас это пугает? :D

Следовательно, найти нужные статьи можно, а вот сграбить их совсем уж на автомате нельзя, или будет криво.
Можно либо заточить грабилки под определенные сайты, либо под определенные форматы (тот же RSS), либо попробовать создать нечто интеллектуальное, с семантическими анализаторами контента.

Вывод:
- готовую реально работающую универсальную грабилку не найти.
- можно сделать на заказ под определенные сайты.
- можно профинансировать разработки в области Искуственного Интеллекта.
- можно протолкнуть новый формат новостей и потом грабить легко и непринужденно.

Пункт 2 вполне реален, но за деньги. Сумма зависит от объема, охвата, сроков и т.п.
В некоторых случаях будет целесообразнее человека посадить на это дело.

Остальное - теории.
ИМХО так.
  • 0

#50 Fluraman

Fluraman

    Стажер

  • Продвинутые пользователи
  • PipPipPip
  • Cообщений: 382

Отправлено 02 Май 2007 - 22:41

48: Бука, а что же тогда собирает ньюс грабер?
  • 0
http://flur.ru/pages/catalog.htmhttp://flur.ruhttp://zagoryanka.com.

#51 Бука

Бука

    Профессионал

  • Продвинутые пользователи
  • PipPipPipPipPipPipPip
  • Cообщений: 1 687

Отправлено 03 Май 2007 - 09:56

судя по названию - он собирает новости.
Новости можно найти во-первых, в формате RSS (т.е. в стандартизированном виде), во-вторых, на сайтах информационных агенств (т.е. 10-100-1000 сайтов с более-менее постоянным дизайном и форматом сообщений).

Т.е. либо в определенном формате, либо на определенных сайтах - см.выше, о чем я и говорил.
  • 0

#52 mrtx

mrtx

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 45

Отправлено 15 Август 2007 - 12:41

Посмотрите тут http://lasto.com/shop/

Есть скрипты - "Стахановский портатор" и "Гугловый референт"
  • 0

#53 YAYAYA

YAYAYA

    Стажер

  • Пользователи
  • PipPipPip
  • Cообщений: 498

Отправлено 26 Август 2007 - 21:25

Стахановский портатор

улыбнуло :D
  • 0
http://sienfuegos.nm.ru :)
а также http://tinyurl.com/5f9gsm и заработай на этом

#54 ynat

ynat

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 73

Отправлено 10 Сентябрь 2007 - 15:30

[quote name='YAYAYA'][quote]Стахановский портатор[/quote]
улыбнуло :lol:[/quote]

Скажите, а то, что у вас на сайте партнерок аферисты, это тоже должно улыбнуть ?:lol:

Я вот,допустим, предполагала это, но все равно неприятно.
Или хотя-бы не пишите, что НАДЕЖНЫЕ
  • 0

#55 gogison

gogison

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 48

Отправлено 17 Октябрь 2007 - 23:56

filter
deRSS
run_daily
run_every10
runner
...

:D

самописные они, на Перле, чего файлы перечислять-то...


Ну и как посещаемость сайта?
  • 0
http://allsubmitter.ukrcommerce.com

#56 YAYAYA

YAYAYA

    Стажер

  • Пользователи
  • PipPipPip
  • Cообщений: 498

Отправлено 19 Октябрь 2007 - 14:59

[quote name='ynat'][quote name='YAYAYA'][quote]Стахановский портатор[/quote]
улыбнуло :lol:[/quote]

Скажите, а то, что у вас на сайте партнерок аферисты, это тоже должно улыбнуть ?:)

Я вот,допустим, предполагала это, но все равно неприятно.
Или хотя-бы не пишите, что НАДЕЖНЫЕ[/quote]
укажите какие именно аферисты у меня на сайте партнерок?
может я чего и не знаю :wink:
P/S/ если в рекламе что-то крутится из "аферистов", то это вопрос к брокеру, который это допускает :lol:
Яндекс вот часто пишет, что не имеет ни малейшего отношения к найденным сайтам и т.п. :lol:
  • 0
http://sienfuegos.nm.ru :)
а также http://tinyurl.com/5f9gsm и заработай на этом

#57 barbaros

barbaros

    Новичок

  • Пользователи
  • Pip
  • Cообщений: 29

Отправлено 07 Январь 2008 - 01:30

Скажите может кто уже работал с программами представленными тут или другими - какую из них лучше покупать?
  • 0
http://anoka.ru/


Количество пользователей, читающих эту тему: 1

0 пользователей, 1 гостей, 0 анонимных

Copyright © 2024 Your Company Name