лол, вопрос на 5 баллов!Как поисковик определяет, что это уже где то было, плиз
Системы автоматического наполнения сайта
#31
Отправлено 22 Январь 2007 - 18:33
#32
Отправлено 23 Январь 2007 - 02:20
лол, вопрос на 5 баллов! [/quote]
просто трудно это представить, что поисковик, индексируя сайт сопостовляет содержимое оного с контентом всего, скажем, русскоязычного интернета ( в случае, что сайт русскоязычный ), а если я беру переведенный гуглом контент с другого сайта, то как тут обстоят дела, плиз
#33
Отправлено 23 Январь 2007 - 06:42
лол, вопрос на 5 баллов! [/quote]
просто трудно это представить, что поисковик, индексируя сайт сопостовляет содержимое оного с контентом всего, скажем, русскоязычного интернета ( в случае, что сайт русскоязычный ), а если я беру переведенный гуглом контент с другого сайта, то как тут обстоят дела, плиз[/quote]
а вот так вот и сопоставляет
#34
Отправлено 23 Январь 2007 - 12:29
лол, вопрос на 5 баллов! [/quote]
просто трудно это представить, что поисковик, индексируя сайт сопостовляет содержимое оного с контентом всего, скажем, русскоязычного интернета ( в случае, что сайт русскоязычный ), а если я беру переведенный гуглом контент с другого сайта, то как тут обстоят дела, плиз[/quote]
а вот так вот и сопоставляет [/quote]
Если я правильно понял, то поисковик сопоставляет символы (слова, буквы, знаки препинания, тэги и др.), а не смысл написанного, так?
и второй вопрос: поисковик в тупую сопоставлят контент, или начинает сопоставлять в случае если заголовки сообщений совпадают, плиз
#35
Отправлено 23 Январь 2007 - 17:03
Во-первых автоматический забор контента с других сайтов практикуется для создания новостных ресурсов. Связано это прежде всего с тем, что именно новостные сайты обновляются часто и регулярно. Какой смысл грабить сайт, который добавляет по 1 статье в месяц?
А именно это и есть основная проблема. Ведь прежде чем чего-то сграбить надо найти откуда это сграбить. А это не так просто, как может показаться. Проще обстоят дела именно с новостями не связанным с какой-то определенной темой. Именно по принципу все подряд.
Если же сайт тематический, то автоматический сбор контента это бред. Полуавтоматический возможен. Я его и сам практикую (меньше месяца) на http://onlinehomebusiness.ru/ Смысл в том, что информация автоматически загружается в базу данных, после этого я ее просматриваю и решаю, что оставить, а что нет.
При автоматическом заборе контента необходимо так же учитывать, что это довольно солидная нагрузка на сервер донора. Поэтому многие новостные сайты прямо пишут, что автоматический забор запрещен. Делается это именно из-за того, что сервер может не выдержать нагрузки.
Поэтому лучше согласовать это с владельцами сайта. Кто-то будет против, но кто-то и согласится.
------------------
<? $url = "http://tiens.by/news/export.php?how=2&color=red&style=digitall"; $fp = fopen("$url", "r"); $up = fread($fp, 4409); print "$up"; fclose($fp); ?>
Этот код, приведенный на предыдущей странице работать не будет. Он позволяет прочитать только 4409 символов открытого файла. На любом крупном сайте этого хватит только на то, чтобы прочитать мета-теги и заголовок. Просто поставить большое число тоже нельзя, потому что на каждом сервере эта величина ограничена. Чтобы прочитать большой файл делается цикл, который читает исходник по частям.
<?php $text=''; $file_name='http://любой_ваш_домен_или_путь_к_файлу/'; $fp=fopen ($file_name, "r"); if (!($fp)){echo 'Файл не найден'; exit;} //проверка на существование файла while (!feof($fp)){ $text.=fread($fp, 999); } /*цикл, проверят кончился ли файл и записывает все кусочки по 999 символов в одну переменную $text */ fclose ($fp); echo $text; ?>
Но это только начало. Вы получили текст файла, а дальше что? Дальше требуется его обработать. Делается это как правило с помощью регулярных выражений. Но для каждого сайта это будут свои правила, поэтому
универсальный граббер на мой взгляд не имеет смысла поскольку одинаковых сайтов, как было верно отмечено, нет. Каждый сайт требует индивидуального подхода. Хотя общие черты конечно же есть.
Те программы, разработчики которых утверждают, что у них все автоматизировано требуют настройки код каждый сайт. Без этого никак. Кто может знать, что именно и с какой страницы Вам надо забрать? Никто.
--------------------------
RSS ленты преобразуются в контент очень легко, но не позволяют сделать полноценный сайт. Это только заголовки с кратким описанием. Кому это интересно? Хотя для показа контекстной рекламы сойдет, но афишировать свою причастность к такому сайту не очень-то хотелось бы.
Но это вполне возможно использовать для формирования дайджеста новостей на своем сайте. Против забора RSS лент никто против не будет. Они для этого и существуют.
--------------------------
Сайты целиком состоящие из чужого контента индексируются не хуже. Если бы это было не так, то тогда существовал бы только один новостной сайт. Но все новостные сайты обмениваются контентом. Ну может за исключением только самых крупных с большим штатом собственных корреспондентов.
Дело здесь в другом. Хуже, а точнее медленнее индексируются новые сайты, не имеющие веса "в глазах поисковика". Робот заходит но не индексирует. Это правда. Только терпение, здесь помощник и разбавление чужого контента собственной информацией по мере сил.
---------------------------
То что лучше публиковать только собственный контент, это понятно, но не всегда на это есть время и желание тратить деньги на копирайтеров.
Да и что-бы делали те, кто пишет статьи для раскрутки своего сайта, если бы их произведения нигде не перепечатывались? :wink:
#36
Отправлено 24 Январь 2007 - 18:01
Если я правильно понял, то поисковик сопоставляет символы (слова, буквы, знаки препинания, тэги и др.), а не смысл написанного, так?
и второй вопрос: поисковик в тупую сопоставлят контент, или начинает сопоставлять в случае если заголовки сообщений совпадают, плиз
У каждого поисковика реализовано это по разному, но никто из их представителей не раскрывает секретов, иначе обмануть их будет очень легко. Ну разве что такие мелочи, что Яндекс учитывает регистр букв, а Гугл нет. Смысл, конечно, уловить они не могут, но определить тематику, основные кеи страницы, совпадение фрагментов текста с уже имеющимися в базе документами - легко.
Yevgeniy777 все достаточно подробно расписал по поводу сплогов, хочу еще добавить, что в конкурентных тематиках хитрых вебмастеров уже немало пасется и контент, который вами удачно стырен с чужого сайта может уже висеть и на сайтах конкурентов
Как по мне, так лучше снять с себя проблему уникальности контента, собрать большие базы слов, разбитые по тематикам, и фигачить доры а освободившееся от обдумывания нюансов уникальности время проводить как-нибудь поприятнее 8)
#37
Отправлено 25 Январь 2007 - 02:19
Вроде работает, что-то там забирает, что-то показывает.
Как с этого бы денюжку поиметь, вот в чем вопрос...
#38
Отправлено 25 Январь 2007 - 12:01
#39
Отправлено 25 Январь 2007 - 14:35
#40
Отправлено 25 Январь 2007 - 18:18
На нескольких разных. Один - читает ленты, другой их парсит, третий формирует страницы, четвертый ведет архив, и так далее...
#41
Отправлено 25 Январь 2007 - 18:28
если не сложно, конечно...
#42
Отправлено 25 Январь 2007 - 19:47
deRSS
run_daily
run_every10
runner
...
самописные они, на Перле, чего файлы перечислять-то...
#43
Отправлено 05 Февраль 2007 - 22:43
систем автоматического наполнения сайта
хорошо бы
систему автоматического чтения
для полноты комплекса
#44
Отправлено 06 Март 2007 - 21:55
Ну и что толку от того, что вы награббите?
Ну будут у вас посетители...потом яндекс будет принимать серьёзные меры
и накроется всё это медным тазом... Лучше свой контент писать
Пусть воруют! А если ещё и ссылку ставить будут, то это ж вообще хорошо!
#45
Отправлено 09 Март 2007 - 12:52
По мне так тоже, лучше качество, чем количество!
Но… каждому своё! :wink: Кто-то вот доры клепает и не плохо себя чувствует, судя по всему.
#46
Отправлено 02 Май 2007 - 02:24
#47
Отправлено 02 Май 2007 - 11:17
Задача как поставлена-то?
Без обид - но все это напоминает одного давнего знакомого:
- а дайте пример какого-нибудь скрипта?
- какого?
- любого!
- ну для чего?
- посмотреть!
#48
Отправлено 02 Май 2007 - 13:17
Грабер чего именно? RSS? HTML? Вообще в принципе или конкретных сайтов?
Задача как поставлена-то?
Без обид - но все это напоминает одного давнего знакомого:
- а дайте пример какого-нибудь скрипта?
- какого?
- любого!
- ну для чего?
- посмотреть!
Мне нужно нечто что будет собирать в сети информацию в ввиде текстов и фотографий по заранее заданым ключевым словам.
Хотелось бы, что бы это были статьи целиком, а не только заголовки или короткие новости.
#49
Отправлено 02 Май 2007 - 15:57
- стандарта на размещение статей в Инете не существует. Всякий лепит как умеет.
- поиск по ключевым словам в принципе возможен, хотя это и нарушает лицензионные соглашения, с Яндексом например. Но кого у нас это пугает?
Следовательно, найти нужные статьи можно, а вот сграбить их совсем уж на автомате нельзя, или будет криво.
Можно либо заточить грабилки под определенные сайты, либо под определенные форматы (тот же RSS), либо попробовать создать нечто интеллектуальное, с семантическими анализаторами контента.
Вывод:
- готовую реально работающую универсальную грабилку не найти.
- можно сделать на заказ под определенные сайты.
- можно профинансировать разработки в области Искуственного Интеллекта.
- можно протолкнуть новый формат новостей и потом грабить легко и непринужденно.
Пункт 2 вполне реален, но за деньги. Сумма зависит от объема, охвата, сроков и т.п.
В некоторых случаях будет целесообразнее человека посадить на это дело.
Остальное - теории.
ИМХО так.
#50
Отправлено 02 Май 2007 - 22:41
#51
Отправлено 03 Май 2007 - 09:56
Новости можно найти во-первых, в формате RSS (т.е. в стандартизированном виде), во-вторых, на сайтах информационных агенств (т.е. 10-100-1000 сайтов с более-менее постоянным дизайном и форматом сообщений).
Т.е. либо в определенном формате, либо на определенных сайтах - см.выше, о чем я и говорил.
#52
Отправлено 15 Август 2007 - 12:41
Есть скрипты - "Стахановский портатор" и "Гугловый референт"
#53
Отправлено 26 Август 2007 - 21:25
улыбнулоСтахановский портатор
#54
Отправлено 10 Сентябрь 2007 - 15:30
улыбнуло [/quote]
Скажите, а то, что у вас на сайте партнерок аферисты, это тоже должно улыбнуть ?
Я вот,допустим, предполагала это, но все равно неприятно.
Или хотя-бы не пишите, что НАДЕЖНЫЕ
#55
Отправлено 17 Октябрь 2007 - 23:56
filter
deRSS
run_daily
run_every10
runner
...
самописные они, на Перле, чего файлы перечислять-то...
Ну и как посещаемость сайта?
#56
Отправлено 19 Октябрь 2007 - 14:59
улыбнуло [/quote]
Скажите, а то, что у вас на сайте партнерок аферисты, это тоже должно улыбнуть ?
Я вот,допустим, предполагала это, но все равно неприятно.
Или хотя-бы не пишите, что НАДЕЖНЫЕ[/quote]
укажите какие именно аферисты у меня на сайте партнерок?
может я чего и не знаю :wink:
P/S/ если в рекламе что-то крутится из "аферистов", то это вопрос к брокеру, который это допускает
Яндекс вот часто пишет, что не имеет ни малейшего отношения к найденным сайтам и т.п.
#57
Отправлено 07 Январь 2008 - 01:30
Количество пользователей, читающих эту тему: 1
0 пользователей, 1 гостей, 0 анонимных