Linux-Bulgaria.ORG
навигация

 

начало

пощенски списък

архив на групата

семинари ...

документи

как да ...

 

 

Предишно писмо Следващо писмо Предишно по тема Следващо по тема По Дата По тема (thread)

Re: [Lug-bg] Филтриране на Web Crawlers чрез iptables


  • Subject: Re: [Lug-bg] Филтриране на Web Crawlers чрез iptables
  • From: "Веселин Михайлов" <melkor.vmm@xxxxxxxxx>
  • Date: Tue, 29 Jul 2008 11:54:53 +0300

  Благодаря на всички за бързите отговори. Аз също успях да стигна до едно работещо решение. Остана ми малко да доизкусуря скрипта и ще го публикувам в блога си тия дни. В крайна сметка се оказа че решението което замислих не е чак толкова добро, защото най-вероятно ще се отрази на ранковете на сайтовете заради това временно прекъсване (за това не бях помислил особенно :) ).

  Относно идеята за скрипт който наблюдава логовете - това ми беше първата идея, но идеята е да бъде свършено това с минимално натоварване на машината, затова питах за варианти само с iptables.

  Жоро, относно списъка с IP адреси на "паяците", може да бъде намерен на http://www.iplists.com.

  Проблема е със предимно Google, Yahoo! и Twiceler, тъй като те най-често обхождат сайтовете. Май идеята на Лазаров може би ще свърши по-добра работа. ;)

  Още един път - благодаря на всички.

2008/7/29 Lazarov <lazcorp@xxxxxxxxxx>
Веселин Михайлов wrote:
> Здравейте група!
>
>   Имам следният въпрос, над който се чудя и не успявам да стигна до
> работещо решение. Възможно ли е (и как) да се ограничат временно
> връзките на Web Crawler-те (IP адресите им) чрез лимит?
>
>   Рових и четох документация, но нещо ми се изплъзва. Идеята е когато
> един "паяк" направи определено количество връзки към хоста да бъде
> блокиран за определено време (примерно час).
>
>   Възможно ли е това да стане само с iptables или ще трябва да се пише
> някакъв допълнителен скрипт/демон който да го прави?
>
> Поздрави!
> ------------------------------------------------------------------------
>
> _______________________________________________
> Lug-bg mailing list
> Lug-bg@xxxxxxxxxxxxxxxxxx
> http://linux-bulgaria.org/mailman/listinfo/lug-bg
>
Имаш проблем с определени роботи или като цяло имаш проблем с тях?
Някой разбират от лимити в robots.txt:
User-agent: *
Request-rate: 1/60
Visit-time: 0200-0600

Това ще ги лимитира да влизат само веднъж на минута (за всяка търсачка)
и само в часовата зона от 2ч до 6ч през ноща (UTC)

Все пак сподели дали имаш проблем с конкретни паяци или?
_______________________________________________
Lug-bg mailing list
Lug-bg@xxxxxxxxxxxxxxxxxx
http://linux-bulgaria.org/mailman/listinfo/lug-bg

_______________________________________________
Lug-bg mailing list
Lug-bg@xxxxxxxxxxxxxxxxxx
http://linux-bulgaria.org/mailman/listinfo/lug-bg


 

наши приятели

 

линукс за българи
http://linux-bg.org

FSA-BG
http://fsa-bg.org

OpenFest
http://openfest.org

FreeBSD BG
http://bg-freebsd.org

KDE-BG
http://kde.fsa-bg.org/

Gnome-BG
http://gnome.cult.bg/

проект OpenFMI
http://openfmi.net

NetField Forum
http://netField.ludost.net/forum/

 

 

Linux-Bulgaria.ORG

Mailing list messages are © Copyright their authors.