Mutluluk Yolu, Ücretsiz E-kitap
Daha iyi ve mutlu bir yaşam için 21 tane sağlıklı öneri. Ücretsiz Ekitap.
  Webmaster Sitesi > Google & Arama Motoru Dünyası > Genel

Web Sayfalarını Tarayan Spam ve Casus Robotları Engelleme

Genel Web Sayfalarını Tarayan Spam ve Casus Robotları Engelleme Google & Arama Motoru Dünyası hakkında bilgi paylaş; Mart 2004 İlker Fıçıcılar Web sayfalarımı her gün pek çok robot gezip bandwidth'den giderek daha ...
Cevapla Yeni Konu aç
 
Seçenekler
  #1  
Arama 27-04-2008
teknokız - ait Kullanıcı Resmi (Avatar)

Üyelik Tarihi: 09/02/08
Mesajlar: 686
 
     WS-Ticareti: (2)
Blog Yazıları: 13
Teşekkürleri: 233
76 Msg. 144 Tşkr.
Rep Gücü: 305 teknokız has a reputation beyond reputeteknokız has a reputation beyond reputeteknokız has a reputation beyond reputeteknokız has a reputation beyond reputeteknokız has a reputation beyond reputeteknokız has a reputation beyond reputeteknokız has a reputation beyond reputeteknokız has a reputation beyond reputeteknokız has a reputation beyond reputeteknokız has a reputation beyond reputeteknokız has a reputation beyond repute

Web Sayfalarını Tarayan Spam ve Casus Robotları Engelleme

Mart 2004
İlker Fıçıcılar

Web sayfalarımı her gün pek çok robot gezip bandwidth'den giderek daha fazla çalmaya başlayınca bir çözüm aramak gerekti. Web sunucularımın önünde squid bir httpd hızlandırıcı olarak çalışıyor. Uygun refresh_pattern ayarlarıyla squid'in sunucuyu oldukça rahatlattığını söyleyebilirim. Squid'le mutluyuz ve mutluluk gölgeleyici bu kötü robotlardan kurtulmak istiyoruz.

Squid ile Apache bir denge içinde çalışmalı, aksi halde kullanıcılar, sayfayı gezenler istenmeyen sonuçlarla karşılaşıyorlar. Performans için gerek squid'de gerekse apache'de pek çok ayarı sınırlarında kullanmak gerekiyor. Örneğin apache'de mod_gzip açtıysanız, apache'nin önündeki squid'in sayfaların farklı biçimlerini de önbellekte tutmasını sağlamalısınız, yoksa gzip ile sıkıştırılmış sayfaları gösteremeyen bir tarayıcı sayfalarınızı okuyamayacaktır.

Benzer şekilde kötü robotları apache içinden engellerseniz ve uygun Vary başlıkları eklemezseniz, ya robotlar squid'de daha önce normal kullanıcılarca önbelleklenmiş bilgiye ulaşacaklar ve engellenmemiş olacaklar, ya da ilk davranan kötü bir robotsa ve bu istek önbelleğe girdiyse normal kullanıcılar da Erişim Yasak sayfası ile karşılaşacaklardır. Bunu önlemek için apache'ye Header append "Vary:" "User-Agent" şeklinde bir ekleme yapabilirsiniz, ama bu da squid'in her sayfanın her tarayıcı için ayrı bir kopyasını önbellekte tutmasına yol açar. Bu ise, ziyaret eden farklı user-agent sayısına göre, performansını on kattan daha fazla düşürüyor.

Bu durumda, apache'de vary başlığı ayarı olarak sadece Header append "Vary:" "Accept-Encoding" kullanmak, apache'de RewriteEngine ile RewriteCond %{HTTP_USER_AGENT} EmailSiphon ve RewriteRule .* - [F,L] biçimindeki yasaklamaları kullanmamak gerekiyor. Yapmak istediğimizi squid acl'leri ile halledeceğiz.

Önce, apache veya squid http_accelerator kayıtlarınızı inceleyerek sizi rahatsız eden robotları tesbit etmelisiniz. Aşağıdaki liste veya internetteki başka listeler yerine kendi istenmeyen robotlar listenizi oluşturmanız verimlilik açısından yararlı olacaktır. Yine de bu kısa listeyi kullanabilirsiniz:

EmailSiphon
Microsoft\ URL\ Control
NPBot
Windows\ XP
FrontPage
MSIECrawler
HTTrack
^Mozilla/4.0$
Sqworm
WebCopier
WebReaper


Bu listedeki FrontPage sayfanızı editlemeye çalışıp başarılı olamadıkça tekrar tekrar deneyen acemileri engellemek için. Windows XP yazısı ise hiçbir normal user-agent'ta görülmez. Diğerleri ise spam, casus ve offline robotları / agent'ları genelde. Sayfanızın Teleport, GetRight vb. programlarla sömürülmesini istemiyorsanız listeyi bunları da ekleyerek biraz daha genişletebilirsiniz:

DA\
GetRight
FlashGet
Teleport
EmailSiphon
Microsoft\ URL\ Control
NPBot
Windows\ XP
FrontPage
MSIECrawler
HTTrack
^Mozilla/4.0$
Sqworm
WebCopier
WebReaper


Bu listeyi bir dosyaya yazıp kaydedin. Ben /usr/local/share/koturobot.lst dosyasına yazıp, squid.conf ayar dosyasına şu satırları ekledim:

acl koturobot browser "/usr/local/share/koturobot.lst"
http_access deny koturobot

Evet, hepsi bu. Eğer www sunucularınızın önünde bir squid httpd hızlandırıcı olarak çalışıyorsa, bu ayar sayfalarınızdan eposta adresi ve resim çalınması engellemek yönünde iyi bir adım olacak ve bandwidth'inizin de bir miktar rahatlamasını sağlayacaktır.

Eğer, squid'siz sadece apache sunucuyu kullanıyorsanız, virtual hostlarınız için aşağıdaki gibi bir ayar eklemesiyle apache'nin bu robotları engellemesini sağlayabilirsiniz:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} "DA " [OR]
RewriteCond %{HTTP_USER_AGENT} GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} Teleport [OR]
RewriteCond %{HTTP_USER_AGENT} EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} "Microsoft URL Control" [OR]
RewriteCond %{HTTP_USER_AGENT} NPBot [OR]
RewriteCond %{HTTP_USER_AGENT} "Windows XP" [OR]
RewriteCond %{HTTP_USER_AGENT} FrontPage [OR]
RewriteCond %{HTTP_USER_AGENT} MSIECrawler [OR]
RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} "^Mozilla/4.0$" [OR]
RewriteCond %{HTTP_USER_AGENT} Sqworm [OR]
RewriteCond %{HTTP_USER_AGENT} WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} WebReaper
RewriteRule .* - [F,L]


Bu yöntemle sadece user-agent'inden tanınabilen robotları durdurabiliyoruz. Diğerleri, user-agent bilgilerini normal olanlara benzeterek bu filtrelerden geçebiliyorlar. Bunları ise IP adreslerinden, IP bloklarından tanıyarak engellemek mümkün. Bu engeli de ister iptables ile, istersek de squid ile koyabiliriz. Kısa bir Kötü Robot IP Listesi olarak şunlar kullanılabilir:

64.140.49.66/30
12.148.196.128/25
12.148.209.192/26
63.148.99.224/27


Bu listeyi, /usr/local/share/koturobotip.lst gibi bir dosyaya kaydettikten sonra, iptables ile şu şekilde kullanıyoruz:

cat /usr/local/share/koturobotip.lst | while read ipler
do
iptables -A INPUT -i $DEV -s $ipler -p tcp --destination-port 80 -j DROP
done



Squid içinden kullanabilmek için listeyi önce squid'in anlayabileceği biçime getirelim:

64.140.49.66-64.140.49.69/255.255.255.69
12.148.196.128-12.148.196.255/255.255.255.255
12.148.209.192-12.148.209.255/255.255.255.255
63.148.99.224-63.148.99.255/255.255.255.255


Bu IP listesini /usr/local/share/koturobotadres.lst dosyasına yazıp şu iki satırı da squid'e ekleyerek squid'in bu adresleri engellemesini sağlarız:

acl koturobotadres src "/usr/local/share/koturobotadres.lst"
http_access deny koturobotadres

Daha kapsamlı bir Kötü Robotlar Listesi olarak aşağıdaki kullanılabilir:

almaden
CherryPicker
Crescent
DA\
DIIbot
EmailCollector
EmailSiphon
EmailWolf
ExtractorPro
FlashGet
FrontPage
GetRight
HTTrack
InternetSeer\.com
LinkWalker
Microsoft\ URL\ Control
Mozilla.*Indy
Mozilla.*NEWT
^Mozilla/4.0$
MSIECrawler
NICErsPRO
NPBot
psbot
sitecheck\.internetseer\.com
Sqworm
Teleport
WebBandit
webbandit
WebCopier
WebEMailExtrac
WebReaper
Windows\ XP
Zeus.*Webster


Son Not: Bazen çok ufak unutkanlıklar, sorunu yanlış yerde aramamıza ve epeyce bir zaman kaybetmemize yol açabilirler. Sözün özü, yukarıdaki değişiklikleri yaptıktan sonra squid ve/veya apache'yi yeniden başlatmayı unutmamakta yarar var.

Yardımcı Kaynaklar:

*
*
*
*


Mart 2004
İlker FIÇICILAR


ALINTIDIR
__________________
Alıntı ile Cevapla
3 Üye, teknokız isimli Üyemize Bu Mesaj İçin Teşekkür Ediyor:
Sponsorlar
WebmasterSitesi.Com
Liquidweb serverları tarafından host ediliyor!
Burada Reklam Verin
Reklamınız

Google.Com.Tr
  #2  
Arama 27-04-2008
W-S - ait Kullanıcı Resmi (Avatar)
W-S W-S forumda değil

Üyelik Tarihi: 23/08/07
Mesajlar: 1.415
 
     WS-Ticareti: (7)
Blog Yazıları: 7
Teşekkürleri: 786
118 Msg. 212 Tşkr.
Rep Gücü: 100 W-S isimli üye Tecrübe puanını kapatmıştır.
Cok yararli bi alinti olmus icerigini korumak isteyenler icin ideal.
__________________
~ ~
"Alıntı yaptığınızda link vermeyi ihmal etmeyiniz!"
Alıntı ile Cevapla
  #3  
Arama 27-04-2008
sema - ait Kullanıcı Resmi (Avatar)

Üyelik Tarihi: 21/02/08
Mesajlar: 676
 
     WS-Ticareti: (3)
Teşekkürleri: 190
173 Msg. 226 Tşkr.
Rep Gücü: 207 sema has a reputation beyond reputesema has a reputation beyond reputesema has a reputation beyond reputesema has a reputation beyond reputesema has a reputation beyond reputesema has a reputation beyond reputesema has a reputation beyond reputesema has a reputation beyond reputesema has a reputation beyond reputesema has a reputation beyond reputesema has a reputation beyond repute
çok yararlı bir paylaşım olmuş.Ellerine ve emeğine sağlık
Alıntı ile Cevapla
  #4  
Arama 28-04-2008
Nicholas - ait Kullanıcı Resmi (Avatar)

Üyelik Tarihi: 14/02/08
Mesajlar: 156
 
     WS-Ticareti: (0)
Teşekkürleri: 2
11 Msg. 17 Tşkr.
Rep Gücü: 29 Nicholas altın gibi repe sahipNicholas altın gibi repe sahipNicholas altın gibi repe sahip
Çok yararlı bir makale..Teşekkürler.
Alıntı ile Cevapla
  #5  
Arama 29-04-2008

Üyelik Tarihi: 16/09/07
Mesajlar: 312
 
     WS-Ticareti: (0)
Teşekkürleri: 17
16 Msg. 32 Tşkr.
Rep Gücü: 17 aKaLes rep gücü epey yüksekaKaLes rep gücü epey yüksek
spam yorumlar,botlardan bıkmış kulllanıcılar için güzel bir makale: )
__________________
Bedava-Reklamsız-Kaliteli PHP Hosting.
Alıntı ile Cevapla
Cevapla

 
Seçenekler


Benzer Konular
Konu Konu Açanlar Forum Cevaplar Güncel Mesajlar
Robots.txt Dosyası Kullanım Robotları Yölendirme Kontrol kardesbune SEO Arama Motoru Optimizasyonu 1 28-04-2008 04:33
Web robotları hakkında her türlü bilgi! teknokız Yeni Başlayanlara WebmasterSitesi 0 27-03-2008 06:04
Casus yazılım nedir? teknohaberci Webmaster Sözlügü 0 19-02-2008 02:33
IP Engelleme Fonksiyonu B737 ASP 0 26-01-2008 03:39
Açılış Sayfalarını Seçme « teknohaberci Google Adwords 0 09-12-2007 11:48

Text Reklam: evden eve nakliyat ~ facebook
Yapacağınız alıntılarda sitemize (http://webmastersitesi.com) link veriniz. "Bilgi paylaştıkça çoğalır."