Semalt daje savjete kako se nositi sa botovima, paukovima i papucima

Osim što stvara URL-ove prilagođene tražilicama , .htaccess datoteka omogućuje webmasterima da blokiraju određene botove u pristupu njihovoj web stranici. Jedan način blokiranja ovih robota je kroz datoteku robots.txt. Međutim, Ross Barber, menadžer za uspjeh korisnika Semalta , navodi da je vidio kako neki pauzi ignorišu ovaj zahtjev. Jedan od najboljih načina je korištenje .htaccess datoteke kako bi se spriječilo da indeksiraju vaš sadržaj.

Kakvi su ovo robota?

Oni su vrsta softvera koji tražilice koriste za brisanje novog sadržaja s interneta za potrebe indeksiranja.

Oni obavljaju sljedeće zadatke:

  • Posjetite web stranice na koje ste povezani
  • Provjerite HTML kod za pogreške
  • Oni spremaju web stranice na koje povezujete i pregledavaju koje web stranice povezuju s vašim sadržajem
  • Oni indeksiraju vaš sadržaj

Međutim, neki su botovi zlonamjerni i pretražuju na vašoj web lokaciji adrese e-pošte i obrasce koji se obično koriste za slanje neželjenih poruka ili neželjene pošte. Ostali čak traže sigurnosne rupe u vašem kodu.

Što je potrebno za blokiranje web indeksa?

Prije upotrebe .htaccess datoteke, morate provjeriti sljedeće stvari:

1. Vaša web lokacija mora biti pokrenuta na Apache poslužitelju. Danas vam čak i one tvrtke koje pružaju usluge hostinga pola pristojne u svom poslu, omogućuju pristup potrebnoj datoteci.

2. Trebali biste imati pristup sirovim zapisima poslužitelja vaše web stranice kako biste mogli pronaći botove koji su posjetili vaše web stranice.

Imajte na umu da ne možete blokirati sve štetne botove ako ih ne blokirate, čak i one koje smatrate korisnim. Svakodnevno se pojavljuju novi botovi, a stariji se mijenjaju. Najefikasniji način je osigurati svoj kôd i teško da će vam robovi pošiljati neželjenu poštu.

Identificiranje botova

Botovi se mogu prepoznati po IP adresi ili iz njihovog niza "User Agent string" koji šalju u zaglavima HTTP-a. Na primjer, Google koristi "Googlebot".

Ovaj će vam popis možda trebati s 302 bota ako već imate ime robota kojim biste željeli držati dalje koristeći .htaccess

Drugi način je preuzimanje svih datoteka dnevnika sa poslužitelja i otvaranje putem uređivača teksta. Njihova lokacija na poslužitelju može se promijeniti ovisno o konfiguraciji vašeg poslužitelja. Ako ih ne možete pronaći, potražite pomoć od svog web domaćina.

Ako znate koja je stranica posjećena ili vrijeme posjete, lakše je doći s neželjenim botom. Možete pretraživati datoteku dnevnika s ovim parametrima.

Jednom ste primijetili koje botove trebate blokirati; tada ih možete uključiti u datoteku .htaccess. Imajte na umu da blokiranje robota nije dovoljno da ga zaustavi. Može se vratiti s novim IP-om ili nazivom.

Kako ih blokirati

Preuzmite kopiju .htaccess datoteke. Po potrebi napravite sigurnosne kopije.

1. metoda: blokiranje IP-om

Ovaj isječak koda blokira bot koristeći IP adresu 197.0.0.1

Naručite odbiti, dopustiti

Zanijekati od 197.0.0.1

Prvi redak znači da će poslužitelj blokirati sve zahtjeve koji odgovaraju obrascima koje ste naveli i omogućiti svim ostalim.

Drugi redak upućuje poslužitelju da izda stranicu 403: zabranjeno

Druga metoda: Blokiranje od strane korisničkih agenata

Najlakši način je korištenje Apacheova mehanizma za prepisivanje

Učitajte ponovoEngine uključeno

PrepišiCond% {HTTP_USER_AGENT} BotUserAgent

Prepiši Rule. - [F, L]

Prvi redak osigurava da je omogućen modul ponovnog pisanja. Drugi redak je uvjet na koji se pravilo odnosi. "F" u redu 4 kaže poslužitelju da vrati broj 403: Zabranjeno, dok "L" znači da je ovo posljednje pravilo.

Tada ćete učitati .htaccess datoteku na svoj poslužitelj i prebrisati postojeću. S vremenom ćete morati ažurirati IP-a bot-a. U slučaju da pogriješite, samo prenesite sigurnosnu kopiju koju ste napravili.

mass gmail