RačunalaProgramiranje

Što je pauk? alat Bageri "Yandex" i Google

Svaki dan na internetu postoji ogromna količina novih materijala za izradu web stranica ažurirana stare web stranice, upload fotografija i videa. Bez skrivena od tražilice se ne može naći u World Wide Web, nijedan od tih dokumenata. Alternative poput robotske programe u bilo kojem trenutku ne postoji. Ono što je pretraživanje robot, zašto si to i potrebno kako rade?

Ono što je pretraživanje robot

Bageri stranice (search engine) - to je automatski program koji je u stanju da posjetite milijune web stranica, brzo kretanje putem interneta bez intervencije operatera. Botovi stalno prostor skeniranje World Wide Web, pronalaženje novih web stranice i redovno koristite već indeksirane. Drugi nazivi za web crawlers pauka, gmizavci, robota.

Zašto search engine spiders

Glavne funkcije koje obavljaju tražilicu pauci - web stranice indeksirane, kao i tekst, slike, audio i video datoteke koje su na njima. Robota provjeriti reference, zrcalnih (kopije) i ažuriranja. Roboti i vrši kontrolu HTML-kod za sukladnosti standardima Svjetske organizacije, koja razvija i implementira tehnološkim standardima za World Wide Web.

Ono što je indeksiranje, i zašto je to potrebno

Indeksiranje - je, u stvari, je proces u posjeti određene web stranice na tražilice. Program skenira tekst na ovom sajtu, slike, video, outbound linkova, onda stranice se pojavljuje u rezultatima pretraživanja. U nekim slučajevima, sajt se ne može automatski skenirati, onda se može dodati u tražilicu ručno webmaster. Obično se to dogodi u odsustvu vanjskih linkova na određeni (često tek nedavno napravili) stranici.

Kako roboti pretrazivaca

Svaka tražilica ima svoj bot sa Google pretraživača robot može značajno varirati u skladu sa mehanizam radi na sličan program, "Yandex" ili drugim sistemima.

U principu, princip rada robot je kako slijedi: program "dolazi" na mjestu i, vanjske linkove na svoju glavnu stranu ", navodi" Web resursa (uključujući i one koji traže iznad glave da ne vidi korisnik). Brod je kako za navigaciju između stranica lokacije i preći na druge.

Program će izabrati koje stranice na index? Češće nego ne "trip" pauk počinje sa vestima ili većih resursa direktorija i agregatori s velikim referentni težine. Bageri kontinuirano skenira stranice jedan po jedan, na brzinu i konzistentnost indeksiranja sledećih faktora:

  • Interna: perelinovka (interne veze između stranica istog izvora), veličina stranice, ispravan kod, user-friendly i tako dalje;
  • Vanjski: ukupan referentne težine, što dovodi do stranice.

Prva stvar za pretraživanje robota pretraživanja na bilo kojoj web-stranici robots.txt. Dalje resurs indeksiranje se vrši na osnovu informacija dobijenih je iz ovog dokumenta. Ova datoteka sadrži specifične instrukcije za "pauka" koji mogu povećati šanse za posjećene stranice na tražilice, i, shodno tome, kako bi se postigao rani pogodak stranice u "Yandex" ili Google.

Program analoge crawlers

Često se pojam "pretraživanje robot" je zbunjena sa inteligentnim, korisnika ili autonomni agenti, "mravi" ili "crva". Uronjen značajne razlike samo u odnosu na sredstva, druge definicije odnose se na slične vrste robota.

Na primjer, agenti mogu biti:

  • intelektualac: program, koji se preselio iz mesta do mesta, samostalno odlučuje kako dalje; oni nisu vrlo čest na internetu;
  • Autonomne: Ovi agenti pomažu korisniku u odabiru proizvoda, pretraživanje, ili popunjavanjem obrazaca, tzv filteri, koji su malo u vezi sa mrežom programa;.
  • korisnik: program doprinosi interakciju korisnika sa World Wide Web, browser (na primjer, Opera, IE, Google Chrome, Firefox), glasnika (Viber, Telegram) ili e-mail programa (MS Outlook i Qualcomm).

"Mravi" i "crvi" su sličniji tražilicu "pauka". Prvi oblik između mreže i dosljedno komunicirati ovako koloniju mrava, "crvi" je u stanju replicirati u drugim aspektima ista kao standardni bageri.

Raznolikost robota tražilice

Razlikujemo više vrsta crawlers. Ovisno o namjeni programa, to su:

  • "Ogledalo" - duplikati su trenutno sajtova.
  • Mobile - fokus na mobilnim verzijama web stranice.
  • Quick - popraviti nove informacije brzo pregledate najnovije.
  • Reference - referentni indeks, računati njihov broj.
  • Indeksere različite vrste sadržaja - posebne programe za tekst, audio, video, slike.
  • "Spyware" - u potrazi za stranice koje se još ne prikazuju u tražilicu.
  • "Detlić" - povremeno posjetiti sajtova da provjerite njihovu relevantnost i efikasnost.
  • National - pretražujete Web resursima koji se nalaze na jednoj od domena zemlje (npr .mobi ili .kz .ua).
  • Global - indeks svim nacionalnim lokacijama.

Roboti glavni tražilice

Tu su i neki pauci tražilice. U teoriji, njihova funkcionalnost može široko varirati, ali u praksi su programi gotovo identični. Glavne razlike indeksiranje web stranice robotima dvije glavne tražilice su kako slijedi:

  • Strogost testiranja. Smatra se da je mehanizam bageri "Yandex" nešto stroži procjene lokacije za usklađivanje sa standardima World Wide Web.
  • Očuvanje integriteta stranice. Google finišer indeksira cijeli site (uključujući i medijskih sadržaja), "Yandex" možete pogledati sadržaj selektivno.
  • Test brzine nove stranice. Google dodaje novi resurs u rezultatima pretrage u roku od nekoliko dana, u slučaju "od Yandex" proces može potrajati dva tjedna ili više.
  • Učestalost reindeksacije. Bageri "Yandex" check for updates dva puta tjedno, a Google - jedan svakih 14 dana.

Internet, naravno, nije ograničena na dva tražilice. Ostale tražilice imaju svoje robote koji slijede vlastite indeksiranje parametara. Osim toga, postoji nekoliko "pauka" koji su dizajnirani ne većih resursa za pretraživanje, i individualni timovi ili webmasteri.

zabluda

Suprotno popularnom vjerovanju, "pauka" ne obrađuju informacije. Program skenira samo i pohranjuje web stranice i dalje obrade potrebno potpuno drugačiji robota.

Isto tako, mnogi korisnici smatraju da je pauci tražilice imati negativan utjecaj i "štetne" Internet. U stvari, neke verzije "pauka" može značajno preopteretiti server. Tu je i ljudski faktor - webmaster, koji je stvorio program, mogu napraviti greške u konfiguraciji robota. Ipak, većina postojećih programa su dobro osmišljen i profesionalno upravlja, i bilo koje druge nastale probleme odmah ukloniti.

Kako upravljati indeksiranja

roboti tražilice su automatski programi, ali proces indeksiranje može biti djelomično pod kontrolom webmaster. Ovo znatno pomaže eksterne i interne optimizacije resursa. Osim toga, možete ručno dodati novu lokaciju u tražilicu: veliki resursi imaju poseban oblik registracije Web stranice.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 bs.delachieve.com. Theme powered by WordPress.