Organizarea căutării de informații educaționale pe Internet. Principiile organizării și căutării informațiilor pe Internet

Căutați informații pe internetul global: Informații generale

Conform principiului organizării și utilizării, instrumentele de căutare pot fi împărțite în:

    Cataloage ... Directoarele sunt directoare care conțin liste de adrese de internet, grupate după anumite criterii. De regulă, acestea sunt grupate pe subiecte (știință, artă, știri etc.), unde fiecare subiect se ramifică în mai multe subniveluri. Câteva directoare de căutare:

Nume

Hei!

www.au.ru

Atrus (este necesara inregistrarea)

www.atrus.ru

List.ru

www.list.ru

Constelaţie

www.stars.ru

Melc

www.ulitka.ru

Ivan Susanin

www.susanin.ru

    Motoare de căutare mașini ... Pentru o căutare detaliată a documentelor se folosesc motoare de căutare specializate - motoare de căutare. La primirea unei solicitări din partea utilizatorului, motorul de căutare produce o listă de documente care corespund sarcinii de căutare. Documentele găsite sunt clasificate în funcție de locația cuvintelor cheie (în titlu, la începutul textului, în primele paragrafe) și de frecvența de apariție a acestora în text. Diferitele motoare de căutare oferă rezultate diferite. Cele mai comune dintre motoarele de căutare sunt:

Nume

EU SUNT index

www. yandex. ru

A port

www.aport.ru

R ambler

www.rambler.ru

G cărbune

www.google.ru

M eil

www. Poștă.ru

EU SUNT NS

www.yahoo.com

A ltavista

www.altavista.com

O interogare de căutare poate consta din unul sau mai multe cuvinte, poate conține diverse semne de punctuație. În ceea ce privește cazul, în cazul general, cazul ortografiei cuvintelor și operatorilor de căutarenu contează , adică cuvintele „abstract”, „Abstract”, abstract, „ABSTRACT” și „RESUM” vor fi percepute la fel. Acest lucru se aplică pe deplin alfabetului latin. Deci, „Yes „și” DA „, și chiar „da””, „da” și „da” sunt toate la fel pentru căutare.

Munca practica„Căutați informații pe internetul global”



Ascunzând aroma în muguri,

Liliacurile înfloresc.

Mai înflorește, adică

Astăzi este sărbătoare - ziua mai!

    Salvați poem:


  1. Căutare poze de vacanta:


  2. Consultați rezultatele căutării situat pe 1 pagina. Accesați pagina a 2-a: derulați rotița mouse-ului pentru a fi în partea de jos a ferestrei browserului și faceți clicL KM pe link-ul paginii2 .

    Te rog selecteaza poza care vă place și faceți clic pe eaL KM.

În fereastra nouă veți vedea aceeași poză, doar la o dimensiune mărită. În dreapta acesteia vor fi informații despre dimensiunea imaginii și site-urile pe care se află.

    Copiați poza :

    1. efectuați un clicNS CM în imagine;

      alege echipaCopiați imaginea ;

      închideți fereastra browserului făcând clic pe butonulÎnchide .

    Inserați o poză în document:

    1. du-te la fereastră editor de text(ar trebui să existe o poezie de felicitare);

      fixați cursorul cu un clicL KM după ultimul personaj al poeziei (acesta este! ) și apăsați tastaintroduce pentru a muta cursorul pe o linie nouă;

      efectuați un clicNS KM;

      în meniul local selectați comandaIntroduce .

    Salvați documentul în folderul personal sub numeFelicitări lui *** de la *** ... În loc de primul ***, introduceți numele persoanei căreia i se va trimite felicitarea; în loc de al doilea ***, introduceți-vă numele. De exemplu,Felicitări pentru Anastasia de la Olga ... Închideți programul de editare de text.

    Lansați browserul Google Crom
    .

    Mergeți la căsuța dvs. poștală pe portalPoștă . ru

    În meniul principal de e-mail (în partea de sus a ferestrei), selectați comandaScrie un mesaj .

    Completați câmpurile obligatorii :


  1. Selectați butonultrimite (este situat atât în ​​partea de sus, cât și în partea de jos a ferestrei browserului).

    Închideți fereastra browserului.

    Opriți computerul.

Exercitiul 1

Exercițiu : Găsiți numele celui mai mare lac de apă dulce din lume.


Pentru o lucru optim și rapid cu motoarele de căutare, există anumite reguli pentru scrierea interogărilor. O listă detaliată pentru un anumit server de căutare poate fi găsită, de regulă, pe serverul însuși sub linkurile Ajutor, Sugestie, Reguli pentru efectuarea unei cereri etc.

    Organizați-vă căutarea și completați tabelul cu rezultatele căutării:

    Întrebare

    Rezultatele căutării (număr de pagini)

    yandex . ru

    hoinar . ru

    google.ru

    Poștă .ru

    aport . ru

    Cum să găsești o persoană pe internet prin fotografie?

    Cum să vă înregistrați pe site-ul web Vkontakte?

    Cum să elimini ochii roșii?

    Închideți browserul (ieșiți din program).

Exercițiul 2

Exercițiu : găsibiografia ministrului educației al Federației Ruse A.A. Fursenko folosind un motor de căutareg oogle. r u

Exercițiul #3

Căutarea operelor literare pe internet




Atenţie! Pentru a vizualiza cărțile în formatFB2 ai nevoie de un program special ("cititor"). De exemplu,AlReader .

Găsirea informațiilor pe Internet

Găsirea informațiilor pe Internet

Pentru a găsi informațiiîn uzual folosit trei moduri(A se vedea figura 1). Primul dintre ele - căutare după adresă. Este folosit atunci când utilizatorul cunoaște adresa resursei informaționale care conține informațiile de care are nevoie. Atunci când organizează o căutare de informații după adresă (forma adresei - IP, domeniu sau URL - în acest caz nu contează), utilizatorul trebuie doar să introducă adresa resursei în câmpul corespunzător al browserului - un program conceput pentru a oferi acces la resursele rețelei.

Orez. 1. Metode de căutare a informațiilor în baze de date hipertext

Al doilea- căutare folosind navigarea prin hyperlink. La utilizarea acestui tip de căutare, utilizatorul trebuie să acceseze mai întâi serverul asociat bazei de date corespunzătoare. Apoi, puteți găsi documentul folosind hyperlink-uri. Evident, această metodă este convenabilă atunci când adresa resursei este necunoscută utilizatorului. Pentru a fi folosite ca punct de plecare pentru căutare la implementarea acestei metode, sunt destinate portalurile Web - servere care oferă acces direct la un număr de servere, inclusiv la cele instalate pe acestea. resurse informaționale precum și aplicații Web care implementează servicii Web adecvate scopului portalului. Serverele accesibile prin portal pot aparține unui anumit sistem (de exemplu, corporativ) sau diverse sistemeși să fie special selectați în funcție de caracteristicile specifice, tematice sau de altă natură ale documentelor și datelor conținute pe site-urile lor. De obicei, portalurile combină o varietate de funcții pentru a păstra clientul cât mai mult posibil. Serviciul dominant al portalului este serviciul help desk: căutare, rubrici, indici financiari, informații meteo etc. În timp ce site-urile Web sunt în majoritatea cazurilor colecții de pagini Web statice, portalurile sunt colecții de instrumente softwareși informații nestructurate în prealabil, pe care aceste instrumente le transformă în date structurate la cererea anumitor utilizatori.

Al treilea metoda de căutare presupune utilizarea motoarelor de căutare pe Internet. Motoarele de căutare sunt computere gazdă dedicate care găzduiesc baze de date cu resurse de Internet. Interfața cu utilizatorul un astfel de server are un câmp pentru introducerea cuvintelor cheie care descriu subiectul de interes pentru utilizator (vezi Fig. 2).

Fig. 2. Vizualizarea ferestrei serverului de căutare Yandex

Serverul percepe aceste cuvinte ca pe o solicitare de informații, în conformitate cu care caută resurse și prezintă utilizatorului o listă cu documentele găsite. Evident, la implementarea acestei metode, sunt posibile erori atât de primul (sărirea țintei) cât și de al doilea tip (zgomot informațional). De menționat că se disting două grupuri de motoare de căutare: motoarele de căutare și directoarele de subiecte. Diferența lor se datorează metodei de creare și completare ulterioară a bazei de date a resurselor de Internet, care acest server efectuează căutarea informațiilor. Deci, motoarele de căutare includ program special- robot de căutare. Monitorizează în mod constant rețeaua, colectează informații din paginile Web, le indexează și înregistrează imaginea lor de căutare în baza de date. În cataloagele de subiecte, o bază de date de documente de pe Internet este formată „manual” de către editori de specialitate. Din moment ce nu există o singură administrație pe Internet, resursele sale de informații sunt în continuă schimbare. În el pot apărea documente noi, iar documentele existente pot dispărea. Frecvența de actualizare a informațiilor în documente pentru diferite site-uri este diferită: pentru unii este de câteva ori pe oră, pentru unii - o dată pe zi, zi, lună etc. Prin urmare, este foarte important să înțelegeți acest lucru atunci când utilizați informații motoare de căutare Pentru a găsi informații pe Internet, căutarea se efectuează nu în spațiul real al documentelor Web, ci într-un anumit model, al cărui conținut poate diferi semnificativ de conținutul real al Internetului la momentul căutării. În funcție de gradul de acoperire al resurselor indexate, motoarele de căutare pot fi împărțite în două grupe: internaționale și vorbitoare de limbă rusă. Prima indexează toate documentele publicate pe Internet la rând. Acestea din urmă indică resursele situate în zonele de domeniu cu predominanța limbii ruse. Lista celor mai populare sisteme este dată în tabel. 1.

Tab. 1. Cele mai populare motoare de căutare

Internaţional vorbitor de rusă
Google Yandex (44,4% din Runet)
Yahoo! Rambler (10,6% din Runet)
Bing Mail.ru (7,3% Runet)
MSN Nigma (0,5% Runet)
AltaVista Gogo.ru (0,3% Runet)
Cere Aport (0,2% Runet)

Notă: Runet este partea de limbă rusă a Internetului, constituind domenii cu nume ru și rf.

De menționat că există o categorie specială de motoare de căutare - metamotoare de căutare. Diferența lor fundamentală față de motoarele de căutare și cataloagele de subiecte este că nu au propria lor bază de date de index și, prin urmare, după ce a primit cererea unui utilizator, o redirecționează către mai multe motoare de căutare simultan (vezi Fig. 3).

Orez. 3. Schema sistemului de metacăutare

Posibilitate utilizare simultană mai multe motoare de căutare pentru o singură interogare este avantaj evident metamotoare de căutare. În prezent, sistemul Metabot.ru a găsit o aplicație largă, a cărei interfață este prezentată în Fig. 4. Acest sistem vă permite să utilizați atât motoare de căutare internaționale, cât și în limba rusă pentru a căuta resurse.

Problema căutării pe World Wide Web nu este că există puține informații, ci că există multe. Găsirea de informații pe internet este piatra de temelie munca eficienta pe net. Deținerea abilităților de căutare face ca Internetul să fie util pentru utilizator atât în ​​timpul serviciului, cât și în timpul liber.
Pentru organizarea căutărilor pe Internet există servicii specializate numite motoare de căutare.

Motoare de căutare.

Motoarele de căutare este un complex software și hardware cu o interfață web, care face posibilă căutarea de informații pe Internet.
Majoritatea motoarelor de căutare caută informații pe site-uri World Wide Web, dar există și sisteme care pot căuta fișiere pe serverele FTP, produse din magazinele online și informații despre grupurile de știri Usenet. Pentru a căuta informații folosind un motor de căutare, utilizatorul formulează o interogare de căutare. La cererea utilizatorului, motorul de căutare generează o pagină cu rezultatele căutării. Astfel de rezultatele cautarii poate combina diferite tipuri de fișiere, de exemplu: pagini web, imagini, fișiere audio. Unele motoare de căutare extrag și date din baze de date și directoare de resurse de pe Internet.
Scopul unui motor de căutare este de a găsi documente care conțin fie cuvinte cheie, fie cuvinte legate în orice mod de cuvintele cheie. Motorul de căutare este cu atât mai bun, cu cât mai multe documente relevante pentru interogarea utilizatorului, va reveni. Rezultatele căutării se pot înrăutăți din cauza naturii algoritmilor. De exemplu, ca răspuns la o solicitare pentru animale de companie, serverul de căutare Yandex (pentru mai multe detalii vezi mai jos) oferă peste 14.000.000 de link-uri către pagini care conțin informațiile de care crede că are nevoie. Totuși, nu totul este atât de simplu: atunci când vizitezi unele dintre paginile găsite, se dovedește că informațiile pe care le cauți nu sunt suficiente, sau chiar deloc.
Pentru a căuta cu eficiență maximă, trebuie să știți cum funcționează motoarele de căutare și să compuneți corect o cerere de căutare de informații.

Cum funcționează motoarele de căutare

Motoarele de căutare funcționează prin stocarea informațiilor despre multe pagini web de pe care le obțin Pagini HTML... Principalele componente ale unui motor de căutare: robot de căutare, indexator, motor de căutare. Sistemele funcționează de obicei în etape. Crawler-ul primește mai întâi conținutul, apoi accesează cu crawlere conținutul site-urilor web. Abia atunci indexatorul generează un index care poate fi căutat. Un indexator este un modul care analizează o pagină după ce o împarte în părți folosind proprii algoritmi lexicali și morfologici.
În centrul activității majorității motoarelor de căutare moderne se află indexul de citare, care este calculat de către indexator ca rezultat al analizei legăturilor către pagina curenta de pe alte pagini de internet. Cu cât sunt mai multe, cu atât este mai mare indicele de citare al paginii analizate, cu atât această pagină va fi afișată mai sus în rezultatele căutării și cu atât pagina va fi prezentată mai sus în lista resurselor găsite.

Reguli pentru crearea interogărilor de căutare

După cum sa menționat deja, există multe motoare de căutare pe Internet, atât interne, cât și străine.
Servere de căutare rusești: Yandex (www.yandex.ru); Rambler (www.rambler.ru); Aport (www.aport.ru) și Gogo (www .gogo .ru).

Motoare de căutare străine: Google ( www .google .com); Altavista (www .altavista .com) și Yahoo! (www .yahoo .com).
Pentru căutarea în rusă, serverele rusești sunt mai potrivite, pentru cele străine - cele străine, deși Google face o treabă bună căutând în multe limbi. În ciuda pretențiilor multor proprietari de motoare de căutare că interogările pot fi scrise practic în limba pe care oamenii o folosesc pentru a comunica între ei, acest lucru este departe de a fi cazul. Datorită introducerii noilor tehnologii lingvistice, motoarele de căutare au o înțelegere mult mai bună a utilizatorului. Motoarele de căutare caută acum nu numai cuvântul solicitat, ci și formele acestuia, ceea ce face posibilă ca rezultatele căutării să fie mai precise. De exemplu, dacă cuvântul inteligent este prezent într-o interogare de căutare, atunci rezultatele sale vor conține nu numai acest cuvânt, ci și derivatele sale: inteligent, inteligent, precum și inteligență și chiar inteligență. Desigur, paginile cu forme de cuvinte nu vor fi printre primele rezultate ale căutării, dar sunt prezente elemente de inteligență artificială. Este util să ținem cont de acest fapt atunci când construiești interogări de căutare.
Trebuie reținut că motoarele de căutare nu țin cont de majuscule și minuscule atunci când procesează o interogare și nu este necesar să se utilizeze semne de punctuație în interogările de căutare, deoarece acestea sunt, de asemenea, ignorate de motoarele de căutare. Cu toate acestea, semnele de punctuație tradiționale sunt folosite atunci când se construiesc interogări complexe complexe, care tind să producă rezultate de căutare mult mai apropiate decât se aștepta. Majoritatea motoarelor de căutare pot face față greșelilor de scriere. Dacă serverul de căutare consideră că există o greșeală sau o greșeală de tipar în cuvânt, va avertiza cu aceeași expresie: Poate că ați căutat....

Cuvinte pentru motorul de căutare

Există o expresie „O mașină trebuie să funcționeze, o persoană trebuie să gândească”, și se spune doar despre o astfel de situație. La alcătuirea unei interogări de căutare, sarcina utilizatorului este să evidențieze cuvintele cheie, sarcina serverului de căutare este să proceseze cererea introdusă în cel mai bun mod. Luați în considerare un exemplu care ilustrează greșeli tipice utilizatorii începători când caută pe internet. Pentru interogarea „ghicitori despre instrumente muzicale”, motorul de căutare nu a dat rezultate utile. Apoi, utilizatorul decide să corecteze interogarea, adăugând la ea și scriind: „ Ghicitori pentru copii despre instrumente muzicale” - rezultatele căutării s-au dovedit a fi chiar mai proaste decât cele precedente. Pentru acest exemplu o soluție bună a fost să căutați cuvântul cheie „ghicitori”. Există multe astfel de site-uri pe Internet și, mergând pe site-ul în sine și căutând puțin în secțiunile sale, este destul de posibil să găsiți informațiile de interes. Să formulăm câteva reguli pentru alcătuirea cererilor:

  • alegeți doar cele mai importante cuvinte cheie legate de subiectul luat în considerare;
  • nu ar trebui să fie prea multe cuvinte, dar nici prea puține;
  • în cazul rezultatelor nesatisfăcătoare ale căutării, utilizați condiții „mai blânde” pentru interogare sau încercați să căutați în alt motor de căutare, deoarece motoarele de căutare funcționează diferit, prin urmare, rezultatele pot varia și ele.

Cautare Avansata

Pentru a oferi căutări mai eficiente pe Internet, motoarele de căutare oferă capabilități avansate de căutare, precum și căutări folosind un limbaj de interogare. Căutare avansată - capacitatea de a căuta cu mulți parametri diferiți. Pentru aceasta, motoarele de căutare oferă pagini separate pe care puteți seta astfel de parametri. Modul în care funcționează căutarea avansată este similar pentru majoritatea motoarelor de căutare.
Să luăm în considerare capacități de căutare suplimentare folosind exemplele motoarelor de căutare Yandex și Google, deoarece Yandex este cel mai popular server de căutare din Internetul vorbitor de limbă rusă, iar Google este cel mai popular popular motor de căutare in lume. Când a căutat pe Internet, Yandex a fost unul dintre primii care a luat în considerare morfologia limbii ruse, adică a folosit diferite forme ale cuvântului, așa cum am menționat mai sus. După ce a intrat pe site-ul www.yandex.ru, utilizatorul poate introduce o interogare și poate obține imediat rezultatele căutării sau puteți utiliza linkul Căutare avansată folosind pictograma și mergeți la pagina corespunzătoare (vezi figura de mai jos), unde puteți reglați fin parametrii de căutare.

Pagina de căutare avansată Yandex

Să luăm în considerare funcțiile suplimentare care pot fi utilizate pe pagina de căutare avansată: indicați propria locație (Moscova), indicați sub ce formă ar trebui să fie prezentate informațiile (Tipul fișierului), perioada de timp în care căutăm informații (pe zi, 2 săptămâni, pe lună, De la ..Do), în ce limbă ar trebui prezentată informația (rusă, engleză Mai mult), și puteți specifica și adresa URL a site-ului etc.
Alegerea (Exact ca în interogare) este indicată motorului de căutare astfel încât morfologia cuvintelor de interogare să nu se modifice, ci doar forma cuvântului care este specificat este căutată.

Limbajul de interogare

Limbajul de interogare este un sistem de comandă care vă permite să modificați parametrii de interogare din șirul principal de căutare folosind comenzi speciale. Axat pe utilizatori experimentați.
Deoarece limbajul de interogare este destul de complex și voluminos, vom oferi doar construcțiile sale de bază care pot fi cele mai solicitate de utilizatori. Unele comenzi ale limbajului de interogare Yandex sunt prezentate în tabel.

Operator

Descriere

Sintaxă

Exemplu de solicitare

Căutați documente în care cuvântul selectat este neapărat prezent.

Este permisă utilizarea mai multor operatori + într-o singură solicitare.

"cuvântul 1 + cuvântul 2"

Se vor găsi documente care conțin în mod necesar cuvintele „bulevard” și „Moscova” și pot conține cuvântul „șolokhov”.

Căutați după citat.

Căutați documente care conțin cuvinte de interogare într-o anumită secvență și formă.

"cuvântul 1 cuvântul 2 ... cuvântul N"

Se vor găsi documente care conțin acest citat.

Căutați după citat cu cuvintele lipsă.

Un operator * se potrivește cu un cuvânt lipsă.

Atenţie! Folosit numai ca parte a operatorului.

"cuvântul 1 * cuvântul 2 ... cuvântul N"

Operatorul este separat prin spații.

Se vor găsi documente care conțin acest citat, inclusiv cuvântul lipsă.

Vor fi găsite documente care conțin acest citat, inclusiv cuvintele lipsă.

Puteți afla mai multe despre structura limbajului de interogare Yandex pe pagina de ajutor (http://help.yandex.ru/search/?id=481939). Limba interogărilor de căutare pe Google diferă de Yandex, deși există câteva puncte comune. Revizuiți unele dintre comenzile de bază ale acestui limbaj examinând tabelul (vezi mai jos)

Complet cu structura limbajului interogări Google poate fi găsit pe pagina de ajutor:

4.5.1. Motoare de căutare tradiționale pe internet

Pentru găsirea informațiilor se folosesc servicii externe speciale - servere de căutare: motoare de căutare și cataloage.

Motoarele de căutare sunt servere care acumulează automat informații despre conținutul site-urilor, folosind programe robotizate speciale.

Oamenii selectează informații pentru serverele de directoare. Spre deosebire de motoarele de căutare, informațiile din cataloage sunt mai precis structurate și într-o formă ierarhică verticală.

Atât motoarele de căutare, cât și directoarele sunt servicii externe sau, așa cum sunt numite și sisteme de sine stătătoare. O caracteristică a sistemelor autonome este că ciclul de lucru cu informații se desfășoară complet direct pe acest sistem, începând cu obținerea de informații din sursa primară și terminând cu furnizarea unui serviciu de căutare către utilizatorul final.

Motoarele de căutare automate acoperă mai multe informații, informațiile lor sunt actualizate mai des și, prin urmare, mai relevante. Cu toate acestea, informațiile de pe astfel de servere sunt slab structurate, deoarece evaluarea conținutului unui anumit site este o sarcină dificil de oficializat. Cel mai adesea, programul robot selectează documentele doar prin prezența cuvintelor de căutare în textul documentului. Un exemplu de motor de căutare este AltaVista (http://www.altavista.com).

Toate informațiile din cataloage au o structură ierarhică verticală clară. Mai mult, această structură este construită pe baza conținutului semantic. Aceasta este valoarea principală a directoarelor procesate de oameni: nu puteți găsi multe site-uri care conțin aceste cuvinte cheie, ci multe site-uri dedicate acestui subiect. Un exemplu de director este serverul Yahoo (http://www.yahoo.com).

Directoarele WWW care conțin un număr mare de intrări sunt adesea plasate pe paginile lor de motoarele de căutare locale. Implementat sub formă de șabloane tradiționale, care diferă puțin de șabloanele de pe indexurile automate.

Un anumit principiu de selecție a informațiilor este stabilit atât pentru motoarele de căutare, cât și pentru cataloage. Acest principiu este stabilit fie în algoritmii motoarelor de căutare, fie în regulile muncii oamenilor (pentru directoare). În funcție de locul și de ce tip de informații sunt acumulate, sunt evaluate două caracteristici ale sistemelor autonome - scara spațială și specializarea.

Scara spațială are scopul de a limita numărul de surse primare de informații la o anumită limită finită. De exemplu, un motor de căutare poate fi construit într-un singur site. Căutarea poate fi limitată la un domeniu geografic (de exemplu, ru). Astfel de sisteme sunt numite regionale.

Există multe motoare de căutare care nu au aceste restricții. Ele sunt numite sisteme globale de regăsire a informațiilor.

Caracteristicile abordării regionale pot fi prezente în sisteme globale... De exemplu, sistemul Lycos (http://www.lycos.com) sortează rezultatele căutării în funcție de regiunea din care provine cererea.

Cele mai populare motoare de căutare sunt atât de încărcate încât devine necesară crearea „oglinzilor”. Oglinzile trebuie să conțină copie exactă motor de căutare primar și garantează servicii rapide de accesări provenind dintr-o anumită zonă geografică.

Când vă referiți la un anumit motor de căutare, ar trebui să luați în considerare ce servicii oferă. De exemplu, în motorul de căutare intern Yandex (http://www.yandex.ru), a fost introdusă o căutare nu numai pentru pagini, ci și pentru servere. Esența acestei metode este că cuvintele cheie nu sunt căutate pentru toate paginile, ci doar pentru titlurile lor (ceea ce este inclus în HTML între etichetele „title”). În AltaVista străină, a fost creat un serviciu separat de nume reale, care conține o listă a tuturor paginilor înregistrate ale companiilor și organizațiilor.

Următorul serviciu important este specializarea în căutare. Internetul este acum depozitul tipuri diferite informație. Prin urmare, căutarea de informații poate fi și formalizată. Puteți căuta exclusiv imagini grafice, puteți căuta înregistrări multimedia în format MP3 etc. Pe multe motoare de căutare, puteți specifica tipul de informații pe care îl căutați. in plus, exista servere specializate in gasirea de informatii de tip strict specific. FTPSearch (http://ftpsearch.lycos.com) este specializat exclusiv în căutări de fișiere. Acesta indexează tot felul de servere ftp pentru fișierele aflate acolo. Căutarea se efectuează direct după numele fișierului căutat. În mod similar, MP3Search (http://mp3.box.sk) este specializat în căutarea exclusivă a fișierelor MP3.

O alta punct important este limbajul de interogare pe care îl folosește un anumit sistem. Cu cât acest limbaj este mai complex, cu atât mai mult reglaj fin căutarea poate fi efectuată. În prezent, nu există un singur limbaj de interogare unificat pentru motoarele de căutare. Dezvoltarea unui astfel de limbaj ar face posibilă integrarea diferitelor servicii de căutare într-un singur super motor de căutare. În februarie 1999 a fost lansat SESP (Search Engine Standards Project), în care sunt implicate cele mai mari 15 motoare de căutare de pe Internet. Sarcina proiectului este de a standardiza funcționarea serviciilor de căutare (materialele despre acesta pot fi găsite la http://www.searchenginewatch.com).

4.5.2. Sisteme de metacăutare

O altă direcție promițătoare în dezvoltarea serviciilor de căutare pe web este utilizarea sistemelor de metacăutare. Inima metamotoarelor de căutare este interfața dintre utilizator și mai multe motoare de căutare. Sistemul de metacăutare nu este destinat indexării și acumulării de informații. scopul ei - căutare curatăși procesarea rezultatelor căutării.

Metasistemul permite, în conformitate cu dorințele utilizatorului, să restricționeze căutarea acestuia la anumite servere de căutare, să verifice existența resurselor indicate de rezultatele căutării, să efectueze o căutare rafinată în rezultatele căutării etc. Motoarele de metacăutare sunt adesea denumite clienți pentru motoarele de căutare.

Un exemplu de sistem de metacăutare este dezvoltarea internă a DISCO Seeker de către DISCO (http://www.disco.ru).

Caracteristica principală a sistemelor de metacăutare de nouă generație este unificarea motoarelor de căutare de diferite specializări. Într-o singură aplicație, puteți căuta informații de diferite tipuri. La procesarea unei interogări de căutare, este permisă conectarea la mai mult de 100 de motoare de căutare (inclusiv cele specializate). Rezultatele căutării sunt procesate suplimentar: link-urile care le dublează pe cele deja găsite sunt excluse de sistem; adresele primite sunt verificate pentru disponibilitate. Este posibil să configurați lucrul cu serverele de căutare (puteți selecta serverele cu care va funcționa sistemul, specificați numărul maxim de linkuri primite de la fiecare server etc.).

Cu toate acestea, chiar și în cazul utilizării de metamotoare de căutare, nu se poate face fără cunoștințele motoarelor de căutare tradiționale - acestea servesc drept bază pentru orice căutare.

Problema căutării și mijloacele de organizare a acesteia

Volumuri uriașe și în continuă creștere de informații disponibile pe Internet, inclusiv. operațional, face ca problema găsirii informațiilor necesare să fie foarte urgentă și dificilă. Viteza de căutare a informațiilor necesare determină în mare măsură profesionalismul utilizatorului de internet. Trebuie spus că pentru a automatiza prima sarcină au fost dezvoltate diverse sisteme de căutare atât străine, cât și interne, care sunt pagini Web. un fel special... În același timp, în ciuda prezenței a numeroase instrumente de automatizare a căutării, această sarcină rămâne destul de laborioasă, necesitând de la utilizator o anumită experiență, intuiție, cunoaștere a terminologiei utilizate în domeniul său de studiu.

O estimare publicată în revista Nature la 8 iulie 1999, numărul paginilor Web indexate public era de 800 de milioane. Un an mai târziu, autorul studiului (Steve Lawrence de la Institutul de Cercetare NEC) a crezut că numărul lor aproape sa dublat până la 1,5 miliarde Chiar și cele mai bune motoare de căutare nu indexează mai mult de o pagină din șase. Merită spus, pentru a extrage Informatii utile de pe Internet, trebuie să știți unde și cum să căutați.

Instrumentul de căutare din Internet Explorer facilitează accesul la instrumente de căutare eliminând nevoia de a cunoaște adresele motoarelor de căutare. În acest caz, este mai bine să contactați direct motoarele de căutare prin descărcarea paginii.

După modul în care este organizată căutarea și prin capabilitățile oferite, toate instrumentele de căutare pot fi împărțite condiționat în următoarele grupuri:

cataloage si baze de date specializate;

motoare de căutare;

sisteme de metacăutare.

Directoare și baze de date

Cataloagele de pe WWW sunt analoge cataloagelor sistematice ale bibliotecii. Căutarea în director constă în deplasarea secvenţială printr-o listă ierarhică de legături numite titluri sau categorii. Prima pagină a catalogului conține link-uri către subiecte majore precum Cultura și Arta; Medicina si sanatate; Societate și politică; Afaceri și economie; Divertisment, etc Făcând clic pe următorul link (categorie) se deschide o pagină care conține link-uri care detaliază subiectul selectat (titlu) Deplasând în jos categoriile detaliate, puteți găsi o pagină cu informațiile necesare. Pe fiecare pagină care se deschide la deplasarea catalogului într-un fel sau altul, este indicată succesiunea subtitlurilor vizualizate, de exemplu, Business World: Finance: Analytics etc.

Toate cataloagele sunt create și ținute la zi manual de către specialiști, în același mod în care bibliografii compun și întrețin cataloagele bibliotecii. Este pertinent de menționat că descrierea documentului se face fie de către redactorii catalogului, fie de către autor. Datorită lui, conținutul paginilor incluse în catalog corespunde cel mai adecvat cu titlul căruia îi sunt atribuite. Dar, având în vedere viteza de reaprovizionare și schimbare a informațiilor pe Internet, modul „manual” de menținere a cataloagelor nu permite să reflecte în mod egal starea reală a resurselor de pe Internet pe această temă.

Motoare de căutare

(motoare de căutare, motoare de căutare, roboți de căutare)

Există zeci de site-uri web mari și mii de site-uri web mici și specializate pentru căutarea pe Internet. Instrumentele de căutare ale grupului 1 vor permite utilizatorului, după anumite reguli, să formuleze cerințele pentru informațiile de care are nevoie (folosind limbajul de interogare pentru a crea o interogare).După aceasta, motorul de căutare scanează automat documentele de pe site-uri. le controlează (indexate) și le selectează pe acelea dintre ele, care, „în opinia »Motorul de căutare, ϲᴏᴏᴛʙᴇᴛϲᴛʙ îndeplinesc cerințele formulate de utilizator (relevante pentru interogare) Site-urile de căutare pot folosi propriile indexuri ale internetului, care sunt actualizate constant prin special programe numite spiders, link-uri etc. și informează acest proprietar despre informații despre toate paginile pentru indexarea ulterioară.

În urma căutării, se creează una sau mai multe pagini care conțin link-uri către documente relevante pentru cerere (pagini web) Trebuie spus că pentru fiecare link, data creării documentului, volumul acestuia, gradul de relevanță pentru cererea, sunt de obicei indicate fragmente de text care caracterizează conținutul documentului. Făcând clic pe un astfel de link, se va încărca pagina de interes. În cazul unui număr foarte mare de documente găsite, puteți rafina interogarea și repeta căutarea cu ea, dar numai între paginile selectate (o astfel de căutare este numită diferit în diferite mașini, dar de obicei ϶ᴛᴏ - căutare în găsit unu) Într-un număr de motoare de căutare, puteți utiliza o anumită metodă, schimbați linkul către pagină, al cărui conținut se potrivește cel mai bine nevoilor dvs. și repetați căutarea, solicitându-vă să căutați altele similare.

Avantajul căutării automate constă în faptul că vă permite să vizualizați cantități foarte mari de informații disponibile pe Internet în acest moment. Totodată, complexitatea unei descrieri exacte a cererii care reflectă în mod adecvat nevoile dumneavoastră de informare, precum și complexitatea și mai mare a sarcinii de a determina automat gradul paginilor vizualizate la cererea dumneavoastră, conduce la faptul că numărul de pagini selectate „la prima rulare” este în mod tradițional fie foarte mic, fie excesiv de mare... În general, o căutare folosind un motor de căutare este un proces iterativ (multi-pass), în urma căruia forma de interogare este rafinată treptat.

Sisteme de metacăutare

După cum sa menționat mai sus, orice motor de căutare analizează un anumit set de servere și selectează documente în ϲᴏᴏᴛʙᴇᴛϲᴛʙii cu criteriile sale inerente. Ca rezultat, diferite motoare de căutare pentru aceleași cuvinte cheie dau rezultate diferite. Acest lucru a condus la ideea de a crea așa-numitele sisteme de metacăutare (sau multi-căutare), care ele însele nu caută nimic, ci apelează la mai multe motoare de căutare pentru ajutor simultan. Rețineți că fiecare dintre metamotoarele de căutare are un limbaj de interogare ϲʙᴏ. Sistemul traduce interogarea formulată în limba sa în limbile de interogare utilizate de fiecare motor de căutare. În plus, rezultatele căutării sunt combinate de toate sistemele și prezentate în formularul următor. Desigur, căutările cu metamotoarele de căutare durează mai mult decât motoarele de căutare convenționale.

Prezentare generală a celor mai populare motoare de căutare

Pe Internet există un număr mare de motoare de căutare, iar fiecare utilizator este ghidat de cel cu care este obișnuit sau cu care l-au sfătuit colegii. Să folosim o scurtă descriere a celor mai populare motoare de căutare, care este dată pe unul dintre site-uri.

1. Google (www.google.com) Cel mai rapid și cel mai mare motor de căutare. Au fost indexate peste 1,3 miliarde de pagini (dintre care în total - puțin peste 700 de milioane, despre restul se cunosc doar adresa și textul linkului) În mod normal, căutări în resurse în limba rusă (desigur, fără forme de cuvinte), este posibil pentru a selecta limba interfeței. Puteți include/exclude rezultate de pe anumite site-uri și/sau domenii. Spre deosebire de majoritatea motoarelor de căutare, Google măsoară popularitatea unei resurse prin numărul de link-uri care duc la aceasta din alte pagini. Există o căutare tematică - căutări Apple Macintosh, BSD UNIX, Linux, guvernul SUA și Universitatea - căutare în resursele instituțiilor științifice și educaționale de top.

2. Яndex (www.yandex.ru) Cele mai bune motoare de căutare interne. Indexează în principal resursele în limba rusă, în timp ce din punct de vedere al capacităților nu este inferior sistemelor străine. Căutarea poate fi efectuată exact sau sub orice formă de cuvânt, cu limită de dată, indicând site-ul sau subdirectorul acestuia. Puteți căuta pe baza așa-numitului index de citare, puteți căuta imagini, scripturi, applet-uri; setați limba documentului. Legăturile necesare se găsesc în mod tradițional în primele zece rezultate. Are o versiune „ușoară” (cu un minim de elemente de design) la http://www.ya.ru.

3. AltaVista (www.altavista.com) Oferă o extindere mare a criteriilor de căutare: în Căutare avansată există o alegere a unei perioade de timp, căreia îi aparține data creării sau modificării resursei, suport pentru 25 de limbi; există posibilitatea de a emite un rezultat pe site (϶ᴛᴏ restrânge intervalul de căutare fără a sacrifica calitatea) Căutarea puternică are un set standard de caracteristici. Până de curând, AV era un portal mare, dar din motive financiare (și nu numai) a redus semnificativ numărul de servicii.

4. Yahoo! (www.yahoo.com) Este important de menționat că unul dintre primele motoare de căutare de pe Internet. În plus față de setul standard de funcții, vă permite să selectați resursele după dată (4 ani, 1, 3, 6 luni, săptămână, 1, 3 zile). Acceptă capacitatea de a indica semnul „*” în loc de orice secvență de personaje în Cuvinte cheie... Pe Yahoo! a fost alcătuit un catalog structurat mare de categorii Mai întâi, căutarea se efectuează în ele, apoi în propria arhivă, apoi - folosind sisteme google... Căutarea prin categorii dă rezultate bune - puține și bune.

5. Lycos (www.lycos.com) Recent - unul dintre cele mai populare sisteme. Cu toate acestea, nu oferă nicio caracteristică specială - „ȘI” „SAU”, căutare de fraze, prezența / absența obligatorie a unui cuvânt; în funcții avansate - căutare în titlu, URL, nume de gazdă și/sau nume de domeniu; 25 de limbi, inclusiv rusă - într-un cuvânt, întregul set „general acceptat”. Puteți specifica tipul de conținut al resursei - auto, cărți, ftp, descărcare, știri etc. Evident, popularitatea lui Lycos este o consecință a amplorii proiectului său major.

6. Rambler (www.rambler.ru) Până de curând, cel mai faimos motor de căutare rusesc. Căutarea avansată nu vă permite să căutați expresii, dar căutare normală până în februarie a acestui an a dat rareori rezultate acceptabile. Din februarie, în sistemul ϶ᴛᴏ a fost folosit un motor de căutare îmbunătățit, designul s-a schimbat, dar calitatea Rambler încă nu a ajuns din urmă cu Yandex și Aport (conform autorului care analizează motoarele de căutare) Site-ul are o evaluare directorul de resurse Rambler Top 100, una dintre sursele recunoscute de informații statistice despre proiectele pe Internet.

7. Aport (www.aport.ru) Un alt motor de căutare rusesc bun. Căutarea se efectuează pe text (numai în toate formele de cuvânt) și prin URL, folosind operatori logici și operatorul „...” (cu toate acestea, cuvintele oprite din frază sunt încă ignorate), după dată și în câmpuri separate (nume , descriere etc.) ), meta caracterele * și! Prezentarea rezultatelor căutării este cea mai bine concepută în comparație cu alte motoare de căutare rusești. Unele îndoieli sunt cauzate de designul paginii principale, care este în mod clar supraîncărcat cu informații. Există o versiune puțin mai ușoară la http://aport.ru.

Cum să alegi un motor de căutare

Când căutați pe Internet, două componente sunt importante - completitudinea (nimic nu se pierde) și acuratețea (nu s-a găsit nimic de prisos).De obicei, ei numesc totul într-un singur cuvânt - relevanță, adică răspund la întrebare.

1. Acoperire și adâncime

Acoperire înseamnă volumul bazei motoarelor de căutare, care este măsurat prin trei indicatori - volumul total de informații indexate, numărul de servere unice și numărul de documente unice. Adâncimea este înțeleasă ca dacă există o limită a numărului de pagini sau a adâncimii de imbricare a directoarelor pe un server.

Cum se verifică: Unele mașini scriu statistici despre roboți pe acest site. Dar îl puteți verifica singur - trebuie să setați mai multe interogări de căutare constând dintr-un cuvânt (pentru a exclude influența limbajului de interogare, inclusiv interpretarea diferită a spațiului) și atunci când vă uitați la statisticile rezultatelor emise de aparatul - de obicei la începutul listei indică câte documente au fost găsite în total. Pe lângă faptul că cuvintele ar trebui să fie din zone diferite, este bine să luați și cuvinte de diferite greutăți – rare, „medie” și „grele” (frecvență), și să comparați cantitatea găsită. Cuvintele grele, în special, testează conținutul full-text (indexarea tuturor cuvintelor dintr-un document) al unui motor de căutare.

Este mai dificil să verificați adâncimea mișcării robotului - pentru aceasta trebuie să luați unele site-uri, de exemplu, cu o structură ramificată de arhive și să verificați dacă documentele sunt indexate, care pot fi atinse doar, de exemplu, în 6 clicuri pe linkuri.

2. Viteza de accesare cu crawlere și relevanța legăturilor

Viteza de accesare cu crawlere a rețelei arată cât de repede este indexată resursa nou adăugată și cât de repede sunt actualizate informațiile din baza de date. Nu uitați că un indicator important al calității unui motor de căutare (robotul său) va fi nu numai capturarea de noi teritorii, ci și urmărirea stării celor deja acoperite. Serverele dispar și rămân, paginile de pe ele sunt reîmprospătate. Link-urile, care sunt date de motorul de căutare în lista de găsite, trebuie, în primul rând, să existe și, în al doilea rând, conținutul lor trebuie să corespundă cererii.

Cum se verifică: Informațiile obiective pot fi obținute prin analiza jurnalelor serverului - robotul motorului de căutare este de obicei reprezentat de numele mașinii sale (sau similar), astfel încât să puteți vedea cât de des vizitează serverul, câte pagini vede, etc. Din păcate, de obicei doar jurnalul site-ului său este disponibil pentru studiu, așa că rămâne metoda experimentală.

Pentru a determina viteza de accesare cu crawlere, trebuie să creați o pagină de text undeva, să o adăugați la motoarele de căutare și să vedeți cât de repede începe să fie găsit. Sau modificați o pagină existentă. Trebuie spus că pentru a determina relevanța link-urilor - verificați documentele cel puțin pe prima pagină a listei găsite pentru mai multe interogări. Mesaj Nu a fost găsit indică faptul că documentul nu mai există.

3. Calitatea căutării (indicator subiectiv)

Merită spus că fiecare motor de căutare are un algoritm de sortare a rezultatelor căutării. Cu cât găsiți mai aproape de partea de sus a listei documentul de care aveți nevoie, cu atât relevanța funcționează mai bine.

Cum se verifică: numai prin experiment. Este recomandat să faceți interogări de lungimi diferite pentru comparație. Puteți folosi și limbajul de interogare, pentru cei care nu doresc să citească descrierea, pot folosi pagina de interogare extinsă („căutare avansată” în Aport și Yandex, „interogare detaliată” în Rambler - opțiuni de traducere în rusă „căutare avansată”)

Pe lângă relevanță, există și caracteristici importante ale utilizatorului.

4. Viteza de căutare

Dacă motorul de căutare răspunde lent, este ineficient să lucrezi cu el. Trebuie adăugat că viteza vizibilă pentru utilizator depinde nu numai de motorul de căutare în sine, ci și de canalele de internet.

Cum se verifică: prin experiment - trebuie să căutați interogări de lungimi diferite, diferite<тяжести>cuvinte și în diferite momente ale zilei (încărcarea serverului este semnificativ neuniformă pe parcursul zilei, vârful este de aproximativ trei până la patru ore pe zi)

5. Capabilitati de cautare (lucrare cu limba documentului, limbajul de interogare)

Un alt punct de comparație este ce anume și cum intră motorul de căutare în index. Merită spus - un motor de căutare full-text indexează toate cuvintele textului vizibile pentru utilizator. Prezența morfologiei face posibilă găsirea cuvintelor dorite în toate declinațiile sau conjugările. Pe lângă el, în limbajul HTML există etichete, care pot fi procesate și de un motor de căutare (titluri, link-uri, subtitrări către imagini etc.)

Aproape toate mașinile au un limbaj de interogare sub forma operatorilor logici standard (ȘI, SAU, NU). Unii oameni știu cum să caute expresii sau cuvinte la o anumită distanță - ϶ᴛᴏ este adesea important pentru a obține un rezultat rezonabil. O caracteristică suplimentară va fi căutarea în zonele documentului - titluri, link-uri, cuvinte cheie (META KEYWORDS), etc. Caracteristică suplimentară limbaj de interogare - o interogare în limbaj natural care nu necesită cunoașterea operatorilor.

Cum se verifică: De obicei, aceste informații sunt publicate pe serverul motorului de căutare (în Ajutor „e). Rețineți că, totuși, este recomandat să verificați interogările reale, deoarece uneori dorința este trecută drept reală.

6. Facilități suplimentare

Acestea sunt caracteristici suplimentare pe care un motor de căutare le oferă utilizatorilor. Aceasta include tot felul de opțiuni de căutare (pagini specializate, căutarea de documente similare, limitarea zonei de căutare) și o listă de servere găsite și o căutare după date și servere și o interfață ușor de utilizat pentru motor de căutare și capacitatea de a personalizați-l.

Cum se verifică: informațiile pot fi publicate parțial pe serverul motorului de căutare, dar cel mai bine este să încercați să lucrați singur cu aceste capacități.

Este clar că această analiză va dura ceva timp. Pe lângă el, motoarele de căutare, ca întregul Internet, nu stau pe loc. În același timp, având în vedere că regăsirea informațiilor este una dintre componentele importante ale tehnologiei informatice, merită să i se acorde suficientă atenție - cel puțin nu mai puțin decât capacitatea de a lucra într-o rețea locală.

A fost efectuat un sondaj pe Yandex.ru: de ce este nevoie de internet și ce lipsește în el (http://www.yandex.ru/polling/9.html) În ordine descrescătoare, datele sondajului au fost distribuite după cum urmează: Internetul este folosit ca referință (23, 76%), un instrument de cercetare (15, 0,45%), divertisment (14,15%), iar doar pe locul patru se află o sursă de știri (12,32%) Părea optimist că 10% din utilizatorii întotdeauna, iar 73% reușesc adesea să găsească informatie necesara... Și nu există suficiente pe Internet: informații, căutare bună și ordine (inclusiv: ordine, structură, structurare, structurare, structurare, precum și un sistem, sistematizare, consecvență, sistematicitate și sistematizare)

RASPUNDE LA INTREBARI:

Ce metode de organizare a căutării există pe Internet?

Cum se regăsesc informațiile în cataloage și baze de date?

Cum sunt introduse informațiile în cataloage și baze de date?

Ce este legat de motoarele de căutare pe internet?

Cum se formează baza de date în motoarele de căutare?

De unde începe căutarea de informații în motoarele de căutare?

Ce este o cerere?

Cum se regăsesc informațiile în motoarele de căutare?

Ce se înțelege prin relevanță pentru o interogare?

Ce se poate face în cazul unui număr foarte mare de documente găsite în timpul căutării ulterioare?

Ce sunt metamotoarele de căutare?

Care este diferența fundamentală dintre motoarele de metacăutare și motoarele de căutare convenționale?

Care dintre următoarele sisteme va fi metasearch:

Care sunt cele mai populare motoare de căutare interne?

Care sunt cele mai populare motoare de căutare străine?

Care sunt două lucruri importante atunci când căutați informații pe internet?

Ce caracteristici determină eficiența motoarelor de căutare atunci când caută informații pe Internet?

Termeni de utilizare:
Drepturi de proprietate intelectuală - Informații retele de calculatoare- Borisov N.A., Lukin A.A. aparțin autorului său. Acest manual/carte este postat exclusiv în scop informativ, fără implicare în cifra de afaceri comercială. Toate informațiile (inclusiv „Subiectul 3. Căutarea informațiilor pe INTERNET”) sunt colectate din surse deschise sau adăugate de utilizatori fără costuri.
Pentru utilizarea deplină a informațiilor postate, Administrația Proiectului recomandă insistent achiziționarea cărții/manualului Informații Rețele de calculatoare - Borisov N.A., Lukin A.A. la orice magazin online.

Bloc de etichete: Rețele de calculatoare informaționale - Borisov N.A., Lukin A.A., 2015. Subiectul 3. Căutare informații pe INTERNET.

(C) Site-ul de depozit legal 2011-2016

Imparte asta