Organizarea căutării de informații educaționale pe Internet. Principiile organizării și căutării informațiilor pe internet

Găsirea informațiilor pe internetul global: informații generale

Conform principiului organizării și utilizării instrumentelor de căutare pot fi împărțite în:

    cataloage . Directoarele sunt directoare care conțin liste de adrese de Internet grupate după anumite criterii. De regulă, acestea sunt grupate pe teme (știință, artă, știri etc.), unde fiecare subiect se ramifică în mai multe sub-niveluri. Câteva directoare de căutare:

Titlu

Of!

www.au.ru

Atrus (înregistrare necesară)

www.atrus.ru

List.ru

www.list.ru

Constelaţie

www.stars.ru

Melc

www.ulitka.ru

Ivan Susanin

www.susanin.ru

    Căutare autoturisme . Pentru o căutare detaliată a documentelor, sunt utilizate motoarele de căutare specializate - motoarele de căutare. La primirea unei solicitări din partea utilizatorului, motorul de căutare emite o listă de documente corespunzătoare sarcinii de căutare. Documentele găsite sunt clasificate în funcție de locația cuvintelor cheie (în titlu, la începutul textului, în primele alineate) și de frecvența apariției acestora în text. Utilizarea diferitelor motoare de căutare dă rezultate diferite. Cel mai comun dintre motoarele de căutare:

Titlu

EU SUNT  ndex

www. yandex. ru

ȘI  port

www.aport.ru

R  Ambler

www.rambler.ru

G  colţ

www.google.ru

M  Ayl

www. poștă.ru

EU SUNT  ho

www.yahoo.com

ȘI  ltavista

www.altavista.com

O interogare de căutare poate consta dintr-unul sau mai multe cuvinte, poate conține diferite semne de punctuație. În ceea ce privește registrul, în general, registrul ortografic al cuvintelor de căutare și al operatorilornu contează , adică cuvintele „abstract”, „abstract”, abstract, „abstract” și „abstract” vor fi percepute la fel. Acest lucru este valabil și pentru alfabetul latin. Deci, „Yes "și" DA ", și chiar" yeS "," da "și" DA "sunt la fel pentru căutare.

Lucrare practică „Căutare de informații pe internetul global”



Parfum în mugurii care se ascund

Liliacul înflorește.

Poate înflorește, ceea ce înseamnă

Astăzi este o sărbătoare - Ziua de mai!

    Salvați   poem:


  1. Căutare   poze de vacanta:


  2. Vizualizați rezultatele căutării situat pe 1 pagină. Accesați pagina 2: derulați roata mouse-ului pentru a apărea în partea de jos a ferestrei browserului și faceți clic peL KM pe link de pagină2 .

    Selectați   poza care vă place și faceți clic pe eaL KM.

Într-o fereastră nouă veți vedea aceeași imagine, mărită doar. În dreapta acesteia vor fi localizate informații despre dimensiunea imaginii și site-urile pe care este amplasată.

    Copiază poza :

    1. clicP KM din imagine;

      alege echipaCopiază poza ;

      închideți fereastra browserului făcând clic pe butonÎnchide .

    Introduceți o imagine   pe document:

    1. accesați fereastra editorului de text (ar trebui să existe un poem de felicitare);

      rezolvați cursorul făcând clicL KM după ultimul personaj al poemului (aceasta! ) și apăsați tastaintroduce   pentru a muta cursorul pe o nouă linie;

      clicP KM;

      în meniul local, selectați comandaÎncorporare .

    Salvați documentul în folderul personal   sub numeFelicitări pentru *** de la *** . În locul primei ***, tastați numele persoanei căreia îi va fi trimisă felicitarea; în locul celui de-al doilea ***, tastați-vă numele. De exemplu,Felicitări pentru Anastasia de la Olga . Închideți programul editorului de text.

    Lansați browserul Google   Crom
    .

    Conectați-vă la căsuța de e-mail pe portalpoștă . ru

    În meniul principal de e-mail (în partea de sus a ferestrei), selectați comandaA scrie .

    Completați câmpurile obligatorii :


  1. Buton de selectareTrimite   (se află în partea de sus și de jos a ferestrei browserului).

    Închideți fereastra browserului.

    Inchide calculatorul.

Exercitiul 1

Sarcina : Găsiți numele celui mai mare lac de apă dulce din lume.


Pentru o lucrare optimă și rapidă cu motoarele de căutare, există anumite reguli pentru scrierea întrebărilor. O listă detaliată pentru un anumit server de căutare poate fi găsită, de regulă, pe serverul însuși folosind legăturile Ajutor, prompt, reguli de interogare etc.

    Organizați căutarea și completați tabelul cu rezultatele căutării:

    Întrebare

    Rezultatele căutării (număr de pagini)

    yandex . ru

    hoinar . ru

    google.ru

    poștă .ru

    aport . ru

    Cum să găsești o persoană pe Internet din fotografie?

    Cum să vă înregistrați pe site-ul în contact?

    Cum să elimini ochiul roșu?

    Închideți browserul (ieșiți din program).

Exercițiul 2

Sarcina : a găsibiografia ministrului educației Federației Ruse A. Fursenko   folosind un motor de căutareg oogle. r u

Exercițiul 3

Căutați opere literare pe internet




Atenţie!   Pentru a vizualiza cărți în formatpensiune completă2 au nevoie de un program special („cititor”). De exemplu,Alreader .

Căutați informații pe Internet

Căutați informații pe Internet

Pentru a căuta informații  în utilizate frecvent trei moduri  (Vezi Fig. 1). Primul  dintre ele - căutare pe adresă. Este utilizat atunci când utilizatorul cunoaște adresa unei resurse informaționale care conține informațiile de care are nevoie. Atunci când organizează căutarea de informații pe adresă (formularul de adresă - IP, domeniu sau URL - în acest caz nu contează), utilizatorul trebuie doar să introducă adresa resursei în câmpul corespunzător al browserului - un program conceput pentru a oferi acces la resursele rețelei.

Fig. 1. Metode de preluare a informațiilor în bazele de date hipertext

Al doilea  - Căutați folosind navigarea prin hyperlink. Când utilizați acest tip de caz de căutare, utilizatorul trebuie să acceseze mai întâi serverul asociat cu baza de date corespunzătoare. După aceea, puteți găsi documentul folosind hyperlink-uri. Evident, această metodă este convenabilă atunci când adresa resursei este necunoscută pentru utilizator. Portalurile web sunt destinate a fi utilizate ca punct de plecare pentru căutare la implementarea acestei metode - servere care oferă acces direct la o serie de servere, inclusiv resurse informaționale instalate pe acestea, precum și aplicații web care implementează servicii Web care corespund scopului portalului. Serverele disponibile prin portal se pot referi la un sistem specific (de exemplu, corporatist) sau la diverse sisteme și pot fi selectate special în funcție de tipul, subiectul sau alte caracteristici ale documentelor și datelor conținute pe site-urile lor. De obicei, portalurile combină o varietate de funcții pentru a menține clientul cât mai mult timp. Serviciul de portal dominant este serviciul de asistență: căutare, categorii, indexuri financiare, informații meteo etc. În timp ce site-urile web, în \u200b\u200bmajoritatea cazurilor, sunt colecții de pagini Web statice, portalurile sunt seturi de software și informații pre-structurate pe care aceste instrumente le transformă în date structurate la solicitarea anumitor utilizatori.

Al treilea  Metoda de căutare implică utilizarea motoarelor de căutare pe Internet. Serverele de căutare se numesc calculatoare gazdă dedicate care găzduiesc baze de date de resurse pe Internet. Interfața de utilizator a unui astfel de server are un câmp pentru introducerea cuvintelor cheie care descrie subiectul de interes pentru utilizator (a se vedea Fig. 2).

Fig. 2. Vedere a ferestrei motorului de căutare Yandex

Serverul percepe aceste cuvinte ca pe o solicitare de informații, în conformitate cu care caută resurse și prezintă o listă de documente găsite utilizatorului. Evident, atunci când implementăm această metodă, sunt posibile erori atât de la prima (țintă ratată), cât și a doua (de zgomot informațional). Trebuie menționat că se disting două grupuri de motoare de căutare: motoarele de căutare și directoarele de subiect. Diferența lor se datorează metodei de creare și completării ulterioare a bazei de date a resurselor de internet, pe care acest server efectuează căutarea informațiilor. Așadar, motoarele de căutare includ un program special - un robot de căutare. Monitorizează constant rețeaua, colectează informații din paginile Web, le indexează și surprinde imaginea de căutare a acestora în baza de date. În cataloagele de subiecte, o bază de date cu documente Internet este creată „manual” de către editorii specialiști. Deoarece nu există o administrare unificată pe Internet, resursele sale de informare sunt în continuă schimbare. Documente noi pot apărea în el și documentele existente pot dispărea. Frecvența actualizării informațiilor din documente pentru diferite site-uri este diferită: pentru unii, aceasta este de mai multe ori pe oră, pentru unii, o dată pe zi, zi, lună etc. Prin urmare, este foarte important să înțelegem că atunci când se utilizează sisteme de preluare a informațiilor pentru a găsi informații pe Internet, căutarea se efectuează nu în spațiul real al documentelor rețelei, ci într-un anumit model, al cărui conținut poate diferi în mod semnificativ de conținutul real al internetului în momentul căutării. În funcție de gradul de acoperire a resurselor indexate, motoarele de căutare pot fi împărțite în două grupuri: internațional și rusofon. Fostul index indexează toate documentele publicate pe Internet la rând. A doua indexează resursele situate în zone de domeniu cu predominanță a limbii ruse. O listă cu cele mai populare sisteme este prezentată în tabel. 1.

Tab. 1. Cele mai populare motoare de căutare

Internaţional Vorbitori de rusă
Google Yandex (44,4% din Runet)
Yahoo! Rambler (10,6% din Runet)
Bing Mail.ru (7,3% din Runet)
msn Nigma (0,5% Runet)
Altavista Gogo.ru (0,3% din Runet)
Cere Aport (0,2% Runet)

Notă: Runetul este partea de Internet în limba rusă care alcătuiește domenii cu nume ru și rf.

Este necesar să menționăm că există o categorie specială de motoare de căutare - motoare cu metasearch. Diferența lor fundamentală față de motoarele de căutare și directoarele de subiect este aceea că nu au propria lor bază de date index și, prin urmare, după ce au primit o solicitare a utilizatorului, o redirecționează către mai multe motoare de căutare simultan (vezi Fig. 3).

Fig. 3. Schema sistemului metasearch

Posibilitatea de a utiliza simultan mai multe motoare de căutare pentru o singură interogare este un avantaj evident al motoarelor cu metasearch. În prezent, sistemul Metabot.ru a găsit o utilizare pe scară largă, a cărei interfață este prezentată în Fig. 4. Acest sistem vă permite să utilizați atât servere de căutare în limba internațională, cât și în limba rusă pentru a căuta resurse.

Problema cu căutarea pe World Wide Web nu este aceea că există puține informații, ci că sunt multe. Găsirea informațiilor pe Internet este piatra de temelie a unei navigări web eficiente. Posesia abilităților de căutare face ca Internetul să fie util atât pentru serviciu, cât și în timpul liber.
Există servicii specializate numite motoare de căutare pentru organizarea căutărilor pe internet.

Motoare de căutare.

Sisteme de căutare - un complex hardware-software cu o interfață web care oferă posibilitatea de a căuta informații pe Internet.
Majoritatea motoarelor de căutare caută informații pe site-urile World Wide Web, dar există și sisteme care pot căuta fișiere pe serverele FTP, produse în magazinele online și informații în grupurile de știri Usenet. Pentru a căuta informații folosind un motor de căutare, utilizatorul formulează o interogare de căutare. La cererea utilizatorului, motorul de căutare generează o pagină cu rezultatele căutării. Astfel de rezultate de căutare pot combina diferite tipuri de fișiere, de exemplu: pagini web, imagini, fișiere audio. Unele motoare de căutare preiau și datele din bazele de date online și directoarele de resurse.
Scopul unui motor de căutare este de a găsi documente care conțin fie cuvinte cheie, fie cuvinte care sunt cumva legate de cuvinte cheie. Motorul de căutare este mai bun, cu cât sunt mai multe documente relevante pentru solicitarea utilizatorului, acesta va reveni. Rezultatele căutării se pot agrava din cauza naturii algoritmilor. De exemplu, la o căutare de animale de companie, serverul de căutare Yandex (a se vedea mai jos pentru mai multe informații) furnizează peste 14.000.000 de link-uri către pagini care conțin, după părerea sa, informații. Cu toate acestea, nu totul este atât de lin: atunci când vizitați unele dintre paginile găsite, se dovedește că informațiile de care aveți nevoie nu sunt suficiente, sau chiar deloc.
Pentru a căuta cu eficiență maximă, trebuie să știți cum funcționează motoarele de căutare și să scrieți corect o cerere de căutare a informațiilor.

Principiile motoarelor de căutare

Motoarele de căutare funcționează prin stocarea informațiilor despre multe pagini web pe care le primesc de la paginile HTML. Principalele componente ale unui motor de căutare: robot de căutare, indexator, motor de căutare. De obicei, sistemele funcționează în etape. Mai întâi, robotul de căutare primește conținutul, apoi privește conținutul site-urilor web. Numai după aceasta, indexatorul generează un index căutabil. Un indexator este un modul care analizează o pagină, după ce o rupe în părți, folosind algoritmi lexici și morfologici proprii.
La baza activității celor mai moderne motoare de căutare este indicele de citare, care este calculat de indexator ca urmare a analizei linkurilor către pagina curentă din alte pagini de internet. Cu cât sunt mai multe, cu cât este mai mare indicele de citare a paginii analizate, cu atât această pagină va fi afișată mai sus în rezultatele căutării și cu atât mai mare va fi prezentată pagina în lista resurselor găsite.

Reguli pentru construirea interogărilor de căutare

După cum sa menționat deja, există numeroase motoare de căutare pe internet, interne și străine.
Servere de căutare ruse: Yandex (www.yandex.ru); Rambler (www.rambler.ru); Aport (www.aport.ru) și Gogo (www .gogo .ru).

Servere de căutare străină: Google ( www .google .com); Altavista (www .altavista .com) și Yahoo! (www .yahoo .com).
Pentru a căuta în rusă, serverele ruse sunt mai potrivite, în străinătate - străine, deși Google face o treabă bună în căutarea în multe limbi. În ciuda afirmațiilor multor proprietari de motoare de căutare că interogările pot fi scrise aproape în limba pe care oamenii o folosesc pentru a comunica între ei, acest lucru este departe de a fi cazul. Datorită introducerii de noi tehnologii lingvistice, motoarele de căutare au devenit mult mai bine înțelese de către utilizator. Motoarele de căutare caută acum nu numai cuvântul solicitat, ci și formele de cuvinte, care vă permit să faceți rezultatele căutării mai precise. De exemplu, dacă cuvântul inteligent este prezent în interogarea de căutare, rezultatele sale vor conține nu numai acest cuvânt, ci și derivatele sale: inteligent, inteligent, precum și minte și chiar rațiune. Desigur, paginile cu forme de cuvinte nu vor fi printre primele rezultate ale căutării, dar sunt evidente elemente ale inteligenței artificiale. Acest fapt este util să se ia în considerare atunci când se creează interogări de căutare.
Trebuie amintit faptul că motoarele de căutare nu sunt sensibile la majuscule și minuscule atunci când prelucrează o solicitare, iar punctuația nu este necesară în interogările de căutare, deoarece sunt ignorate și de motoarele de căutare. Cu toate acestea, atunci când construiți interogări complexe avansate, rezultatele căutării pentru care sunt de obicei mult mai apropiate de cele așteptate, utilizează semne de punctuație tradiționale. Majoritatea motoarelor de căutare se pot ocupa de dactilografii. Dacă motorul de căutare pare să fi făcut o greșeală sau o eroare de cuvânt, va avertiza despre aceasta cu aceeași frază: Poate căutați ...

Cuvinte pentru a interoga serverul de căutare

Există o expresie „O mașină trebuie să funcționeze, un om trebuie să gândească” și se spune exact despre o astfel de situație. Sarcina utilizatorului în pregătirea interogării de căutare este de a evidenția cuvinte cheie, sarcina serverului de căutare este de a procesa cel mai bine interogarea introdusă. Luați în considerare un exemplu care ilustrează greșelile tipice ale utilizatorilor începători atunci când caută pe Internet. La interogarea „Ghicitori despre instrumente muzicale” motorul de căutare nu a produs rezultate utile. Apoi, utilizatorul decide să corecteze solicitarea adăugând-o și scrie: „Puzzle pentru copii despre instrumente muzicale” - rezultatele căutării au fost chiar mai proaste decât precedentul. Pentru acest exemplu, o soluție bună a fost căutarea cuvântului cheie „ghicitori”. Există o mulțime de astfel de site-uri pe Internet și, accesând site-ul în sine și analizând puțin secțiunile sale, este foarte posibil să găsești informații de interes. Formulăm mai multe reguli pentru efectuarea întrebărilor:

  • selectați doar cele mai importante cuvinte cheie relevante pentru subiectul în cauză;
  • cuvintele nu ar trebui să fie prea multe, dar nici prea puține;
  • dacă rezultatele căutării nu sunt satisfăcătoare, utilizați mai multe condiții „soft” pentru interogare sau încercați să căutați într-un alt motor de căutare, ca motoarele de căutare nu funcționează în același mod, prin urmare, rezultatele pot varia și ele.

Cautare Avansata

Pentru a furniza o căutare mai eficientă pe Internet, motoarele de căutare oferă căutare avansată, precum și căutare folosind limba de interogare. Căutare avansată - posibilitatea de a căuta cu mulți parametri diferiți. Pentru a face acest lucru, motoarele de căutare au pagini separate pe care puteți seta astfel de parametri. Principiile căutării avansate sunt similare pentru majoritatea motoarelor de căutare.
Să luăm în considerare opțiunile de căutare suplimentare folosind exemplele motoarelor de căutare Yandex și Google, deoarece Yandex este cel mai popular server de căutare pe internet vorbind rus, iar Google este cel mai popular motor de căutare din lume. Când a căutat pe Internet, Yandex a fost unul dintre primii care au luat în considerare morfologia limbii ruse, adică să folosească diferite forme ale cuvântului, după cum am menționat mai sus. După ce a vizitat www.yandex.ru, un utilizator poate introduce o interogare și obține imediat rezultatele căutării sau puteți utiliza linkul Căutare avansată folosind pictograma și accesați pagina corespunzătoare (vezi figura de mai jos), unde puteți regla perfect parametrii de căutare.

Pagina de căutare avansată Yandex

Luați în considerare caracteristicile suplimentare pe care le puteți utiliza pe pagina de căutare avansată: specificați propria locație (Moscova), indicați sub ce formă trebuie prezentate informațiile (tipul fișierului), perioada în care căutăm informații (pe zi, 2 săptămâni, pe lună, de la ..Do), în ce limbă ar trebui să fie prezentate informațiile (rusă, engleză Mai multe) și puteți specifica, de asemenea, adresa URL a site-ului etc.
Alegerea (la fel ca în interogare) este indicată motorului de căutare, astfel încât morfologia cuvintelor de interogare să nu fie schimbată, ci doar căutarea formei cuvântului specificat este căutată.

Limbaj de interogare

Limbă de interogare - un sistem de comandă care vă permite să modificați parametrii de interogare din șirul principal de căutare folosind comenzi speciale. Concentrat pe utilizatori cu experiență.
Întrucât limbajul de interogare este destul de complex și voluminos, oferim doar construcțiile sale de bază, care pot fi solicitate cel mai mult de utilizatori. Unele comenzi de limbă de interogare Yandex sunt prezentate în tabel.

Operator

Descriere

Sintaxă

Exemplu de solicitare

Căutați documente în care este prezent în mod necesar cuvântul evidențiat.

Este permisă utilizarea mai multor operatori + în aceeași interogare.

"cuvântul 1 + cuvântul 2"

Se vor găsi documente care conțin neapărat cuvintele „bulevard” și „Moscova”, iar cuvântul „sholokhov” poate fi prezent.

Căutare după ofertă.

Căutați documente care conțin cuvinte de interogare într-o secvență și o formă dată.

"cuvântul 1 cuvântul 2 ... cuvântul N"

Documente care conțin această ofertă vor fi găsite.

Căutați o ofertă cu un (i) cuvânt (i) lipsă.

Un * operator se potrivește cu un cuvânt lipsă.

Atenţie! Este utilizat doar ca parte a operatorului.

"cuvântul 1 * cuvântul 2 ... cuvântul N"

Operatorul este separat de spații.

Se vor găsi documente care conțin această ofertă, inclusiv cuvântul care lipsește.

Se vor găsi documente care conțin această ofertă, inclusiv cuvinte care lipsesc.

Structura completă a limbajului de interogare Yandex poate fi găsită pe pagina de ajutor (http://help.yandex.ru/search/?id\u003d481939). Limbajul interogărilor de căutare pe Google diferă de Yandex, deși există câteva puncte comune. Luați în considerare câteva comenzi de bază ale acestei limbi, consultând tabelul (a se vedea mai jos)

Structura completă a limbajului de interogare Google poate fi găsită pe pagina de ajutor:

4.5.1. Motoare tradiționale de căutare pe internet

Pentru a căuta informații, se utilizează servicii externe speciale - motoare de căutare: motoare de căutare și directoare.

Motoarele de căutare sunt acele servere care acumulează automat informații despre conținutul site-urilor, folosind programe robotizate speciale.

Informațiile pentru serverele de directoare sunt selectate de oameni. Spre deosebire de motoarele de căutare, informațiile din directoare sunt structurate mai precis și într-o formă ierarhică verticală.

Atât motoarele de căutare, cât și directoarele sunt servicii externe sau, cum se mai numesc, sisteme autonome. O caracteristică a sistemelor autonome este aceea că ciclul de lucru cu informațiile este realizat direct pe acest sistem, începând cu obținerea informațiilor de la sursă și se încheie cu furnizarea unui serviciu de căutare către utilizatorul final.

Motoarele de căutare automate acoperă mai multe informații, informațiile lor sunt actualizate mai des și, prin urmare, mai relevante. Cu toate acestea, informațiile de pe astfel de servere sunt slab structurate, deoarece evaluarea conținutului unui site este o sarcină dificil formalizată. Cel mai adesea, programul robot selectează documentele doar prin prezența cuvintelor căutate în textul documentului. Un exemplu de motor de căutare este AltaVista (http://www.altavista.com).

În cataloage, toate informațiile au o structură ierarhică verticală clară. Mai mult, această structură este construită pe baza conținutului semantic. Aceasta este principala valoare a directoarelor procesate de oameni: puteți găsi nu multe site-uri care conțin aceste cuvinte cheie, dar multe site-uri dedicate acestui subiect. Un exemplu de director este serverul Yahoo (http://www.yahoo.com).

Directoarele WWW care conțin un număr mare de înregistrări plasează deseori motoarele de căutare locale pe paginile lor. Implementat sub formă de șabloane tradiționale, care nu sunt foarte diferite de șabloanele de pe indexurile automate.

Atât pentru motoarele de căutare, cât și directoarele, este stabilit un anumit principiu al selecției informațiilor. Acest principiu este stabilit fie în algoritmii motoarelor de căutare, fie în regulile de lucru ale oamenilor (pentru directoare). În funcție de unde și ce tip de informații se acumulează, sunt evaluate două caracteristici ale sistemelor autonome - scara spațială și specializarea.

Scara spațială este concepută pentru a limita numărul de surse primare de informații la o anumită limită finală. De exemplu, un motor de căutare poate fi construit pe un singur site. Căutarea poate fi limitată la un singur domeniu geografic (de exemplu, ru). Astfel de sisteme sunt numite regionale.

Există multe motoare de căutare care nu au aceste restricții. Acestea sunt denumite sisteme globale de recuperare a informațiilor.

Caracteristicile abordării regionale pot fi prezente în sistemele globale. Deci, sistemul Lycos (http://www.lycos.com) sortează rezultatele căutării în funcție de regiunea în care a venit solicitarea.

Cele mai populare motoare de căutare sunt atât de încărcate încât este necesar să se creeze „oglinzi” (oglinzi). Oglinzile ar trebui să conțină o copie exactă a motorului de căutare principal și să garanteze un serviciu rapid al solicitărilor venite dintr-o anumită zonă geografică.

Când accesați un anumit motor de căutare, ar trebui să luați în considerare ce servicii oferă. De exemplu, în motorul de căutare intern Yandex (http://www.yandex.ru) a fost introdusă o căutare nu numai pentru pagini, ci și pentru servere. Esența acestei metode este că cuvintele cheie nu sunt căutate în toate paginile, ci doar prin rubricile lor (ceea ce este inclus în HTML între etichetele „titlu”). În AltaVista străină, a fost creat un serviciu Nume reale, care conține o listă cu toate paginile înregistrate ale companiilor și organizațiilor.

Următorul serviciu important este specializarea căutării. În prezent, internetul este un depozit al diferitelor tipuri de informații. Prin urmare, căutarea de informații poate fi, de asemenea, formalizată. Puteți căuta exclusiv imagini grafice, puteți căuta înregistrări multimedia în format MP3 etc. Multe motoare de căutare pot specifica tipul de informații căutate. în plus, există servere specializate în găsirea informațiilor de tip strict definite. FTPSearch (http://ftpsearch.lycos.com) este specializat exclusiv în căutările de fișiere. Acesta indexează toate tipurile de servere ftp pentru fișierele amplasate acolo. Căutarea se efectuează direct după numele fișierului dorit. În mod similar, căutarea MP3 (http://mp3.box.sk) este specializată în căutarea exclusivă a fișierelor MP3.

Un alt punct important este limbajul de interogare pe care îl folosește acest sistem. Cu cât acest limbaj este mai complicat, cu atât căutarea este mai bine ajustată. În prezent, nu există un singur limbaj de interogare unificat pentru motoarele de căutare. Dezvoltarea unui astfel de limbaj ar face posibilă integrarea diverselor servicii de căutare într-un super-sistem de căutare unic. În februarie 1999, a fost lansat proiectul de standarde pentru motoarele de căutare (SESP), la care participă cele mai mari 15 motoare de căutare pe Internet. Sarcina proiectului este de a standardiza activitatea serviciilor de căutare (materiale despre acesta pot fi găsite la http://www.searchenginewatch.com).

4.5.2. Sisteme de metasearch

Un alt domeniu promițător de dezvoltare a serviciilor de căutare în rețea este utilizarea sistemelor de metasearch. La baza motoarelor cu metasearch se află interfața dintre utilizator și multe motoare de căutare. Sistemul de metastaarch nu este destinat indexării și acumulării informațiilor. scopul său este căutarea pură și procesarea rezultatelor căutării.

Metasistemul permite, în conformitate cu dorințele utilizatorului, să vă limiteze căutarea la anumite motoare de căutare, să verifice existența resurselor indicate de rezultatele căutării, să rafinați căutarea în rezultatele căutării etc. Motoarele Metasearch sunt adesea denumite clienți ai motoarelor de căutare.

Un exemplu de sistem de metasarhie este dezvoltarea internă a DISCO Căutător de DISCO (http://www.disco.ru).

Principala caracteristică a noilor sisteme de metazearch este integrarea motoarelor de căutare în diferite specializări. În cadrul unei aplicații, puteți căuta informații de diferite tipuri. La procesarea unei interogări de căutare, este permisă conectarea la peste 100 de motoare de căutare (inclusiv la cele specializate). Rezultatele căutării sunt prelucrate în continuare: linkurile care se duplică deja găsite sunt excluse de sistem; Adresele primite sunt verificate pentru disponibilitate. Este posibil să configurați lucrul cu serverele de căutare (puteți selecta serverele cu care va funcționa sistemul, specificați numărul maxim de legături primite de la fiecare server etc.).

Cu toate acestea, în cazul utilizării sistemelor de metastaarcă, nu se poate face fără cunoașterea motoarelor de căutare tradiționale - ele servesc drept bază pentru orice căutare.

Problema căutării și a mijloacelor organizației sale

Volume gigantice și în continuă creștere de informații disponibile pe Internet, inclusiv operațional, face ca problema găsirii informațiilor necesare să fie foarte relevantă și complexă. Viteza de căutare a informațiilor necesare determină în mare măsură profesionalismul utilizatorului de internet. Merită spus că pentru automatizarea sarcinii au fost dezvoltate diverse sisteme de căutare atât străine cât și interne, care sunt pagini Web cu scop special. În același timp, în ciuda disponibilității a numeroase instrumente de automatizare a căutării, această sarcină rămâne destul de consumatoare de timp, necesitând utilizatorului să aibă o anumită experiență, intuiție și cunoaștere a terminologiei utilizate în domeniul său de subiect.

Conform estimărilor publicate în revista Nature la 8 iulie 1999, numărul de pagini web indexate public a fost de 800 de milioane. Un an mai târziu, autorul studiului (Steve Lawrence de la Institutul de Cercetare NEC) credea că numărul lor aproape că s-a dublat până la 1,5. Chiar și cele mai bune motoare de căutare nu indică mai mult de o pagină din șase. Merită să spunem că pentru a extrage informații utile de pe Internet, trebuie să știți unde și cum să căutați.

Instrumentul Căutare disponibil în Internet Explorer simplifică accesul la instrumentele de căutare, eliminând nevoia de a cunoaște adresele motoarelor de căutare. În acest caz, este mai bine să contactați direct motoarele de căutare, încărcând pagina.

Prin metoda de organizare a căutării și prin funcțiile furnizate, toate instrumentele de căutare pot fi împărțite condiționat în următoarele grupuri:

cataloage si baze de date specializate;

motoare de căutare;

sisteme de metazear.

Directoare și baze de date

Cataloagele de pe WWW sunt similare cu cataloagele bibliotecare sistematice. Căutarea directoarelor constă în mutarea secvențială printr-o listă ierarhică de link-uri numite rubrici sau categorii. Prima pagină a catalogului conține link-uri către subiecte majore, de exemplu, Cultură și Artă; Medicină și sănătate; Societate și politică; Afaceri și economie; Divertisment, etc. Făcând clic pe un link (categorie), se deschide o pagină care conține link-uri care detaliază subiectul selectat (titlu). Pe fiecare pagină care se deschide la trecerea prin catalog într-un fel sau altul, este indicată succesiunea titlurilor cuibărite vizualizate, de exemplu, Business World: Finance: Analytics etc.

Toate cataloagele sunt create și întreținute manual de către specialiști, similar modului în care bibliografii compilează și întrețin cataloage de bibliotecă. Este necesar să rețineți că descrierea documentului este făcută fie de către compilatorii catalogului, fie de către autor. Mulțumesc mie, conținutul paginilor incluse în catalog acoperă cel mai adecvat categoria căreia le sunt atribuite. Dar, ținând cont de viteza de reumplere și de schimbare a informațiilor pe Internet, metoda de „manual” de catalogare nu permite să reflecte în egală măsură starea reală a resurselor de internet pe acest subiect.

Motoare de căutare

(motoare de căutare, motoare de căutare, roboți de căutare)

Există zeci de site-uri web mari și specializate mici și specializate, concepute pentru a căuta pe Internet. Instrumentele de căutare ale acelui grup vor permite utilizatorului să formuleze, în conformitate cu anumite reguli, cerințele pentru informațiile de care are nevoie (creează o interogare folosind limbajul de interogare) După aceea, motorul de căutare scanează automat documentele pe site-urile controlate de acesta (indexate) și le selectează pe cele dintre acestea, „conform »Serverul de căutare, îndeplinesc cerințele formulate de utilizator (relevante pentru interogare) .Nodurile de căutare pot utiliza propriile lor indexuri de Internet, actualizate constant cu programe speciale. Amami, numit program de păianjeni (păianjeni) examinează Spider Web, verificând fiecare link din pagină, apoi pe paginile linkurilor adresabile și așa mai departe. d. și a raportat proprietarul ςʙᴏemu despre toate paginile pentru indexarea ulterioară.

Ca urmare a căutării, sunt create de obicei una sau mai multe pagini care conțin link-uri către documente relevante pentru cerere (pagini Web) Ar trebui să se spună că pentru fiecare legătură este creată data creării documentului, volumul său, gradul de relevanță pentru cerere și fragmente de text care caracterizează conținutul documentului. Făcând clic pe un astfel de link vă permite să încărcați pagina care vă interesează. În cazul unui număr foarte mare de documente găsite, puteți rafina interogarea și repeta căutarea în ea, dar numai printre paginile selectate (o astfel de căutare se numește diferit în mașini diferite, dar de obicei ϶ᴛᴏ - căutați în cea găsită) într-un număr de mașini de căutare, puteți într-un anumit mod schimbați linkul către pagină, al cărui conținut se potrivește cel mai bine nevoilor dvs. și repetați căutarea, solicitând căutarea celor similare.

Avantajul căutării automatizate constă în esența faptului că oferă o vedere a unor cantități foarte mari de informații disponibile în prezent pe Internet. În același timp, dificultatea de a descrie cu exactitate interogarea care reflectă în mod adecvat nevoile dvs. de informații, precum și complexitatea și mai mare a sarcinii de a determina automat gradul în care pagina dvs. este vizualizată pentru interogarea dvs., duce la faptul că numărul de pagini selectate „din primul apel” este, în mod tradițional, fie foarte mic, fie excesiv de mare. . În general, o căutare folosind un motor de căutare este un proces iterativ (multidirecțional), în urma căruia se perfecționează treptat formularul de solicitare.

Sisteme de metasearh

După cum sa menționat mai sus, orice motor de căutare scanează un set specific de servere și selectează documente din Letonia cu criteriile sale inerente. Drept urmare, o căutare prin diferite sisteme pentru aceleași cuvinte cheie dă rezultate diferite. Acest lucru a dus la ideea creării așa-numitelor sisteme de meta-căutare (sau multi-căutare), care în sine nu caută nimic, ci apelează la mai multe motoare de căutare pentru ajutor simultan. Rețineți că fiecare dintre sistemele metasearch are propriul limbaj de interogare. Sistemul traduce interogarea formulată în limba sa în limbile de interogare utilizate de fiecare motor de căutare. În plus, rezultatele căutării de către toate sistemele sunt combinate și prezentate în forma necesară. În mod firesc, căutarea folosind sisteme de metasearch durează mai mult decât motoarele de căutare convenționale.

Prezentare generală a celor mai populare motoare de căutare

Internetul are un număr mare de motoare de căutare și fiecare utilizator este ghidat de cel la care este folosit sau de care l-au sfătuit colegii săi. Folosim o scurtă descriere a celor mai populare motoare de căutare, furnizate pe unul dintre site-uri.

1. Google (www.google.com) Cel mai rapid și cel mai mare motor de căutare. Mai mult de 1,3 miliarde de pagini indexate (din care complet - puțin peste 700 de milioane, restul este cunoscut doar pentru adresa de adrese și textul de legătură) În mod normal, se caută resurse în limba rusă (desigur, fără forme de cuvinte), este posibil să alegeți limba de interfață. Puteți include / exclude rezultatele de pe anumite site-uri și / sau domenii. Spre deosebire de majoritatea motoarelor de căutare, Google estimează popularitatea unei resurse în funcție de numărul de link-uri care o duc din alte pagini. Există o căutare orientată tematic - Apple Macintosh, BSD UNIX, Linux, guvernul SUA și căutările Universității - căutare în resursele instituțiilor științifice și educaționale de frunte.

2. Yandex (www.yandex.ru) Cel mai bun dintre motoarele de căutare ale producției interne. Acesta indexează în principal resursele în limba rusă, în timp ce în ceea ce privește capacitățile nu este inferior sistemelor străine. Căutarea poate fi efectuată cu precizie sau în orice formă de cuvânt, cu o dată limită, indicând site-ul sau subdirectorul său. Puteți căuta pe baza așa-numitului index de citare, să căutați imagini, scripturi, appleturi; setați limba documentului. Linkurile necesare se găsesc în mod tradițional în primele zece rezultate. Are o versiune "lite" (cu un minim de elemente de design) la http://www.ya.ru.

3. AltaVista (www.altavista.com) Oferă o extensie mare a criteriilor de căutare: în Căutarea avansată există o alegere a duratei de timp, la care data creării sau modificării resursei, acceptă 25 de limbi; există posibilitatea de a furniza un rezultat pe site (϶ᴛᴏ îngustează cercul de căutare fără a compromite calitatea) Căutarea de putere are un set standard de funcții. Până de curând, AV era un portal mare, dar din motive financiare (și nu numai), a redus semnificativ numărul de servicii.

4. Yahoo! (www.yahoo.com) Este important să rețineți că unul dintre primele motoare de căutare de pe Internet. Pe lângă setul standard de funcții, vă permite să selectați resurse după dată (4 ani, 1, 3, 6 luni, săptămână, 1, 3 zile) .Se acceptă capacitatea de a specifica semnul "*" în locul oricărei secvențe de caractere din cuvinte cheie. Pe Yahoo! a compilat un mare catalog structurat de categorii (categorii) În primul rând, căutarea este efectuată în ele, apoi în arhiva proprie, apoi - folosind sistemul Google. Căutarea în categorii dă rezultate bune - sunt puține și sunt bune.

5. Lycos (www.lycos.com) Recent - unul dintre cele mai populare sisteme. Cu toate acestea, nu oferă nicio caracteristică specială - „ȘI„ „SAU”, căutare de fraze, prezență obligatorie / absența unui cuvânt; în funcții avansate - căutați numele, adresa URL, numele gazdei și / sau numele de domeniu; 25 de limbi, inclusiv rusa, - într-un cuvânt, întregul set „general acceptat”. Puteți specifica tipul de conținut al resurselor - auto, cărți, ftp, descărcare, știri etc. Evident, popularitatea lui Lycos este o consecință a dimensiunii marelui său proiect.

6. Rambler (www.rambler.ru) Până de curând, cel mai cunoscut motor de căutare rusesc. O căutare avansată nu vă permite să căutați fraze, iar o căutare obișnuită până în februarie a anului a dat rareori rezultate acceptabile. Din februarie, sistemul U folosește un motor de căutare îmbunătățit, designul s-a schimbat, dar calitatea Rambler nu este încă egală cu Yandex și Aport (potrivit autorului analizei motoarelor de căutare) Site-ul are un catalog de rating al celor mai bune 100 de resurse Rambler, una dintre cele recunoscute surse de informații statistice despre proiectele de pe Internet.

7. Aport (www.aport.ru) Un alt server de căutare rusesc bun. Căutarea se realizează prin text (numai în toate formele de cuvinte) și prin URL, folosind operatori logici și operatorul „...” (cu toate acestea, cuvintele oprite dintr-o frază sunt încă ignorate), după dată și în câmpuri separate (nume, descriere etc. ), meta-caractere * și! sunt acceptate Prezentarea rezultatelor căutării este cea mai bine concepută în comparație cu alte motoare de căutare rusești. Unele îndoieli sunt cauzate de designul paginii principale, care este clar supraîncărcat cu informații. Există o versiune ceva mai ușoară „ușoară” la http://aport.ru.

Cum să alegeți un motor de căutare

Când căutați pe Internet, două componente sunt importante - completitate (nu se pierde nimic) și acuratețe (nu se găsește nimic în plus) De obicei, toți îi spun un singur cuvânt - relevanță, adică un alt răspuns la întrebare.

1. Acoperire și adâncime

Prin domeniu ne referim la volumul bazei de date a motorului de căutare, care este măsurat prin trei indicatori - cantitatea totală de informații indexate, numărul de servere unice și numărul de documente unice. Prin profunzime se înțelege dacă există o limită la numărul de pagini sau la adâncimea de directoare pe un singur server.

Cum să verificați: Unele mașini scriu statistici despre robot pe acest site. Dar puteți verifica singur - trebuie să setați mai multe interogări de căutare, constând dintr-un singur cuvânt (pentru a exclude influența limbajului de interogare, inclusiv interpretarea diferită a decalajului), și când priviți statisticile rezultatelor generate de mașină - de obicei în partea de sus a listei indică câte documente au fost găsite. Pe lângă faptul că cuvintele ar trebui să provină din diferite domenii, este bine să luați cuvinte de diferite greutăți - rare, „medii” și „grele” (frecvență) și să comparați cantitatea găsită. Cuvintele grele, în special, testează textul complet (indexarea tuturor cuvintelor dintr-un document) al unui motor de căutare.

Este mai dificil să verificați profunzimea circulației robotului - pentru că este necesar să luați anumite site-uri, de exemplu, cu o structură de arhivă ramificată și să verificați dacă documentele sunt indexate, la care se poate accesa doar, de exemplu, după 6 clicuri pe link-uri.

2. Viteza rastrei și relevanța legăturilor

Viteza crawl-ului Web arată cât de rapid are loc indexarea unei resurse recent adăugate și cât de rapid sunt actualizate informațiile din baza de date. Nu uitați că un indicator important al calității unui motor de căutare (robotul său) va fi nu numai captarea de noi teritorii: ci și monitorizarea stării celor deja acoperite. Serverele dispar și se trezesc, paginile de pe ele sunt actualizate. Linkurile pe care motorul de căutare le oferă în lista de căutări ar trebui să existe, în primul rând, și, în al doilea rând, conținutul acestora ar trebui să fie relevant pentru cerere.

Cum să verificați: informațiile obiective pot fi obținute prin analizarea jurnalelor serverului - robotul motorului de căutare este reprezentat de obicei prin numele mașinii sale (sau într-un mod similar), astfel încât să puteți vedea cât de des se întâmplă pe server, câte pagini vizionează etc. Din păcate, de obicei, jurnalul site-ului dvs. este disponibil pentru studiu, astfel încât metoda experimentală rămâne.

Pentru a determina viteza de crawl, trebuie să creați undeva o pagină de text, să o adăugați la motoarele de căutare și să vedeți cât de repede începe. Sau schimbați o pagină existentă. Merită spus că pentru a determina relevanța legăturilor - verificați documentele cel puțin în prima pagină a listei găsite pentru mai multe întrebări. Un mesaj Not Found nu indică faptul că documentul nu mai există.

3. Calitatea căutării (indicator subiectiv)

Merită spus că fiecare motor de căutare are propriul algoritm pentru sortarea rezultatelor căutării. Cu cât documentul de care aveți nevoie este mai aproape de partea de sus a listei, cu atât este mai bună relevanța.

Cum se verifică: numai prin experiment. Se recomandă efectuarea de cereri de lungimi diferite pentru comparație. De asemenea, puteți utiliza limba de interogare, în timp ce pentru cei care sunt reticenți în citirea descrierii, pot utiliza pagina de interogare extinsă („căutare avansată” în Aport și Yandex, „interogare detaliată” în Rambler - traducere în rusă a opțiunilor „căutare avansată”)

Pe lângă relevanță, există caracteristici importante ale utilizatorilor.

4. Viteza de căutare

Dacă motorul de căutare răspunde lent, lucrul cu acesta este ineficient. Merită să adăugați că viteza vizibilă pentru utilizator depinde nu numai de motorul de căutare în sine, ci și de canalele de internet.

Cum să verificați: prin experiment - trebuie să căutați cereri de lungimi diferite, diferite<тяжести>  cuvinte și la diferite ore ale zilei (încărcarea serverului este inegală semnificativ în zilele maxime - aproximativ trei până la patru după-amiaza)

5. Capacități de căutare (lucrați cu limbajul documentelor, limbajul de interogare)

Un alt punct de comparație este ceea ce exact și cum contribuie motorul de căutare la index. Merită spus - un motor de căutare cu text complet indexează toate cuvintele textului vizibile pentru utilizator. Prezența morfologiei face posibilă găsirea cuvintelor dorite în toate declinările sau conjugările. În plus față de HTML, există etichete în limbajul HTML care pot fi procesate și de motorul de căutare (anteturi, linkuri, subtitrări pentru imagini etc.)

Limbajul de interogare sub forma operatorilor logici standard (ȘI, SAU, NU) este aproape toate mașinile. Unii oameni pot căuta fraze sau cuvinte la o anumită distanță - ϶ᴛᴏ adesea este important să se obțină un rezultat rezonabil. O caracteristică suplimentară va fi o căutare în zonele documentelor - titluri, link-uri, cuvinte cheie (META KEWWWS) etc. O caracteristică suplimentară a limbajului de interogare este o interogare de limbaj natural, care nu necesită cunoașterea operatorilor.

Cum să verificați: De obicei, aceste informații sunt publicate pe serverul motorului de căutare (în Help "e). Rețineți că, cu toate acestea, este recomandat să verificați solicitările reale, deoarece uneori gândirea doritoare este valabilă.

6. Facilități suplimentare

Acestea sunt caracteristici suplimentare pe care le oferă utilizatorilor motorul de căutare. Aceasta include tot felul de opțiuni de căutare (pagini specializate, căutare de documente similare, limitarea zonei de căutare), precum și o listă de servere găsite și căutare după date și servere, precum și o interfață convenabilă pentru motorul de căutare și posibilitatea personalizării acesteia.

Cum să verificați: informațiile pot fi parțial publicate pe serverul motorului de căutare, dar cel mai bine este să încercați să lucrați singur cu aceste funcții.

Este clar că această analiză va dura ceva timp. Pe lângă ϶ᴛᴏgo, motoarele de căutare, precum întregul Internet, nu stau nemișcate. Mai mult decât atât, având în vedere că preluarea informațiilor este una dintre componentele importante ale tehnologiei computerizate, ar trebui să-i acord suficientă atenție - cel puțin nu mai puțin decât capacitatea de a lucra pe o rețea locală.

Sondajul a fost realizat pe Yandex.ru: de ce este nevoie de internet și ce îi lipsește (http://www.yandex.ru/polling/9.html) În ordine descrescătoare, datele sondajului au fost distribuite după cum urmează: Internetul este folosit ca referință (23, 76%), instrument de cercetare (15, .45%), divertisment (14,15%) și doar pe locul al patrulea este sursa de știri (12,32%) Optimist că 10% dintre utilizatori întotdeauna și 73% reușesc adesea Găsiți informațiile de care aveți nevoie. Și nu există suficient pe internet: informații, o bună căutare și ordine (inclusiv: ordonare, structură, structură, structurat, structurat, precum și sistem, sistematizare, sistematic, sistematic și sistematizat)

RASPUNDE LA INTREBARI:

Ce metode de organizare a unei căutări există pe Internet?

Cum se caută informațiile în cataloage și baze de date?

Cum se introduc informațiile în directoare și baze de date?

Ce se referă internetul la motoarele de căutare?

Cum se formează baza de date cu informații în motoarele de căutare?

Cum începe căutarea de informații în motoarele de căutare?

Ce este o solicitare?

Cum se caută informațiile în motoarele de căutare?

Ce se înțelege prin relevanță pentru o interogare?

Ce se poate face în cazul unui număr foarte mare de documente găsite într-o altă căutare?

Ce sunt motoarele cu metasearch?

Care este diferența fundamentală între motoarele de căutare meta și motoarele de căutare convenționale?

Care dintre următoarele sisteme va fi metasearch:

Care sunt cele mai populare motoare de căutare interne?

Care sunt cele mai populare motoare de căutare străine?

Ce două componente sunt importante atunci când căutați informații pe Internet?

Ce caracteristici determină eficiența motoarelor de căutare atunci când caută informații pe Internet?

Termeni de utilizare:
  Drepturile intelectuale asupra materialului - Rețele informatice de informații - Borisov N.A., Lukin A.A. aparțin autorului său. Acest manual / carte este postat exclusiv în scopuri educaționale, fără implicare în circulația comercială. Toate informațiile (inclusiv „Subiectul 3. Căutarea informațiilor pe Internet”) sunt colectate din surse deschise sau adăugate de utilizatori fără costuri.
  Pentru a folosi pe deplin informațiile postate, site-ul Administrația de proiect recomandă cu fermitate achiziționarea unei cărți / manual Rețelele de informare - Borisov N.A., Lukin A.A. în orice magazin online.

Tag-block: Information Computer Networks - Borisov N.A., Lukin A.A., 2015. Subiect 3. Căutare de informații în rețeaua INTERNET.

(C) Site-ul depozitului legal 2011-2016

Imparte asta