Organisering av sökningen efter utbildningsinformation på Internet. Principerna för att organisera och söka efter information på Internet

Hitta information på det globala Internet: allmän information

Enligt principen om organisation och användning av sökverktyg kan delas in i:

kataloger . Kataloger är kataloger som innehåller listor över internetadresser grupperade enligt vissa kriterier. Som regel är de grupperade efter ämne (vetenskap, konst, nyheter, etc.), där varje ämne förgrenas i flera undernivåer. Några sökkataloger:

namn

Ay!

www.au.ru

Atrus (registrering krävs)

www.atrus.ru

List.ru

www.list.ru

konstellation

www.stars.ru

snigel

www.ulitka.ru

Ivan Susanin

www.susanin.ru

sök maskiner . För en detaljerad sökning efter dokument används specialiserade sökmotorer - sökmotorer. Efter mottagande av en begäran från användaren utfärdar sökmotorn en lista med dokument som motsvarar sökuppgiften. Dokument som hittas är rangordnade beroende på platsen för nyckelorden (i rubriken, i början av texten, i de första styckena) och frekvensen för deras utseende i texten. Användningen av olika sökmotorer ger olika resultat. Det vanligaste av sökmotorerna:

namn

Det är jag index

www. yandex. ru

EN port

www.aport.ru

P Ambler

www.rambler.ru

D ang

www.google.ru

M Eil

www. post.ru

Det är jag ho

www.yahoo.com

EN ltavista

www.altavista.com

En sökfråga kan bestå av ett eller flera ord, den kan innehålla olika skiljetecken. När det gäller registret, i det allmänna fallet, stavningsregistret för sökord och operatörerspelar ingen roll , det vill säga orden "abstrakt", "abstrakt", abstrakt, "abstrakt" och "abstrakt" kommer att uppfattas desamma. Detta gäller också det latinska alfabetet. Så, "Yes "och" yES ", och till och med" yeS "," ja "och" YES "är alla samma för sökningen.

Praktiskt arbete "Informationssökning på det globala Internet"

Doft i knoppar som gömmer sig

Lila blommar.

Maj blommar, vilket betyder

Idag är en helgdag - majdag!

Spara dikt:

Gör en sökning semesterbilder:
Visa sökresultat finns på 1 sida. Gå till sida 2: bläddra med mushjulet för att visas längst ner i webbläsarfönstret och klicka påL KM per sidlänk2 .
Välj en bild du gillar och klicka på denL KM.

I ett nytt fönster ser du samma bild, förstorad. Till höger om den finns information om storleken på bilden och platserna på vilken den ligger.

Kopiera bild :

ett enda klick,P KM på bilden;
välj teamKopiera bild ;
stäng webbläsarfönstret genom att klicka på knappenstänga .

Sätt i en bild per dokument:

gå till textredigeringsfönstret (det bör finnas en gratulationerdikt);
fixa markören genom att klickaL KM efter diktens sista karaktär (detta! ) och tryck på knappenAnge för att flytta markören till en ny rad;
ett enda klick,P KM;
välj kommandot i den lokala menyninfoga .

Spara dokument i din personliga mapp under namnetGrattis till *** från *** . I stället för den första *** skriv namnet på den person till vilken gratulationen skickas; i stället för den andra *** skriv ditt namn. Till exempelGrattis till Anastasia från Olga . Stäng textredigeringsprogrammet.

Starta webbläsaren Google Chrome
.

Logga in i din inkorg på portalenpost . ru

Välj kommandot i huvudmenyn (längst upp i fönstret)Att skriva .

Fyll i de obligatoriska fälten :

Välj-knappatt skicka (det finns längst upp och ned i webbläsarfönstret).
Stäng webbläsarfönstret.
Stäng av datorn.

Övning 1

uppgift : Hitta namnet på världens största sötvattensjö.

För optimalt och snabbt arbete med sökmotorer finns det vissa regler för att skriva frågor. En detaljerad lista för en viss sökserver kan vanligtvis hittas på själva servern med hjälp av länkarna Hjälp, Fråga, Frågoregler osv.

Organisera sökningen och fyll i tabellen med sökresultaten:

frågan

Sökresultat (sidantal)

yandex . ru

vandrare . ru

google.ru

post .ru

aport . ru

Hur hittar jag en person på internet från fotografering?

Hur registrerar jag mig på webbplatsen i kontakt?

Hur tar man bort röda ögon?

Stäng webbläsaren (avsluta programmet).

Övning 2

uppgift : hittabiografi om Rysslands utbildningsminister A. Fursenko med hjälp av en sökmotorg oogle. r u

Övning 3

Sök efter litterära verk på Internet

Varning! För att se böcker i formatFB2 behöver ett speciellt program ("läsare"). Till exempelAlReader .

Sök efter information på Internet

Sök efter information på Internet

För att söka efter information i vanligt förekommande tre sätt (Se fig. 1). först av dem - sök efter adress. Den används när användaren känner adressen till en informationsresurs som innehåller den information han behöver. När han organiserar sökningen efter information efter adress (adressformuläret - IP, domän eller URL - i detta fall spelar ingen roll), måste användaren bara ange adressen till resursen i motsvarande fält i webbläsaren - ett program som är utformat för att ge åtkomst till nätverksresurser.

Fig. 1. Metoder för informationssökning i hypertextdatabaser

andra - Sök med hjälp av hyperlänknavigering. Vid användning av denna typ av sökfall måste användaren först komma åt servern som är associerad med motsvarande databas. Efter det kan du hitta dokumentet med hyperlänkar. Uppenbarligen är denna metod bekväm när resursadressen är okänd för användaren. Webportaler är avsedda att användas som utgångspunkt för sökning vid implementering av denna metod - servrar som ger direkt tillgång till ett antal servrar, inklusive informationsresurser installerade på dem, samt webbapplikationer som implementerar webbtjänster som motsvarar portalsyfte. Servrarna som är tillgängliga via portalen kan hänvisa till ett specifikt system (till exempel företag) eller olika system och kan väljas speciellt beroende på typ, ämne eller andra egenskaper hos dokument och data som finns på deras webbplatser. Vanligtvis kombinerar portaler en mängd olika funktioner för att hålla klienten så länge som möjligt. Den dominerande portaltjänsten är helpdeskstjänsten: sökning, kategorier, finansiella index, väderinformation etc. Medan webbplatser i de flesta fall är samlingar av statiska webbsidor, är portaler uppsättningar av programvara och förstrukturerad information som dessa verktyg förvandlas till strukturerad data på begäran av specifika användare.

tredje Sökmetoden innebär användning av Internet-sökmotorer. Sökningsservrar kallas dedikerade värddatorer som är värd för databas för internetresurser. Användargränssnittet för en sådan server har ett fält för att ange nyckelord som beskriver ämnet som är intressant för användaren (se fig. 2).

Fig. 2 Vy över Yandex sökmotorfönster

Servern uppfattar dessa ord som en informationsbegäran, i enlighet med vilken den söker efter resurser och presenterar en lista över dokument som hittats för användaren. Uppenbarligen, när man implementerar denna metod, är fel på både det första (missade målet) och det andra slaget (informationsbuller) fel möjliga. Det bör nämnas att två grupper av sökmotorer skiljer sig: sökmotorer och ämneskataloger. Deras skillnad beror på metoden för skapande och efterföljning av databasen med internetresurser, som denna server utför informationssökning. Så sökmotorer har ett speciellt program - en sökrobot. Den övervakar ständigt nätverket, samlar in information från webbsidor, indexerar dem och fångar sin sökbild i sin databas. I ämneskataloger skapas en databas med internetdokument "manuellt" av specialredaktörer. Eftersom det inte finns någon enhetlig administration på Internet förändras dess informationsresurser ständigt. Nya dokument kan visas i den och befintliga dokument kan försvinna. Frekvensen för uppdatering av information i dokument för olika webbplatser är olika: för vissa är det flera gånger per timme, för vissa, en gång om dagen, dag, månad etc. Därför är det mycket viktigt att förstå att när man använder informationshämtningssystem för att hitta information på Internet utförs sökningen inte i det verkliga utrymmet för dokumenten i nätverket, men i någon modell, vars innehåll kan väsentligt skilja sig från det faktiska innehållet på Internet vid tidpunkten för sökningen. Enligt graden av täckning av indexerade resurser kan sökmotorer delas in i två grupper: internationellt och rysktalande. Det förra indexerar alla dokument som publicerats på Internet i rad. Den andra indexerar resurser som finns i domänzoner med övervägande av det ryska språket. En lista över de mest populära systemen ges i tabellen. 1.

Tabell. 1. De mest populära sökmotorerna

internationell	Rysktalande
Google	Yandex (44,4% av Runet)
Yahoo!	Rambler (10,6% av Runet)
bing	Mail.ru (7,3% av Runet)
MSN	Nigma (0,5% Runet)
Altavista	Gogo.ru (0,3% av Runet)
fråga	Aport (0,2% Runet)

Obs: Runet är den ryskspråkiga delen av Internet som utgör domäner med namn ru och rf.

Det är nödvändigt att nämna att det finns en speciell kategori av sökmotorer - metasearch-motorer. Deras grundläggande skillnad från sökmotorer och ämneskataloger är att de inte har sin egen indexdatabas, och därför, om de får en användares begäran, omdirigerar de den till flera sökmotorer samtidigt (se fig. 3).

Fig. 3. Schemat för metasearch-systemet

Möjligheten att samtidigt använda flera sökmotorer för en enda fråga är en uppenbar fördel med metasearchmotorer. För närvarande har Metabot.ru-systemet funnit utbredd användning, vars gränssnitt visas i fig. 4. Detta system låter dig använda både internationella och ryskspråkiga sökservrar för att söka efter resurser.

Problemet med sökningen på webben är inte att det finns lite information utan att det finns mycket av det. Att hitta information på Internet är hörnstenen i effektiv webbläsning. Att inneha sökfärdigheter gör Internet användbart för användaren både på jobbet och under fritiden.
Det finns specialiserade tjänster som kallas sökmotorer för att organisera sökningar på Internet.

Sökmotorer.

Söksystem - ett hårdvaru-programvarukomplex med ett webbgränssnitt som ger möjlighet att söka information på Internet.
De flesta sökmotorer letar efter information på World Wide-webbplatser, men det finns också system som kan söka efter filer på FTP-servrar, produkter i onlinebutiker och information i Usenet-nyhetsgrupper. För att söka efter information med hjälp av en sökmotor formulerar användaren en sökfråga. På användarens begäran genererar sökmotorn en sökresultatsida. Sådana sökresultat kan kombinera olika typer av filer, till exempel: webbsidor, bilder, ljudfiler. Vissa sökmotorer hämtar också data från onlinedatabaser och resurskataloger.
Syftet med en sökmotor är att hitta dokument som innehåller antingen nyckelord eller ord som på något sätt är relaterade till nyckelord. Sökmotorn är bättre, ju fler dokument som är relevanta för användarens begäran kommer den att återvända. Sökresultaten kan bli sämre på grund av algoritmerna. På en sökning efter husdjur tillhandahåller t.ex. Yandex sökserver (se nedan för mer information) mer än 14 000 000 länkar till sidor som enligt hans åsikt innehåller information. Men inte allt är så smidigt: när du besöker några av de sidor som hittats visar det sig att den information du behöver inte är tillräckligt eller inte alls.
För att söka med maximal effektivitet måste du veta hur sökmotorer fungerar och korrekt formulera en begäran om informationssökning.

Principerna för sökmotorerna

Sökmotorer fungerar genom att lagra information om många webbsidor som de får från HTML-sidor. Huvudkomponenterna i en sökmotor: sökrobot, indexerare, sökmotor. Vanligtvis fungerar system i steg. Först får sökroboten innehållet, sedan tittar det på innehållet på webbplatser. Först därefter genererar indexeraren ett sökbart index. En indexerare är en modul som analyserar en sida efter att ha delat den i delar med sina egna lexikala och morfologiska algoritmer.
Grunden för arbetet för de flesta moderna sökmotorer är citeringsindexet, som beräknas av indexeraren som ett resultat av analys av länkar till den aktuella sidan från andra Internet-sidor. Ju fler av dem, desto högre citeringsindex för den analyserade sidan, desto högre visas denna sida i sökresultaten och desto högre kommer sidan att presenteras i listan över hittade resurser.

Regler för att bygga sökfrågor

Som redan nämnts finns det många sökmotorer på Internet, inhemska och utländska.
Ryska sökservrar: Yandex (www.yandex.ru); Rambler (www.rambler.ru); Aport (www.aport.ru) och Gogo (www .gogo .ru).

Utländska sökservrar: Google ( www .google .com); Altavista (www. Altavista .com) och Yahoo! (www. yahoo. com).
För att söka på ryska är ryska servrar bättre lämpade på utländska - utländska, även om Google gör ett bra jobb med att söka på många språk. Trots påståenden från många ägare av sökmotorer om att frågor kan skrivas på nästan det språk som människor använder för att kommunicera med varandra, är detta långt ifrån fallet. Tack vare introduktionen av nya språkteknologier har sökmotorer blivit mycket bättre förstått av användaren. Sökmotorer letar nu inte bara efter det begärda ordet, utan också ordformerna, vilket gör att du kan göra sökresultaten mer exakta. Till exempel, om ordet smart finns i sökfrågan, kommer dess resultat inte bara att innehålla detta ord, utan också dess derivat: smart, smart, såväl som sinnet och till och med förnuft. Naturligtvis kommer sidor med ordformer inte att vara bland de första sökresultaten, men element av konstgjord intelligens är uppenbara. Detta faktum är användbart att beakta när du bygger sökfrågor.
Det bör komma ihåg att sökmotorer inte är skiftlägeskänsliga när de behandlar en begäran, och skiljetecken är inte nödvändigt i sökfrågor, eftersom de också ignoreras av sökmotorer. Men vid konstruktion av komplexa avancerade frågor, sökresultaten som vanligtvis är mycket närmare de förväntade, använder traditionella skiljetecken. De flesta sökmotorer kan hantera skrivfel. Om sökmotorn verkar ha gjort ett misstag eller en skrivfel i ordet, kommer den att varna om den med samma fras: Kanske letade du efter ...

Ord för att fråga efter sökservern

Det finns ett uttryck "En maskin måste fungera, en man måste tänka", och det sägs precis om en sådan situation. Användarens uppgift i beredningen av sökfrågan är att lyfta fram nyckelord, sökserverns uppgift är att bäst bearbeta den angivna frågan. Tänk på ett exempel som illustrerar typiska misstag för nybörjare när de söker på Internet. Till frågan "Gåtor om musikinstrument" gav sökmotorn inte användbara resultat. Sedan beslutar användaren att korrigera begäran genom att lägga till den och skriva: "Pussel för barn om musikinstrument" - sökresultaten var ännu sämre än de föregående. För detta exempel var en bra lösning att söka efter nyckelordet "gåta." Det finns många sådana webbplatser på Internet, och genom att gå till själva sajten och titta lite på dess delar är det fullt möjligt att hitta information av intresse. Vi formulerar flera regler för att göra frågor:

välj bara de viktigaste nyckelorden som är relevanta för det aktuella ämnet;
ord bör inte vara för många, men inte för få;
om sökresultaten är otillfredsställande, använd mer "mjuka" förhållanden för frågan eller försök att söka i en annan sökmotor, som sökmotorer fungerar inte på samma sätt, därför kan resultaten också variera.

Avancerad sökning

För att ge en mer effektiv sökning på Internet ger sökmotorer avancerad sökning samt sökning med frågespråket. Avancerad sökning - möjligheten att söka med många olika parametrar. För att göra detta har sökmotorerna separata sidor som du kan ställa in sådana parametrar på. Principerna för avancerad sökning är liknande för de flesta sökmotorer.
Låt oss överväga ytterligare sökalternativ med hjälp av exemplen på Yandex- och Google-sökmotorer eftersom Yandex är den mest populära sökservern på det rysktalande Internet, och Google är den mest populära sökmotorn i världen. När man sökte på Internet var Yandex en av de första som tog hänsyn till morfologin i det ryska språket, det vill säga att använda olika former av ordet, som nämnts ovan. Efter att ha besökt www.yandex.ru kan en användare ange en fråga och få sökresultaten direkt, eller du kan använda länken Avancerad sökning med hjälp av ikonen och gå till motsvarande sida (se figuren nedan), där du kan finjustera sökparametrarna.

Yandex Avancerad sökningssida

Tänk på de ytterligare funktionerna som du kan använda på den avancerade söksidan: ange din egen plats (Moskva), ange i vilken form informationen ska presenteras (filtyp), den tidsperiod som vi letar efter information (per dag, 2 veckor, per månad, från .. Gör), på vilket språk ska informationen presenteras (ryska, engelska mer), och du kan också ange webbplatsens URL, etc.
Valet (precis som i frågan) indikeras i sökmotorn så att fråganordens morfologi inte ändras utan endast formen på det ord som anges söks.

Frågespråk

Frågespråk - ett kommandosystem som låter dig ändra frågeparametrarna från huvudsöksträngen med specialkommandon. Fokuserat på erfarna användare.
Eftersom frågespråket är ganska komplicerat och omfattande ger vi bara de grundläggande konstruktionerna, som användarna kan mest efterfråga. Vissa Yandex-frågespråkkommandon presenteras i tabellen.

operatör		beskrivning	syntax	Begär exempel
		Sök efter dokument där det markerade ordet nödvändigtvis finns. Det är tillåtet att använda flera + -operatörer i samma fråga.	"ord 1 + ord 2"	Det finns dokument som nödvändigtvis innehåller orden "boulevard" och "Moskva" och ordet "sholokhov" kan finnas närvarande.
		Sök efter offert. Sök efter dokument som innehåller frågaord i en given sekvens och form.	"ord 1 ord 2 ... ord N"	Dokument som innehåller detta offert hittas.
	Sök efter en offert med saknade ord. En * operatör matchar ett saknat ord. Varning! Det används bara som en del av operatören.		"ord 1 * ord 2 ... ord N" Operatören är separerad med mellanslag.	Dokument som innehåller denna offert hittas, inklusive det saknade ordet. Dokument som innehåller detta offert hittas, inklusive saknade ord.

Den fullständiga strukturen för Yandex-frågespråket finns på hjälp-sidan (http://help.yandex.ru/search/?id\u003d481939). Språket för sökfrågor på Google skiljer sig från Yandex, även om det finns några vanliga punkter. Tänk på några grundläggande kommandon för detta språk genom att titta på tabellen (se nedan)

Den kompletta strukturen för Googles frågespråk finns på hjälp-sidan:

4.5.1. Traditionella sökmotorer på Internet

För att söka efter information används speciella externa tjänster - sökmotorer: sökmotorer och kataloger.

Sökmotorer är de servrar som automatiskt samlar information om innehållet på webbplatser med hjälp av speciella robotprogram.

Information för katalogserver väljs av personer. Till skillnad från sökmotorer är information i kataloger mer exakt strukturerad och i en vertikal hierarkisk form.

Både sökmotorer och kataloger är externa tjänster eller, som de också kallas, autonoma system. En egenskap hos autonoma system är att cykeln med att arbeta med information utförs direkt på detta system, börjar med att få information från källan och slutar med tillhandahållandet av en söktjänst till slutanvändaren.

Automatiska sökmotorer täcker mer information, deras information uppdateras oftare och därför mer relevant. Informationen på sådana servrar är dock dåligt strukturerad, eftersom det är en svår formaliserad uppgift att utvärdera innehållet på en webbplats. Oftast väljer robotprogrammet endast dokument genom att de sökta orden finns i dokumentets text. Ett exempel på en sökmotor är AltaVista (http://www.altavista.com).

I kataloger har all information en tydlig vertikal hierarkisk struktur. Dessutom är denna struktur byggd på basis av semantiskt innehåll. Detta är huvudvärdet på kataloger som behandlas av människor: du kan inte hitta många webbplatser som innehåller dessa nyckelord, men många webbplatser som ägnas åt detta ämne. Ett exempel på en katalog är Yahoo-servern (http://www.yahoo.com).

WWW-kataloger som innehåller ett stort antal poster placerar ofta lokala sökmotorer på sina sidor. Implementerad i form av traditionella mallar, som inte skiljer sig mycket från mallar på automatiska index.

Både för sökmotorer och kataloger fastställs en viss princip för val av information. Denna princip fastställs antingen i algoritmerna för sökmotorerna eller i arbetsreglerna för människor (för kataloger). Beroende på var och vilken typ av information som samlas in utvärderas två egenskaper hos autonoma system - rumslig skala och specialisering.

Den rumsliga skalan är utformad för att begränsa antalet primära informationskällor till en viss slutlig gräns. Till exempel kan en sökmotor byggas på bara en webbplats. Sökning kan begränsas till en enda geografisk domän (till exempel ru). Sådana system kallas regionala.

Det finns många sökmotorer som inte har dessa begränsningar. De kallas globala informationssökningssystem.

Funktioner i den regionala strategin kan finnas i globala system. Så Lycos-systemet (http://www.lycos.com) sorterar sökresultaten beroende på vilken region begäran kom från.

De mest populära sökmotorerna är så lastade att det finns ett behov av att skapa "speglar" (speglar). Speglar bör innehålla en exakt kopia av den primära sökmotorn och garantera snabb service för samtal som kommer från ett visst geografiskt område.

När du öppnar en viss sökmotor bör du överväga vilka tjänster den tillhandahåller. Till exempel i den inhemska sökmotorn Yandex (http://www.yandex.ru) har en sökning införts inte bara för sidor utan också för servrar. Kärnan i denna metod är att sökord inte söks över alla sidor, utan endast genom deras rubriker (det som finns i HTML mellan "titel" -taggarna). I utländska AltaVista har en separat tjänst Real Names skapats, som innehåller en lista över alla registrerade sidor med företag och organisationer.

Nästa viktiga tjänst är sökspecialisering. För närvarande är Internet ett förvar med olika typer av information. Därför kan sökningen efter information också formaliseras. Du kan endast söka efter grafiska bilder, du kan söka efter multimediainspelningar i MP3-format, etc. På många sökmotorer kan du ange vilken typ av information du letar efter. dessutom finns det servrar som är specialiserade på att hitta information av en strikt definierad typ. FTPSearch (http://ftpsearch.lycos.com) är specialiserat uteslutande på filsökningar. Det indexerar alla typer av ftp-servrar för filer som finns där. Sökningen utförs direkt med namnet på den önskade filen. På samma sätt är MP3Search (http://mp3.box.sk) specialiserat på att uteslutande söka efter MP3-filer.

En annan viktig punkt är vilket frågespråk som detta eller det här systemet använder. Ju mer komplicerat detta språk är, desto mer finjusterad blir sökningen möjlig. För närvarande finns det inte ett enda enhetligt frågespråk för sökmotorer. Utvecklingen av ett sådant språk skulle göra det möjligt att integrera olika söktjänster i ett enda söksuper-system. I februari 1999 lanserades Search Engine Standards Project (SESP), där de 15 största Internet-sökmotorerna deltar. Projektets uppgift är att standardisera söktjänsternas arbete (material om det finns på http://www.searchenginewatch.com).

4.5.2. Metasearch-system

Ett annat lovande område för utveckling av söktjänster i nätverket är användningen av metasearch-system. Grunden för metasearchmotorer är gränssnittet mellan användaren och många sökmotorer. Metasearch-systemet är inte avsett för indexering och ackumulering av information. syftet är ren sökning och bearbetning av sökresultat.

Metasystemet tillåter, i enlighet med användarens önskemål, att begränsa din sökning till vissa sökservrar, kontrollera förekomsten av resurser som indikeras av sökresultaten, förfina sökningen i sökresultaten etc. Metasearch-motorer kallas ofta sökmotorklienter.

Ett exempel på ett metasearch-system är den inhemska utvecklingen av DISCO Seeker of DISCO (http://www.disco.ru).

Huvudfunktionen i den nya generationens metasearch-system är integrationen av sökmotorer med olika specialiseringar. Inom en applikation kan du söka efter information av olika slag. Vid bearbetning av en sökfråga är det tillåtet att ansluta till mer än 100 sökmotorer (inklusive specialiserade). Sökresultaten bearbetas ytterligare: länkar som redan hittats exkluderas av systemet; Mottagna adresser kontrolleras för tillgänglighet. Det är möjligt att konfigurera arbete med sökservrar (du kan välja de servrar som systemet ska fungera med, ange det maximala antalet länkar som tas emot från varje server etc.).

Men när man använder metasearch-system kan man inte göra sig utan kunskap om traditionella sökmotorer - de utgör grunden för varje sökning.

Sökproblem och medel för dess organisation

Jätte och kontinuerligt ökande mängder information tillgänglig på Internet, inklusive operationell, gör problemet med att hitta nödvändig information mycket relevant och komplex. Snabba sökningen efter nödvändig information avgör till stor del internetanvändarnas professionalism. Det är värt att säga att för att automatisera uppgiften har olika, utländska och inhemska sökningssystem utvecklats, som är specialsidor. Samtidigt, trots tillgängligheten av många sökautomatiseringsverktyg, förblir denna uppgift ganska mödosam, vilket kräver en viss upplevelse, intuition och kunskap om terminologin som används inom dess ämne från användaren.

Enligt uppskattningar som publicerades i tidskriften Nature den 8 juli 1999 var antalet offentligt indexerade webbsidor 800 miljoner. Ett år senare trodde författaren till studien (Steve Lawrence från NEC Research Institute) att deras antal nästan hade fördubblats till 1,5 miljarder. Även de bästa sökmotorerna indexerar inte mer än en sida av sex. Det är värt att säga att för att extrahera användbar information från Internet måste du veta var och hur du söker.

Sökverktyget tillgängligt i Internet Explorer förenklar åtkomst till sökverktyg och eliminerar behovet av att känna till adresserna på sökmotorerna. I det här fallet är det bättre att direkt kontakta sökmotorerna och ladda sidan.

Med metoden för att organisera sökningen och med de funktioner som tillhandahålls kan alla sökverktyg delas upp i följande grupper:

kataloger och specialiserade databaser;

sökmotorer;

metasearch-system.

Kataloger och databaser

Kataloger på WWW liknar systematiska bibliotekskataloger. Sökning i kataloger består av att sekventiellt flytta igenom en hierarkisk lista med länkar som kallas rubriker eller kategorier. Katalogens första sida innehåller länkar till huvudämnen, till exempel Kultur och konst; Medicin och hälsa; Samhälle och politik; Näringsliv och ekonomi; Underhållning etc. Om du klickar på en länk (kategori) öppnas en sida med länkar som anger det valda ämnet (rubrik). När du går genom de detaljerade kategorierna hittar du en sida med nödvändig information. På varje sida som öppnas när du går igenom katalogen på ett eller annat sätt indikeras sekvensen av visade kapslade rubriker, till exempel Business World: Finance: Analytics, etc.

Alla kataloger skapas och underhålls manuellt av specialister, liknande hur bibliografer sammanställer och underhåller bibliotekskataloger. Det är lämpligt att notera att beskrivningen av dokumentet görs antingen av katalogens sammanställare eller av författaren. Tack vare mig täcker innehållet på de sidor som ingår i katalogen lämpligast den kategori som de tillhör. Men med hänsyn till hastigheten på påfyllning och förändring av information på Internet tillåter den "manuella" metoden för katalogisering inte att lika spegla det verkliga tillståndet för internetresurser på detta ämne.

Sökmotorer

(sökmotorer, sökmotorer, sökrobotar)

Det finns dussintals stora och tusentals små och specialiserade webbplatser utformade för att söka på Internet. Iith-gruppens sökverktyg gör det möjligt för användaren att formulera krav för den information han behöver enligt vissa regler (med hjälp av frågespråket för att skapa en fråga) Därefter skannar sökmotorn automatiskt dokument på webbplatser som kontrolleras av den (indexeras) och väljer de som är enligt »Sökservern, de uppfyller de krav som formulerats av användaren (relevant för frågan). Söknoderna kan använda sina egna Internetindex, ständigt uppdaterade med specialprogram. ammami undersöker kallade spindlar (spindlar) program Spider Web, kontrollera varje länk på sidan och sedan på sidorna av adresserbara länkar, och så vidare. d., och rapporteras ςʙᴏemu ägaren om alla sidor för senare indexering.

Som ett resultat av sökningen skapas en eller flera sidor som innehåller länkar till dokument som är relevanta för begäran (webbsidor). Det ska sägas att för varje länk visas också dokumentets skapelsedatum, dess volym, graden av relevans för begäran och fragment av text som karakteriserar dokumentets innehåll. Om du klickar på en sådan länk kan du ladda den sida du är intresserad av. När det gäller ett mycket stort antal dokument som du hittar kan du förfina frågan och upprepa sökningen i den, men bara bland de valda sidorna (en sådan sökning kallas annorlunda i olika maskiner, men vanligtvis ϶ᴛᴏ - sök i den hittade) I ett antal sökmaskiner kan du använda en viss metod ändra länken till sidan, vars innehåll bäst passar dina behov, och upprepa sökningen, krävande att söka efter liknande.

Fördelen med automatiserad sökning är i huvudsak att den ger en bild av mycket stora mängder information som för närvarande finns tillgänglig på Internet. Samtidigt leder svårigheten att exakt att beskriva frågan på ett adekvat sätt återspegla dina informationsbehov, liksom den ännu större komplexiteten i uppgiften att automatiskt bestämma graden till vilken din sida visas för din fråga, att antalet sidor som valts "från det första samtalet" traditionellt är mycket litet eller alltför stort . I allmänhet är en sökning med en sökmotor en iterativ (flervägs) process, som ett resultat av vilket förfrågningsformuläret gradvis förfinas.

Metasearch-system

Som nämnts ovan skannar varje sökmotor en specifik uppsättning servrar och väljer dokument i Lettland med dess inneboende kriterier. Som ett resultat ger en sökning med olika system efter samma sökord olika resultat. Detta ledde till idén att skapa de så kallade metasökningssystemen (eller flersökningssystem), som själva inte letar efter något, men vänder sig till flera sökmotorer för hjälp på en gång. Observera att varje metasearch-system har sitt eget frågespråk. Systemet översätter frågan som formulerats på sitt språk till de frågespråk som används av varje sökmotor. Vidare kombineras sökresultaten från alla system och presenteras i önskad form. Naturligtvis tar sökning med metasearch-system längre tid än konventionella sökmotorer.

Översikt över de mest populära sökmotorerna

Det finns ett stort antal sökmotorer på Internet, och varje användare styrs av den som han används till eller som hans kollegor rådde honom. Vi använder en kort beskrivning av de mest populära sökmotorerna, som finns på en av webbplatserna.

1. Google (www.google.com) Den snabbaste och största sökmotorn. Indexerade mer än 1,3 miljarder sidor (varav helt - drygt 700 miljoner, resten är endast känt för adress- och länktexten) Normalt söker man efter ryskspråkiga resurser (naturligtvis utan ordformer) är det möjligt att välja gränssnittsspråk. Du kan inkludera / utesluta resultat från vissa webbplatser och / eller domäner. Till skillnad från de flesta sökmotorer uppskattar Google en resurs popularitet med antalet länkar som leder till den från andra sidor. Det finns en tematisk inriktad sökning - Apple Macintosh, BSD UNIX, Linux, USA: s regering och universitetssökningar - sök i resurserna hos ledande vetenskapliga och utbildningsinstitutioner.

2. Yandex (www.yandex.ru) Det bästa av sökmotorerna för inhemsk produktion. Den indexerar huvudsakligen ryskspråkiga resurser, medan den med avseende på kapacitet inte är underlägsen för utländska system. Sökning kan utföras exakt eller i valfri ordform, med en datumgräns, som anger webbplatsen eller dess underkatalog. Du kan söka baserat på det så kallade citeringsindex, söka efter bilder, skript, applets; ställa in språkets dokument. De nödvändiga länkarna finns traditionellt i de tio bästa resultaten. Den har en "lite" -version (med ett minimum av designelement) på http://www.ya.ru.

3. AltaVista (www.altavista.com) Ger en stor förlängning av sökkriterierna: i Avancerad sökning finns det ett val av tidslängd, till vilket datum resursen skapades eller modifierades, stödjer 25 språk; det finns möjlighet att leverera ett resultat till sajten (϶ᴛᴏ förminskar sökcirkeln utan att offra kvaliteten) Power search har en standarduppsättning funktioner. Fram till nyligen var AV en stor portal, men av ekonomiska (och inte bara) skäl minskade det antalet tjänster avsevärt.

4. Yahoo! (www.yahoo.com) Det är viktigt att notera att en av de första sökmotorerna på Internet. Förutom standarduppsättningen av funktioner låter det dig välja resurser efter datum (4 år, 1, 3, 6 månader, vecka, 1, 3 dagar). Det stöder möjligheten att ange "*" -tecknet istället för en sekvens av tecken i nyckelord. På Yahoo! sammanställt en stor strukturerad katalog med kategorier (kategorier) Först utförs sökningen i dem, sedan i sitt eget arkiv, sedan - med hjälp av Google-systemet. Att söka i kategorier ger bra resultat - det finns få av dem och de är bra.

5. Lycos (www.lycos.com) Nyligen - ett av de mest populära systemen. Med allt detta ger det inga specialfunktioner - "OCH" "ELLER", frasökning, obligatorisk närvaro / frånvaro av ett ord; i avancerade funktioner - sök i namn, URL, värdnamn och / eller domännamn; 25 språk, inklusive ryska, - i ett ord, hela "allmänt accepterade" uppsättningen. Du kan ange typen av resursinnehåll - auto, böcker, ftp, nedladdning, nyheter etc. Det är uppenbart att Lycos popularitet är en konsekvens av omfattningen av dess stora projekt.

6. Rambler (www.rambler.ru) Fram till nyligen den mest kända ryska sökmotorn. En avancerad sökning låter dig inte söka efter fraser, och en regelbunden sökning fram till februari året gav sällan acceptabla resultat. Sedan februari har U-systemet använt en förbättrad sökmotor, designen har ändrats, men kvaliteten på Rambler är fortfarande inte lika med Yandex och Aport (enligt författaren till analysen av sökmotorer) Webbplatsen har en betygskatalog över Rambler Top 100 resurser, en av de erkända källor till statistisk information om Internetprojekt.

7. Aport (www.aport.ru) En annan bra ryska sökserver. Sökningen utförs med text (endast i alla ordformer) och via URL, med logiska operatörer och operatören "..." (men stoppord i en fras ignoreras fortfarande), efter datum och i separata fält (namn, beskrivning, etc. ), metatecken * och! stöds Presentationen av sökresultaten är bäst utformad jämfört med andra ryska sökmotorer. Vissa tvivel orsakas av utformningen av startsidan, som tydligt är överbelastad med information. Det finns en lite mer "lätt" version på http://aport.ru.

Hur man väljer en sökmotor

När du söker på Internet är två komponenter viktiga - fullständighet (ingenting går förlorat) och noggrannhet (inget extra hittas) Vanligtvis ϶ᴛᴏ alla kallar det ett ord - relevans, det vill säga ett annat svar på frågan.

1. Täckning och djup

Med omfattning menar vi volymen för sökmotordatabasen, som mäts med tre indikatorer - den totala mängden indexerad information, antalet unika servrar och antalet unika dokument. Med djup menas huruvida det finns en gräns för antalet sidor eller på katalogens djup på en server.

Hur man kontrollerar: Vissa maskiner skriver robotstatistik på denna webbplats. Men du kan kontrollera det själv - du måste ställa in flera sökfrågor, bestående av ett ord (för att utesluta inverkan av frågespråket, inklusive en annan tolkning av klyftan), och när du tittar på statistiken över resultaten som genererats av maskinen - vanligtvis högst upp i listan anger hur många dokument som hittades. Förutom att orden borde komma från olika områden är det bra att ta ord med olika vikter - sällsynta, "medelstora" och "tunga" (frekvens) och jämföra det som hittats. Tunga ord testar i synnerhet den fullständiga texten (indexering av alla ord i ett dokument) på en sökmotor.

Det är svårare att kontrollera djupet i robotens cirkulation - för det är nödvändigt att ta några webbplatser, till exempel med en grenad arkivstruktur, och kontrollera om dokument är indexerade, som bara kan nås till exempel efter 6 klick på länkarna.

2. Genomsökningshastighet och relevans för länkar

Webbsökningens hastighet visar hur snabbt indexeringen av en ny tillagd resurs sker och hur snabbt informationen i databasen uppdateras. Glöm inte att en viktig indikator på kvaliteten på en sökmotor (dess robot) inte bara kommer att fånga nya territorier, utan också övervaka statusen för de som redan täcks. Servrarna försvinner och vaknar, sidorna på dem uppdateras. Länkarna som sökmotorn ger i listan över hittade bör för det första existera, och för det andra bör deras innehåll vara relevant för begäran.

Hur man kontrollerar: Objektiv information kan erhållas genom att analysera serverloggarna - sökmotorroboten representeras vanligtvis av namnet på sin maskin (eller på liknande sätt), så att du kan se hur ofta det händer på servern, hur många sidor den visar osv. Tyvärr är vanligtvis bara loggen på din webbplats tillgänglig för studier, så den experimentella metoden kvarstår.

För att bestämma genomsökningshastigheten måste du skapa en sida med text någonstans, lägga till den i sökmotorerna och se hur snabbt det börjar bli. Eller ändra en befintlig sida. Det är värt att säga att för att bestämma relevansen för länkar - kontrollera dokumenten åtminstone på den första sidan i listan som finns för flera frågor. Ett meddelande som inte hittas indikerar att dokumentet inte längre finns.

3. Sökkvalitet (subjektiv indikator)

Det är värt att säga att varje sökmotor har sin egen algoritm för sortering av sökresultat. Ju närmare dokumentet du behöver är närmare toppen, desto bättre fungerar relevansen.

Hur man kontrollerar: Endast genom experiment. Det rekommenderas att göra förfrågningar i olika längder för jämförelse. Du kan också använda frågespråket, medan de som är ovilliga att läsa beskrivningen kan använda den utvidgade frågesidan ("avancerad sökning" i Aport och Yandex, "detaljerad sökning" i Rambler - Rysk översättning av "avancerad sökning")

Förutom relevans finns det viktiga användaregenskaper.

4. Sökhastighet

Om sökmotorn svarar långsamt är det ineffektivt att arbeta med den. Det är värt att lägga till att hastigheten som är synlig för användaren inte bara beror på själva sökmotorn utan också på internetkanaler.

Hur man kontrollerar: Genom experiment - du måste söka efter förfrågningar i olika längder, olika<тяжести> ord och vid olika tidpunkter på dagen (serverbelastningen är betydligt ojämn på dagarna, topp - cirka tre till fyra på eftermiddagen)

5. Sökfunktioner (arbeta med dokumentspråk, frågespråk)

En annan jämförelsepunkt är vad exakt och hur sökmotorn bidrar till indexet. Det är värt att säga - en sökmotor i fulltext indexerar alla ord som är synliga för användaren. Närvaron av morfologi gör det möjligt att hitta de önskade orden i alla försämringar eller konjugationer. Förutom HTML finns det taggar på HTML-språket som också kan bearbetas av sökmotorn (rubriker, länkar, bildtexter etc.)

Frågespråket i form av standardlogiska operatörer (OCH, ELLER, INTE) är nästan alla maskiner. Vissa människor kan leta efter fraser eller ord på ett visst avstånd - ϶ᴛᴏ ofta är det viktigt att få ett rimligt resultat. En ytterligare funktion kommer att vara en sökning i dokumentområden - rubriker, länkar, nyckelord (META KEYWORDS, etc.) En ytterligare funktion i frågespråket är en naturlig språkfråga, som inte kräver kunskap om operatörerna.

Hur man kontrollerar: Vanligtvis publiceras denna information på servern för sökmotorn (i Hjälp). Observera att det ändå rekommenderas att kontrollera om det är riktigt, eftersom det ibland är önsketänkandet giltigt.

6. Ytterligare bekvämligheter

Dessa är ytterligare funktioner som sökmotorn förser användare med. Detta inkluderar alla typer av sökalternativ (specialiserade sidor, sökning efter liknande dokument, begränsning av sökområdet), och en lista över hittade servrar och sökning efter datum och servrar, och ett bekvämt sökmotorgränssnitt och möjligheten att anpassa det.

Hur man kontrollerar: Information kan delvis publiceras på servern för sökmotorn, men det är bäst att försöka arbeta med dessa funktioner själv.

Det är uppenbart att denna analys kommer att ta lite tid. Förutom ϶ᴛᴏgo står sökmotorer, som hela Internet, inte stilla. Med tanke på att informationshämtning är en av de viktigaste komponenterna i datatekniken, bör jag uppmärksamma det tillräckligt - åtminstone inte mindre än förmågan att arbeta i ett lokalt nätverk.

En undersökning genomfördes på Yandex.ru: varför Internet behövs och vad som saknas i det (http://www.yandex.ru/polling/9.html) I fallande ordning distribuerades enkätdata enligt följande: Internet används som referens (23, 76%), forskningsverktyg (15, .45%), underhållning (14.15%), och bara på fjärde plats är nyhetskällan (12.32%) Optimistisk att 10% av användarna alltid och 73% ofta lyckas Hitta den information du behöver. Och det finns inte tillräckligt på Internet: information, en god sökning och ordning (inklusive: ordning, struktur, struktur, strukturerad, strukturerad, såväl som system, systematisering, systematisk, systematisk och systematiserad)

SVARFRÅGOR:

Vilka metoder för att organisera en sökning finns på Internet?

Hur söks information i kataloger och databaser?

Hur matas information in i kataloger och databaser?

Vad relaterar internet till sökmotorer?

Hur bildas informationsdatabasen i sökmotorer?

Hur börjar sökningen efter information i sökmotorer?

Vad är en begäran?

Hur söks information i sökmotorer?

Vad menas med relevans för en fråga?

Vad kan göras om ett mycket stort antal dokument finns i en ytterligare sökning?

Vad är metasearch-motorer?

Vad är den grundläggande skillnaden mellan metasökmotorer och konventionella sökmotorer?

Vilket av följande system kommer att vara metasökande:

Vilka är de mest populära inhemska sökmotorerna?

Vilka är de mest populära utländska sökmotorerna?

Vilka två komponenter är viktiga när du söker efter information på Internet?

Vilka egenskaper bestämmer sökmotorernas effektivitet när man söker efter information på Internet?

Användaravtal:
Intellektuella rättigheter till materialet - Informationsdatornätverk - Borisov N.A., Lukin A.A. tillhör dess författare. Den här handboken / boken publiceras enbart för utbildningsändamål utan deltagande i kommersiell cirkulation. All information (inklusive "Ämne 3. Söka efter information på Internet") samlas in från öppna källor eller läggs till av användare utan kostnad.
För att utnyttja den publicerade informationen fullt ut rekommenderar webbplatsen för projektadministration starkt att köpa en bok / manuell information datanätverk - Borisov N.A., Lukin A.A. i någon webbutik.

Tagblock: Informationsdatornätverk - Borisov N.A., Lukin A.A., 2015. Ämne 3. Informationssökning på INTERNET-nätverket.