Организация на търсенето на образователна информация в Интернет. Принципите на организиране и търсене на информация в Интернет

Намиране на информация в глобалния Интернет: обща информация

Според принципа на организация и използване на инструменти за търсене могат да бъдат разделени на:

Каталози , Указателите са директории, съдържащи списъци с интернет адреси, групирани по определени критерии. По правило те са групирани по теми (наука, изкуство, новини и др.), Където всяка тема се разклонява на няколко равнища. Някои директории за търсене:

Заглавие

Ужас!

www.au.ru

Atrus (задължителна регистрация)

www.atrus.ru

List.ru

www.list.ru

съзвездие

www.stars.ru

охлюв

www.ulitka.ru

Иван Сусанин

www.susanin.ru

Търсене автомобили , За подробно търсене на документи се използват специализирани търсачки - търсачки. След получаване на заявка от потребителя, търсачката издава списък с документи, съответстващи на задачата за търсене. Намерените документи се класират в зависимост от местоположението на ключовите думи (в заглавието, в началото на текста, в първите параграфи) и честотата на тяхното появяване в текста. Използването на различни търсачки дава различни резултати. Най-често срещаните търсачки:

Заглавие

АЗ СЪМ ndex

wWW. yandex. rU

И порт

www.aport.ru

R рахванлия кон

www.rambler.ru

G ъглов

www.google.ru

М Ayl

wWW. поща.ru

АЗ СЪМ хо

www.yahoo.com

И ltavista

www.altavista.com

Заявката за търсене може да се състои от една или няколко думи, може да съдържа различни препинателни знаци. Що се отнася до регистъра, в общия случай регистърът на правописа на думи за търсене и операториняма значение , тоест думите "абстракт", "Абстракт", абстракт, "Абстракт" и "Абстракт" ще се възприемат едно и също. Това важи и за латинската азбука. И така, „Yдs "и" YES "и дори" yeS "," yes "и" YES "са еднакви за търсенето.

Практическа работа "Търсене на информация в глобалния интернет"

Аромат в укриване на пъпки

Люляк цъфти.

Може да цъфти, което означава

Днес е празник - майски ден!

Запази стихотворение:

Търсене ваканционни снимки:
Преглед на резултатите от търсенето разположени на 1 страница. Отидете на страница 2: превъртете колелото на мишката, за да се появи в долната част на прозореца на браузъра, и щракнете върхуL KM по страница връзка2 .
Изберете снимката, която харесвате и кликнете върху неяL КМ.

В нов прозорец ще видите същата картина, само уголемена. Вдясно от него ще бъде разположена информация за размера на изображението и сайтовете, на които се намира.

Копиране на снимка :

кликванеP KM на снимката;
изберете екипКопиране на снимка ;
затворете прозореца на браузъра, като кликнете върху бутонаБлизо .

Поставете картина на документ:

отидете на прозореца на текстовия редактор (трябва да има поздравително стихотворение);
поправете курсора, като щракнетеL KM след последния герой на стихотворението (това! ) и натиснете клавишаВъведете за да преместите курсора на нов ред;
кликванеP KM;
в локалното меню изберете командатазакрепвам .

Запазване на документ в личната ви папка под иметоПоздравления за *** от *** , Вместо първия *** напишете името на лицето, на което ще бъде изпратено поздравлението; вместо втория *** напишете името си. Например,Поздравления за Анастасия от Олга , Затворете програмата за редактиране на текст.

Стартирайте браузъра Google Chrome
.

Влезте във входящата си поща на порталапоща . rU

В главното меню на пощата (в горната част на прозореца) изберете командатаДа пишеш .

Попълнете задължителните полета :

Изберете бутонИзпращане (тя се намира в горната и долната част на прозореца на браузъра).
Затворете прозореца на браузъра.
Изключете компютъра.

Упражнение 1

Задачата : Намерете името на най-голямото сладководно езеро в света.

За оптимална и бърза работа с търсачките има определени правила за писане на заявки. Подробен списък за конкретен сървър за търсене обикновено може да бъде намерен на самия сървър с помощта на връзките Помощ, Подказка, Правила за заявки и др.

Организирайте търсенето и попълнете таблицата с резултатите от търсенето:

въпрос

Резултати от търсенето (брой страници)

yandex . rU

пълзящо растение . rU

google.ru

поща .ru

апортна . rU

Как да намерите човек в интернет от фотографията?

Как да се регистрирам на сайта в контакт?

Как да премахнете зачервените очи?

Затворете браузъра (излезте от програмата).

Упражнение 2

Задачата : да намерябиография на министъра на образованието на Руската федерация А. Фурсенко с помощта на търсачкаг oogle. r ф

Упражнение 3

Търсете литературни произведения в Интернет

Внимание! За да видите книги във форматпълен пансион2 се нуждаят от специална програма ("четец"). Например,Alreader .

Търсене на информация в Интернет

Търсене на информация в Интернет

За търсене на информация в често използвани три начина (Виж фиг. 1). Първият от тях - търсене по адрес. Използва се, когато потребителят знае адреса на информационен ресурс, съдържащ информацията, от която се нуждае. Когато организира търсенето на информация по адрес (адресната форма - IP, домейн или URL адрес - в този случай няма значение), потребителят просто трябва да въведе адреса на ресурса в съответното поле на браузъра - програма, предназначена да осигури достъп до мрежови ресурси.

Фиг. 1. Методи за извличане на информация в база данни с хипертекст

втори - Търсене чрез навигация чрез хипервръзки. Когато използва този тип случаи за търсене, потребителят трябва първо да получи достъп до сървъра, свързан със съответната база данни. След това можете да намерите документа с помощта на хипервръзки. Очевидно този метод е удобен, когато адресът на ресурса е непознат за потребителя. Уеб порталите са предназначени да се използват като отправна точка за търсене при прилагане на този метод - сървъри, които осигуряват директен достъп до редица сървъри, включително инсталирани на тях информационни ресурси, както и уеб приложения, които прилагат уеб услуги, които съответстват на целта на портала. Сървърите, достъпни чрез портала, могат да се отнасят към конкретна система (например корпоративна) или различни системи и могат да бъдат специално избрани според вида, предмета или други характеристики на документите и данните, съдържащи се в техните сайтове. Обикновено порталите комбинират различни функции, за да поддържат клиента възможно най-дълго. Доминиращата портална услуга е обслужващата служба: търсене, категории, финансови индекси, информация за времето и т.н. Докато уебсайтовете в повечето случаи са колекции от статични уеб страници, порталите са набор от софтуер и предварително структурирана информация, която тези инструменти превръщат в структурирани данни по искане на конкретни потребители.

трета Методът за търсене включва използването на интернет търсачки. Търсещите сървъри се наричат \u200b\u200bспециализирани хост компютри, които съдържат бази данни от Интернет ресурси. Потребителският интерфейс на такъв сървър има поле за въвеждане на ключови думи, описващи темата, интересуваща потребителя (виж фиг. 2).

Фиг. 2. Преглед на прозореца на търсачката на Yandex

Сървърът възприема тези думи като искане за информация, в съответствие с което търси ресурси и представя списък на документите, намерени на потребителя. Очевидно е, че при реализирането на този метод са възможни грешки както на първия (пропусната цел), така и на втория вид (информационен шум). Трябва да се отбележи, че се разграничават две групи търсачки: търсачки и тематични директории. Тяхната разлика се дължи на метода за създаване и последващо попълване на базата данни с интернет ресурси, която този сървър извършва търсене на информация. Така че, търсачките включват специална програма - робот за търсене. Той постоянно следи мрежата, събира информация от уеб страници, индексира ги и улавя изображението им за търсене в своята база данни. В тематичните каталози базата данни с интернет документи се създава „ръчно“ от специализирани редактори. Тъй като няма унифицирана администрация в Интернет, информационните й ресурси непрекъснато се променят. В него могат да се появят нови документи, а съществуващите документи могат да изчезнат. Честотата на актуализиране на информация в документи за различни сайтове е различна: за някои това е няколко пъти на час, за някои веднъж на ден, ден, месец и т.н. Затова е много важно да се разбере, че когато се използват информационни системи за търсене за намиране на информация в Интернет, търсенето се извършва не в реалното пространство на документите на Мрежата, а в някакъв модел, чието съдържание може значително да се различава от действителното съдържание на Интернет към момента на търсенето. Според степента на покритие на индексираните ресурси търсачките могат да бъдат разделени на две групи: международни и рускоезични. Бившият индексира всички документи, публикувани в Интернет подред. Вторият индексира ресурсите, разположени в доменни зони с преобладаване на руския език. Списък на най-популярните системи е даден в табл. 1.

Раздел. 1. Най-популярните търсачки

международен	Руски говорители
Google	Yandex (44,4% от Runet)
Yahoo!	Rambler (10.6% от Runet)
Bing	Mail.ru (7.3% от Runet)
Msn	Нигма (0,5% рунет)
Altavista	Gogo.ru (0,3% от Runet)
питам	Апорт (0,2% рунет)

Забележка: Рунет е рускоезичната част на Интернет, която съставя домейни с имена ru и rf.

Необходимо е да се спомене, че има специална категория търсачки - метатърговски машини. Основната им разлика от търсачките и тематичните директории е, че те нямат собствена база данни с индекси и следователно, като получат заявка на потребителя, те я пренасочват към няколко търсачки наведнъж (вж. Фиг. 3).

Фиг. 3. Схемата на метаизследващата система

Възможността за едновременно използване на няколко търсачки за една заявка е очевидно предимство на двигателите на метатърси. В момента системата Metabot.ru намери широко приложение, интерфейсът на който е показан на фиг. 4. Тази система ви позволява да използвате както международни, така и руско-езикови сървъри за търсене за търсене на ресурси.

Проблемът с търсенето в световната мрежа не е, че има малко информация, а в това, че има много. Намирането на информация в Интернет е крайъгълният камък на ефективното сърфиране в интернет. Притежаването на умения за търсене прави интернет полезен за потребителя както по време на работа, така и през свободното време.
Има специализирани услуги, наречени търсачки за организиране на търсения в Интернет.

Търсачки.

Системи за търсене - хардуерно-софтуерен комплекс с уеб-интерфейс, който предоставя възможност за търсене на информация в Интернет.
Повечето търсачки търсят информация на уебсайтовете на World Wide Web, но има и системи, които могат да търсят файлове на FTP сървъри, продукти в онлайн магазини и информация в групи за новини Usenet. За търсене на информация с помощта на търсачка, потребителят формулира заявка за търсене. По желание на потребителя търсачката генерира страница с резултати от търсенето. Такива резултати от търсенето могат да комбинират различни видове файлове, например: уеб страници, изображения, аудио файлове. Някои търсачки също извличат данни от онлайн бази данни и директории с ресурси.
Целта на търсачката е да намери документи, които съдържат или ключови думи, или думи, които по някакъв начин са свързани с ключови думи. Търсачката е по-добра, колкото повече документи, свързани с заявката на потребителя, тя ще се върне. Резултатите от търсенето могат да се влошат поради естеството на алгоритмите. Например, при търсене на домашни любимци, сървърът за търсене на Yandex (вижте по-долу за повече информация) предоставя повече от 14 000 000 връзки към страници, които съдържат, според него, информация. Не всичко обаче е толкова гладко: когато посетите някои от намерените страници, се оказва, че необходимата информация не е достатъчна или дори изобщо не е необходима.
За да търсите с максимална ефективност, трябва да знаете как работят търсачките и правилно да съставите заявка за търсене на информация.

Принципите на търсачките

Търсачките работят, като съхраняват информация за много уеб страници, които получават от HTML страници. Основните компоненти на търсачката: робот за търсене, индексатор, търсачка. Обикновено системите работят на етапи. Първо, роботът за търсене получава съдържанието, след това разглежда съдържанието на уебсайтовете. Едва след това индексаторът генерира индекс за търсене. Индексът е модул, който анализира дадена страница, след като я раздели на части, използвайки свои лексикални и морфологични алгоритми.
Основата на работата на повечето съвременни търсачки е индексът на цитиране, който се изчислява от индексатора в резултат на анализ на връзки към текущата страница от други интернет страници. Колкото повече от тях, толкова по-висок е индексът на цитиране на анализираната страница, толкова по-висока тази страница ще бъде показана в резултатите от търсенето и толкова по-високо страницата ще бъде представена в списъка с намерени ресурси.

Правила за изграждане на заявки за търсене

Както вече беше отбелязано, в Интернет има много търсачки, вътрешни и чуждестранни.
Руски сървъри за търсене: Yandex (www.yandex.ru); Rambler (www.rambler.ru); Aport (www.aport.ru) и Gogo (www .gogo .ru).

Чуждестранни търсачки: Google ( www .google .com); Altavista (www .altavista .com) и Yahoo! (www .yahoo .com).
За търсене на руски език, руските сървъри са по-подходящи, в чужди - чужди, въпреки че Google върши добра работа в търсене на много езици. Въпреки твърденията на много собственици на търсачки, че заявките могат да бъдат написани почти на езика, който хората използват за комуникация помежду си, това далеч не е така. Благодарение на въвеждането на нови езикови технологии, търсачките станаха много по-добре разбрани от потребителя. Търсачките сега търсят не само исканата дума, но и нейните словоформи, което ви позволява да направите резултатите от търсенето по-точни. Например, ако думата smart присъства в заявката за търсене, то нейните резултати ще съдържат не само тази дума, но и нейните производни: умен, умен, както и ум и дори разум. Естествено страниците с словоформи няма да са сред първите резултати от търсенето, но елементи на изкуствен интелект са очевидни. Този факт е полезен за разглеждане при изграждането на заявки за търсене.
Трябва да се помни, че търсачките не чувствително към регистъра при обработка на заявка, а пунктуацията не е необходима в заявките за търсене, тъй като те също се игнорират от търсачките. Въпреки това, когато конструирате сложни разширени заявки, резултатите от търсенето на които обикновено са много по-близки до очакваните, използват традиционните препинателни знаци. Повечето търсачки могат да се справят с печатни грешки. Ако търсачката изглежда е направила грешка или печатна грешка в думата, тя ще предупреди за това със същата фраза: Може би сте търсили ....

Думи за търсене на сървъра за търсене

Има израз „Машината трябва да работи, човек трябва да мисли“ и се казва точно за такава ситуация. Задачата на потребителя при подготовката на заявката за търсене е да подчертае ключовите думи, задачата на сървъра за търсене е най-добре да обработи въведеното запитване. Помислете за пример, който илюстрира типичните грешки на начинаещите потребители при търсене в Интернет. На заявката „Загадки за музикални инструменти“ търсачката не даде полезни резултати. Тогава потребителят решава да коригира заявката, като я добави и напише: "Пъзели за деца относно музикални инструменти" - резултатите от търсенето бяха дори по-лоши от предишната. За този пример, добро решение беше да се търси ключовата дума „гатанки“. В интернет има много такива сайтове и като отидете на самия сайт и разгледате малко неговите секции, е напълно възможно да намерите информация, която представлява интерес. Формулираме няколко правила за извършване на заявки:

изберете само най-важните ключови думи, свързани с въпросната тема;
думите не трябва да са твърде много, но не и твърде малко;
ако резултатите от търсенето са незадоволителни, използвайте по-меки условия за заявката или опитайте да търсите в друга търсачка, като търсачките не работят по същия начин, следователно резултатите могат също да варират.

подробно търсене

За да осигурят по-ефективно търсене в Интернет, търсачките предоставят разширено търсене, както и търсене, използвайки езика на заявките. Разширено търсене - възможност за търсене с много различни параметри. За целта търсачките имат отделни страници, на които можете да зададете такива параметри. Принципите на разширеното търсене са подобни за повечето търсачки.
Нека разгледаме допълнителни опции за търсене, като използваме примерите на търсачките на Yandex и Google, защото Yandex е най-популярният сървър за търсене в рускоезичния интернет, а Google е най-популярната търсачка в света. При търсене в Интернет, Yandex беше един от първите, които взеха предвид морфологията на руския език, тоест използва различни форми на думата, както беше споменато по-горе. След като посети www.yandex.ru, потребителят може да въведе заявка и да получи резултатите от търсенето веднага, или можете да използвате връзката Разширено търсене с помощта на иконата и да отидете на съответната страница (вижте фигурата по-долу), където можете да настроите фино настройките за търсене.

Страница за разширено търсене на Yandex

Помислете за допълнителните функции, които можете да използвате на страницата за разширено търсене: посочете собственото си местоположение (Москва), посочете под каква форма трябва да бъде представена информацията (тип на файла), периодът, през който търсим информация (на ден, 2 седмици, на месец, от ..До), на какъв език трябва да бъде представена информацията (руски, английски Още), а също така можете да посочите URL адреса на сайта и т.н.
Изборът (Точно както в заявката) е посочен на търсачката, така че морфологията на думите на заявката да не се променя, а се търси само формата на думата, която е посочена.

Език на заявката

Език на заявката - командна система, която ви позволява да променяте параметрите на заявката от основния низ за търсене с помощта на специални команди. Фокусиран върху опитни потребители.
Тъй като езикът на заявките е доста сложен и обемен, ние даваме само неговите основни конструкции, които могат да бъдат най-търсени от потребителите. Някои команди на езика за заявки на Yandex са представени в таблицата.

Оператор		описание	Синтаксис	Заявка за пример
		Потърсете документи, в които задължително присъства маркираната дума. Допустимо е да се използват няколко оператора + в една и съща заявка.	"дума 1 + дума 2"	Ще се намерят документи, които задължително съдържат думите „булевард“ и „Москва“, а думата „шолохов“ може да присъства.
		Търсене по оферта. Търсете документи, съдържащи заявни думи в дадена последователност и форма.	"дума 1 дума 2 ... дума N"	Ще бъдат намерени документи, съдържащи този цитат.
	Потърсете оферта с липсващи думи или думи. Един * оператор съвпада с една липсваща дума. Внимание! Използва се само като част от оператора.		"дума 1 * дума 2 ... дума N" Операторът е разделен на интервали.	Ще бъдат намерени документи, съдържащи този цитат, включително липсващата дума. Ще бъдат намерени документи, съдържащи този цитат, включително липсващи думи.

Пълната структура на езика на заявките на Yandex може да бъде намерена на страницата Помощ (http://help.yandex.ru/search/?id\u003d481939). Езикът на заявките за търсене в Google се различава от Yandex, въпреки че има някои общи точки. Обмислете някои основни команди на този език, като погледнете таблицата (вижте по-долу)

Пълната структура на езика на заявките на Google може да бъде намерена на страницата Помощ:

4.5.1. Традиционни интернет търсачки

За търсене на информация се използват специални външни услуги - търсачки: търсачки и директории.

Търсачките са тези сървъри, които акумулират информация за съдържанието на сайтовете автоматично, използвайки специални роботизирани програми.

Информацията за сървърите на директории се избира от хората. За разлика от търсачките, информацията в директории е по-точно структурирана и във вертикална йерархична форма.

И двете търсачки и директории са външни услуги или, както ги наричат \u200b\u200bоще, автономни системи. Характеристика на автономните системи е, че цикълът на работа с информация се осъществява директно в тази система, като се започне от получаване на информация от източника и завършва с предоставянето на услуга за търсене на крайния потребител.

Автоматичните търсачки обхващат повече информация; тяхната информация се актуализира по-често и следователно е по-подходяща. Информацията на такива сървъри обаче е слабо структурирана, тъй като оценяването на съдържанието на даден сайт е трудна формализирана задача. Най-често роботната програма избира документи само чрез присъствието на търсените думи в текста на документа. Пример за търсачка е AltaVista (http://www.altavista.com).

В каталозите цялата информация има ясна вертикална йерархична структура. Освен това тази структура е изградена на базата на семантично съдържание. Това е основната стойност на директории, обработвани от хората: можете да намерите не много сайтове, съдържащи тези ключови думи, но много сайтове, посветени на тази тема. Пример за директория е Yahoo сървърът (http://www.yahoo.com).

WWW директории, съдържащи голям брой записи, често поставят локални търсачки на своите страници. Реализирани под формата на традиционни шаблони, които не се различават много от шаблоните на автоматичните индекси.

Както за търсачките, така и за директории е установен определен принцип на подбор на информация. Този принцип е заложен или в алгоритмите на търсачките, или в правилата за работа на хората (за директории). В зависимост от това къде и какъв тип информация се натрупва, се оценяват две характеристики на автономните системи - пространствен мащаб и специализация.

Пространствената скала е предназначена да ограничи броя на първичните източници на информация до определена крайна граница. Например, търсачка може да бъде изградена само в един сайт. Търсенето може да бъде ограничено до един географски домейн (например ru). Такива системи се наричат \u200b\u200bрегионални.

Има много търсачки, които нямат тези ограничения. Те се наричат \u200b\u200bглобални системи за извличане на информация.

Характеристиките на регионалния подход могат да присъстват в глобалните системи. Така системата Lycos (http://www.lycos.com) сортира резултатите от търсенето в зависимост от това от кой регион е дошла заявката.

Най-популярните търсачки са толкова заредени, че има нужда от създаване на „огледала“ (огледала). Огледалата трябва да съдържат точно копие на основната търсачка и да гарантират бързо обслужване на заявки, идващи от конкретен географски район.

Когато осъществявате достъп до определена търсачка, трябва да вземете предвид какви услуги предоставя. Например, във вътрешната търсачка Yandex (http://www.yandex.ru) е въведено търсене не само за страници, но и за сървъри. Същността на този метод е, че ключовите думи не се търсят на всички страници, а само в техните заглавия (това, което е затворено в HTML между таговете „заглавие“). В чуждестранния AltaVista е създадена отделна услуга Real Names, която съдържа списък на всички регистрирани страници на компании и организации.

Следващата важна услуга е специализацията в търсенето. В момента Интернет е хранилище от различни видове информация. Следователно търсенето на информация също може да бъде формализирано. Можете да търсите изключително графични изображения, можете да търсите мултимедийни записи в MP3 формат и т.н. В много търсачки можете да укажете типа информация, която търсите. в допълнение, има сървъри, които са специализирани в намирането на информация от строго определен тип. FTPS Search (http://ftpsearch.lycos.com) е специализиран изключително за търсене на файлове. Той индексира всички видове ftp-сървъри за файлове, намиращи се там. Търсенето се извършва директно от името на желания файл. По подобен начин MP3Search (http://mp3.box.sk) е специализиран в търсенето изключително на MP3 файлове.

Друг важен момент е кой език за заявки използва тази или онази система. Колкото по-сложен е този език, толкова по-фино настроено става възможно търсенето. Понастоящем няма нито един унифициран език за заявки за търсачките. Разработването на такъв език би позволило интегрирането на различни услуги за търсене в една единствена суперсистема за търсене. През февруари 1999 г. стартира проектът за стандарти за търсачки (SESP), в който участват 15-те най-големи интернет търсачки. Задачата на проекта е да стандартизира работата на услугите за търсене (материали за него можете да намерите на http://www.searchenginewatch.com).

4.5.2. Метаизследващи системи

Друга обещаваща област на развитие на услугите за търсене в мрежата е използването на метаизследващи системи. В основата на двигателите на метаизследвания е интерфейсът между потребителя и много търсачки. Метасистемата не е предназначена за индексиране и натрупване на информация. целта му е чисто търсене и обработка на резултатите от търсенето.

Метасистемата позволява, в съответствие с желанията на потребителя, да ограничи търсенето ви до определени търсачки, да провери наличието на ресурси, посочени от резултатите от търсенето, да прецизира търсенето в резултатите от търсенето и т.н. Metasearch двигателите често са наричани клиенти на търсачките.

Пример за метаизследваща система е вътрешното развитие на DISCO Seeker на DISCO (http://www.disco.ru).

Основната характеристика на мета-изследователските системи от ново поколение е интегрирането на търсачки от различни специализации. В рамките на едно приложение можете да търсите информация от различни видове. При обработка на заявка за търсене е позволено да се свържете с повече от 100 търсачки (включително специализирани). Резултатите от търсенето се обработват допълнително: връзките, дублиращи вече намерени, са изключени от системата; Получените адреси се проверяват за наличност. Възможно е да конфигурирате работата със сървърите за търсене (можете да изберете сървърите, с които ще работи системата, да посочите максималния брой връзки, получени от всеки сървър и т.н.).

В случай на използване на метаизследователски системи обаче не може да се направи без познаване на традиционните търсачки - те служат като основа за всяко търсене.

Проблем с търсенето и средства за неговата организация

Гигантски и непрекъснато увеличаващи се обеми информация, достъпна в Интернет, включително оперативна, прави проблема с намирането на необходимата информация много уместен и сложен. Скоростта на търсене на необходимата информация определя до голяма степен професионализма на интернет потребителя. Заслужава да се каже, че за автоматизиране на задачата са разработени различни, както външни, така и вътрешни системи за търсене, които са уеб страници със специално предназначение. В същото време, въпреки наличието на множество инструменти за автоматизация на търсенето, тази задача остава доста отнемаща време, което изисква от потребителя да има определен опит, интуиция и познания за терминологията, използвана в неговата предметна област.

Според оценки, публикувани в списанието Nature на 8 юли 1999 г., броят на публично индексираните уеб страници е 800 милиона. Година по-късно авторът на проучването (Стив Лорънс от изследователския институт на NEC) смята, че техният брой е почти удвоен до 1,5 млрд. Дори най-добрите търсачки индексират не повече от една страница от шест. Струва си да се каже, че за да извлечете полезна информация от Интернет, трябва да знаете къде и как да търсите.

Инструментът за търсене, наличен в Internet Explorer, опростява достъпа до инструменти за търсене, премахвайки необходимостта да се знаят адресите на търсачките. В този случай е по-добре директно да се свържете с търсачките, зареждайки страницата.

По метода на организиране на търсенето и по предоставените функции всички инструменти за търсене могат условно да бъдат разделени на следните групи:

каталози и специализирани бази данни;

търсачки;

метаизследващи системи.

Директории и бази данни

Каталозите на WWW са подобни на систематичните библиотечни каталози. Търсене на директории се състои в последователно преминаване през йерархичен списък от връзки, наречени рубрики или категории. Първата страница на каталога съдържа връзки към основни теми, например култура и изкуство; Медицина и здраве; Общество и политика; Бизнес и икономика; Забавление и пр. Щракването върху връзка (категория) отваря страница, съдържаща връзки, описващи подробно избраната тема (заглавие). Преминавайки надолу през подробните категории, можете да намерите страница с необходимата информация. На всяка страница, която се отваря при движение по каталога по един или друг начин, е посочена последователността на гледаните вложени заглавия, например Business World: Finance: Analytics и др.

Всички каталози се създават и поддържат ръчно от специалисти, подобно на това как библиографите съставят и поддържат библиотечни каталози. Подходящо е да се отбележи, че описанието на документа се извършва или от съставителите на каталога, или от автора. Благодарение на мен съдържанието на страниците, включени в каталога, обхваща най-адекватно категорията, към която са присвоени. Но, като се вземе предвид скоростта на попълване и промяна на информацията в Интернет, „ръчният“ метод на каталогизиране не позволява еднакво да отразява реалното състояние на интернет ресурсите по тази тема.

Търсачки

(търсачки, търсачки, роботи за търсене)

Съществуват десетки големи и хиляди малки и специализирани уеб сайтове, предназначени за търсене в Интернет. Инструментите за търсене на i-та група ще позволят на потребителя да формулира изисквания към информацията, от която се нуждае според определени правила (използвайки езика на заявката, за да създаде заявка) След това търсачката автоматично сканира документи на контролирани от нея сайтове (индексирани) и избира тези, които са, според »Сървърът за търсене, те отговарят на формулираните от потребителя изисквания (отнасящи се до заявката) Търговските възли могат да използват свои собствени интернет индекси, непрекъснато актуализирани от специални програми, наречени паяци. връзки и т.н., и информира информация за собственика си за всички страници за последващо индексиране.

В резултат на търсенето се създават една или няколко страници, съдържащи връзки към документи, отнасящи се до заявката (уеб страници) Трябва да се каже, че за всяка връзка обикновено се посочва датата на създаване на документа, неговият обем, степен на отношение към заявката и текстови фрагменти, характеризиращи съдържанието на документа. Кликването върху такава връзка ви позволява да заредите страницата, която ви интересува. В случай на много голям брой намерени документи можете да прецизирате заявката и да повторите търсенето в нея, но само сред избраните страници (такова търсене се нарича различно в различните машини, но обикновено ϶ᴛᴏ - търсене в намереното) В редица машини за търсене можете да използвате определен метод променете връзката към страницата, чието съдържание най-добре отговаря на вашите нужди, и повторете търсенето, изисквайки търсене на подобни.

Предимството на автоматизираното търсене по същество е, че осигурява преглед на много големи количества информация, налична в момента в Интернет. В същото време трудността с точното описание на заявката, отразяваща адекватно информационните ви нужди, както и още по-голямата сложност на задачата за автоматично определяне на степента, до която страницата ви се гледа за вашето запитване, води до факта, че броят на страниците, избрани „от първото обаждане“, традиционно е много малък или прекалено голям , По принцип търсенето с помощта на търсачка е итеративен (многопосочен) процес, в резултат на който формулярът за заявка постепенно се усъвършенства.

Метаизследващи системи

Както бе отбелязано по-горе, всяка търсачка сканира определен набор от сървъри и избира документи в Латвия с присъщите й критерии. В резултат на това търсене от различни системи за едни и същи ключови думи дава различни резултати. Това доведе до идеята за създаване на така наречените системи за мета-търсене (или много търсене), които сами по себе си не търсят нищо, а се обръщат към няколко търсачки наведнъж за помощ. Обърнете внимание, че всяка от системите за метаискане има свой език за заявки. Системата превежда заявката, формулирана на нейния език, в езиците на заявките, използвани от всяка търсачка. Освен това резултатите от търсенето по всички системи се комбинират и се представят в необходимия вид. Естествено, търсенето чрез метаизследователски системи отнема повече време от конвенционалните търсачки.

Преглед на най-популярните търсачки

В Интернет има голям брой търсачки и всеки потребител се ръководи от тази, на която се използва или която са го посъветвали колегите му. Използваме кратко описание на най-популярните търсачки, което се предоставя на един от сайтовете.

1. Google (www.google.com) Най-бързата и най-голямата търсачка. Индексирани повече от 1,3 милиарда страници (от които напълно - малко над 700 милиона, останалото е известно само за адреса и текста на връзката) Обикновено се търсят ресурси на руски език (разбира се, без словоформи), е възможно да се избере езикът на интерфейса. Можете да включите / изключите резултати от определени сайтове и / или домейни. За разлика от повечето търсачки, Google оценява популярността на даден ресурс по броя на връзките, водещи към него от други страници. Има тематично ориентирано търсене - Apple Macintosh, BSD UNIX, Linux, търсенето на правителството на САЩ и университета - търсене в ресурсите на водещи научни и образователни институции.

2. Yandex (www.yandex.ru) Най-доброто от търсачките на местното производство. Той индексира основно рускоезичните ресурси, докато по отношение на възможностите не е по-нисък от чуждите системи. Търсене може да се извърши точно или във всякаква форма на думи, с ограничение за дата, указващо сайта или неговия поддиректория. Можете да търсите въз основа на така наречения индекс на цитиране, да търсите изображения, скриптове, аплети; задайте езика на документа. Необходимите връзки традиционно се намират в първите десет резултати. Той има версия „Lite“ (с минимум дизайнерски елементи) на http://www.ya.ru.

3. AltaVista (www.altavista.com) Осигурява голямо разширение на критериите за търсене: при разширено търсене има избор на продължителност на времето, към която датата е създаден или променен ресурсът, поддържа 25 езика; има възможност за предоставяне на един резултат до сайта (϶ᴛᴏ стеснява кръга за търсене, без да се жертва качеството) Търсене на мощност има стандартен набор от функции. Доскоро AV беше голям портал, но по финансови (и не само) причини значително намали броя на услугите.

4. Yahoo! (www.yahoo.com) Важно е да се отбележи, че една от първите търсачки в Интернет. В допълнение към стандартния набор от функции, той ви позволява да избирате ресурси по дата (4 години, 1, 3, 6 месеца, седмица, 1, 3 дни). Поддържа възможността да посочвате знака "*" вместо всяка последователност от знаци в ключови думи. В Yahoo! състави голям структуриран каталог от категории (категории) Първо търсенето се извършва в тях, след това в собствен архив, след това - с помощта на системата Google. Търсене в категории дава добри резултати - има малко от тях и те са добри.

5. Lycos (www.lycos.com) Напоследък - една от най-популярните системи. С всичко това тя не предоставя никакви специални характеристики - „И“ „ИЛИ“, търсене на фраза, задължително присъствие / липса на дума; в разширени функции - търсене в името, URL адреса, името на хоста и / или името на домейна; 25 езика, включително руски, - с една дума, целия „общоприет“ набор. Можете да определите вида на съдържанието на ресурсите - автоматично, книги, ftp, изтегляне, новини и т.н. Очевидно популярността на Lycos е следствие от мащаба на големия му проект.

6. Rambler (www.rambler.ru) Доскоро най-известната руска търсачка. Разширеното търсене не ви позволява да търсите фрази, а редовното търсене до февруари на годината рядко дава приемливи резултати. От февруари системата на U използва подобрена търсачка, дизайнът се промени, но качеството на Rambler все още не е равно на Yandex и Aport (според автора на анализа на търсачките) Сайтът разполага с рейтингов каталог на ресурсите на Rambler Top 100, един от признатите източници на статистическа информация за интернет проекти.

7. Aport (www.aport.ru) Друг добър руски сървър за търсене. Търсенето се извършва по текст (само във всички словоформи) и по URL, като се използват логически оператори и операторът "..." (обаче, стоп думите във фраза все още се игнорират), по дата и в отделни полета (име, описание и т.н. ), мета-символите * и! се поддържат Представянето на резултатите от търсенето е най-добре проектирано в сравнение с други руски търсачки. Известни съмнения са породени от дизайна на основната страница, която очевидно е претоварена с информация. Има малко по-„лек“ вариант на http://aport.ru.

Как да изберем търсачка

При търсене в интернет са важни два компонента - пълнота (нищо не се губи) и точност (не се открива нищо допълнително) Обикновено ϶ᴛᴏ всеки го нарича една дума - уместност, тоест друг отговор на въпроса.

1. Покритие и дълбочина

Под обхват имаме предвид обема на базата данни на търсачките, който се измерва с три показателя - общото количество индексирана информация, броя уникални сървъри и броя уникални документи. Под дълбочина се разбира дали има ограничение за броя на страниците или за дълбочината на директории на един сървър.

Как да проверя: Някои машини пишат статистика на робота на този сайт. Но можете да го проверите сами - трябва да зададете няколко заявки за търсене, състоящи се от една дума (за да изключите влиянието на езика на заявката, включително различна интерпретация на празнината), и когато разглеждате статистиката на резултатите, генерирани от машината - обикновено в горната част на списъка посочва колко документи са намерени. В допълнение към факта, че думите трябва да са от различни области, добре е да вземете думи с различно тегло - редки, „средни“ и „тежки“ (честота) и да сравните намереното количество. По-специално тежки думи тестват пълния текст (индексиране на всички думи в документ) на търсачката.

По-трудно е да се провери дълбочината на циркулацията на робота - защото е необходимо да се вземат някои сайтове, например, с разклонена архивна структура и да се провери дали документите са индексирани, които могат да бъдат достъпни, например, след 6 щраквания върху връзките.

2. Скорост на обхождане и уместност на връзките

Скоростта на обхождането в мрежата показва колко бързо става индексирането на прясно добавен ресурс и колко бързо се актуализира информацията в базата данни. Не забравяйте, че важен показател за качеството на една търсачка (нейния робот) ще бъде не само превземането на нови територии: но и наблюдението на състоянието на вече обхванатите. Сървърите изчезват и се събуждат, страниците в тях се актуализират. Връзките, които търсачката дава в списъка с намерени, трябва, първо, да съществуват, и второ, тяхното съдържание трябва да има отношение към заявката.

Как да проверите: обективната информация може да бъде получена чрез анализ на регистрационните файлове на сървъра - роботът на търсачката обикновено е представен от името на неговата машина (или по подобен начин), така че можете да видите колко често се случва на сървъра, колко страници гледа и т.н. За съжаление обикновено за изследване е достъпен само дневника на вашия сайт, така че експерименталният метод остава.

За да определите скоростта на обхождане, трябва някъде да създадете страница с текст, да я добавите към търсачките и да видите колко бързо започва. Или променете съществуваща страница. Заслужава да се каже, че за да определите релевантността на връзките - проверете документите поне на първата страница от списъка, намерени за няколко заявки. Съобщение Not Found показва, че документът вече не съществува.

3. Качество на търсене (субективен индикатор)

Струва си да се каже, че всяка търсачка има свой алгоритъм за сортиране на резултатите от търсенето. Колкото по-близо до горната част на списъка е необходим документът, толкова по-добре работи релевантността.

Как да проверя: Само чрез експеримент. Препоръчва се да се правят заявки с различна дължина за сравнение. Можете също да използвате езика на заявката, докато за тези, които не желаят да прочетат описанието, те могат да използват разширената страница с заявки („разширено търсене“ в Aport и Yandex, „подробно търсене“ в Rambler - руски превод на „разширено търсене“)

В допълнение към уместността има важни потребителски характеристики.

4. Скорост на търсене

Ако търсачката реагира бавно, работата с нея е неефективна. Струва си да добавим, че видимата за потребителя скорост зависи не само от самата търсачка, но и от интернет каналите.

Как да проверите: чрез експеримент - трябва да търсите заявки с различна дължина, различни<тяжести> думи и в различно време на деня (натоварването на сървъра е значително неравномерно в дните, пик - около три до четири следобед)

5. Възможности за търсене (работа с език на документа, език на заявката)

Друг момент за сравнение е какво точно и как търсачката допринася за индекса. Струва си да се каже - търсачка с пълен текст индексира всички думи на текста, видими за потребителя. Наличието на морфология дава възможност да се намерят желаните думи във всички отклонения или спрежения. В допълнение към HTML има етикети на езика на HTML, които също могат да бъдат обработени от търсачката (заглавки, връзки, надписи на картинки и т.н.)

Езикът на заявката под формата на стандартни логически оператори (ИЛИ, ИЛИ, НЕ) е почти на всички машини. Някои хора могат да търсят фрази или думи на дадено разстояние - ϶ᴛᴏ често е важно да се получи разумен резултат. Допълнителна функция ще бъде търсене в области с документи - заглавия, връзки, ключови думи (META KEYWORDS) и т.н. Допълнителна характеристика на езика на заявката е заявка с естествен език, която не изисква познания на операторите.

Как да проверя: Обикновено тази информация се публикува на сървъра на търсачката (в Помощ "д). Имайте предвид, че въпреки това се препоръчва да проверите на реални заявки, тъй като понякога желаното мислене е валидно.

6. Допълнителни удобства

Това са допълнителни функции, които търсачката предоставя на потребителите. Това включва всички видове опции за търсене (специализирани страници, търсене на подобни документи, ограничаване на областта за търсене), и списък на намерените сървъри, и търсене по дати и сървъри, и удобен интерфейс на търсачката, и възможност за персонализирането му.

Как да проверите: Информацията може да бъде частично публикувана на сървъра на търсачката, но най-добре е да опитате да работите сами с тези функции.

Ясно е, че този анализ ще отнеме известно време. Освен ϶ᴛᴏgo, търсачките, като целия Интернет, не стоят неподвижно. Освен това, като се има предвид, че извличането на информация е един от важните компоненти на компютърната технология, трябва да й обърна достатъчно внимание - поне не по-малко от възможността за работа в локална мрежа.

Проведено е проучване на Yandex.ru: защо е необходим Интернет и какво му липсва (http://www.yandex.ru/polling/9.html) В низходящ ред данните от анкетата бяха разпределени, както следва: Интернет се използва като ориентир (23, 76%), изследователски инструмент (15, .45%), забавление (14.15%) и едва на четвърто място е новинарският източник (12.32%) Оптимистичен, че 10% от потребителите винаги, а 73% често успяват Намерете необходимата информация. И в интернет няма достатъчно: информация, добро търсене и ред (включително: подреденост, структура, структура, структурирана, структурирана, както и системност, систематизация, систематичност, систематичност и систематизация)

ОТГОВОРИ НА ВЪПРОСИТЕ:

Какви методи за организиране на търсене съществуват в Интернет?

Как се търси информация в каталози и бази данни?

Как се въвежда информация в директории и бази данни?

Какво се отнася до интернет с търсачките?

Как се формира информационната база данни в търсачките?

Как започва търсенето на информация в търсачките?

Какво е искане?

Как се търси информация в търсачките?

Какво се разбира под релевантност към заявка?

Какво може да се направи в случай на много голям брой документи, намерени при допълнително търсене?

Какво представляват метаизследващите двигатели?

Каква е фундаменталната разлика между мета-търсачките и конвенционалните търсачки?

Коя от следните системи ще бъде метаизследвана:

Кои са най-популярните домашни търсачки?

Кои са най-популярните чуждестранни търсачки?

Кои два компонента са важни при търсене на информация в Интернет?

Какви характеристики определят ефективността на търсачките при търсене на информация в Интернет?

Условия за ползване:
Интелектуални права върху материала - Информационни компютърни мрежи - Борисов Н.А., Лукин А.А. принадлежат на неговия автор. Това ръководство / книга е публикувано единствено за образователни цели без участие в търговски тираж. Цялата информация (включително „Тема 3. Търсене на информация в Интернет“) се събира от отворени източници или се добавя от потребителите безплатно.
За да се възползват пълноценно от публикуваната информация, сайтът за администриране на проекти силно препоръчва закупуване на книга / наръчник Информационни компютърни мрежи - Борисов Н.А., Лукин А.А. във всеки онлайн магазин.

Таг-блок: Информационни компютърни мрежи - Борисов Н.А., Лукин А.А., 2015. Тема 3. Търсене на информация в ИНТЕРНЕТ мрежата.