Организиране на търсене на образователна информация в Интернет. Принципи на организиране и търсене на информация в Интернет

Търсете информация в глобалния интернет: Главна информация

Според принципа на организация и използване на инструментите за търсене могат да бъдат разделени на:

Каталози . Директориите са директории, съдържащи списъци с интернет адреси, групирани по определени критерии. Като правило те са групирани по теми (наука, изкуство, новини и т.н.), като всяка тема се разклонява на няколко поднива. Някои директории за търсене:

име

Ай!

www.au.ru

Атрус (изисква се регистрация)

www.atrus.ru

List.ru

www.list.ru

съзвездие

www.stars.ru

охлюв

www.ulitka.ru

Иван Сусанин

www.susanin.ru

търсачки автомобили . За подробно търсене на документи се използват специализирани търсачки - търсачки. При получаване на заявка от потребителя търсачката извежда списък с документи, които отговарят на задачата за търсене. Намерените документи се класират в зависимост от местоположението на ключовите думи (в заглавието, в началото на текста, в първите абзаци) и честотата на тяхното появяване в текста. Използването на различни търсачки дава различни резултати. Най-често срещаните търсачки са:

име

азиндекс

www. yandex. en

НОпристанище

www.aport.ru

Рамблер

www.rambler.ru

гвъглища

www.google.ru

Мвсичко

www. поща.ru

азхо

www.yahoo.com

НО ltavista

www.altavista.com

Заявката за търсене може да се състои от една или повече думи, може да съдържа различни препинателни знаци. Що се отнася до случая, като цяло, случаят с писане на думи за търсене и операториняма значение , тоест думите "абстрактно", "абстрактно", абстрактно, "абстрактно" и "абстрактно" ще се възприемат по същия начин. Това важи и за латиница. И така, „Йдs" и "yES", и дори "yeS", "yes" и "YES" са едни и същи за търсене.

Практическа работа„Търсене на информация в глобалния интернет“

Ароматът се крие в пъпките,

Люлякът цъфти.

Май цъфти, което означава

Днес е празник - Първи май!

спаси стихотворение:

Търсене празнична снимка:
Вижте резултатите от търсенето намира се на 1 страница. Отидете на страница 2: превъртете колелцето на мишката до долната част на прозореца на браузъра и щракнетеЛ KM на връзката към страницата2 .
Изберете снимка, която харесвате и кликнете върху неяЛ КМ.

В нов прозорец ще видите същата снимка, само увеличена. Вдясно от него ще има информация за размера на картината и сайтовете, на които се намира.

Копирайте снимката :

извършете щракванеП КМ на снимката;
изберете отборКопиране на снимка ;
затворете прозореца на браузъра, като щракнете върху бутонаблизо .

Вмъкване на снимка да документирам:

отидете до прозореца текстов редактор(трябва да има поздравително стихотворение);
фиксирайте курсора с едно щракванеЛ КМ след последния знак на стихотворението (това е! ) и натиснете клавишаВъведете за преместване на курсора на нов ред;
извършете щракванеП КМ;
изберете командата от локалното менюВмъкване .

Запазете документа в личната ви папка под иметоПоздравления за *** от *** . Вместо първия *** въведете името на човека, на когото ще бъде изпратено поздравлението; заменете втория *** с вашето име. Например,Поздравления за Анастасия от Олга . Затворете програмата за текстов редактор.

Стартирайте браузъра си Google Chrome
.

Отидете до пощенската си кутия на порталапоща . en

В главното меню на пощата (в горната част на прозореца) изберете командатапишете .

Попълнете задължителните полета :

Бутон за изборизпрати (намира се както в горната, така и в долната част на прозореца на браузъра).
Затворете прозореца на браузъра.
Изключете компютъра си.

Упражнение 1

Задачата : Намерете името на най-голямото сладководно езеро в света.

За оптимална и бърза работа с търсачките има определени правила за писане на заявки. Подробен списък за конкретен сървър за търсене по правило може да бъде намерен на самия сървър чрез връзките Помощ, Съвет, Правила за съставяне на заявка и др.

Организирайте търсенето и попълнете таблицата с резултатите от търсенето:

Въпрос

Резултати от търсенето (брой страници)

yandex . en

рамблер . en

google.ru

поща .ru

aport . en

Как да намерите човек в интернет по снимка?

Как да се регистрирам на уебсайта на Vkontakte?

Как да премахнете ефекта на червените очи?

Затворете браузъра (излезте от програмата).

Упражнение 2

Задачата : да намерябиография на министъра на образованието на Руската федерация Fursenko A.A. с помощта на търсачкаж oogle. r u

Упражнение 3

Търсете литературни произведения в Интернет

Внимание! За разглеждане на книгиFacebook2 се нуждаят от специална програма („четец“). Например,AlReader .

Търсене на информация в Интернет

Търсене на информация в Интернет

За търсене на информацияв често използвани три начина(Вижте Фиг.1). Първоот тях - търсене по адрес. Използва се, когато потребителят знае адреса на информационен ресурс, съдържащ необходимата му информация. Когато организира търсенето на информация по адрес (формата на адреса - IP, домейн или URL - в този случай няма значение), потребителят просто трябва да въведе адреса на ресурса в съответното поле на браузъра - програма предназначени да предоставят достъп до мрежови ресурси.

Ориз. 1. Начини за търсене на информация в хипертекстови бази данни

Второ- търсене с помощта на навигация с хипервръзки. Когато използва този тип търсене, потребителят трябва първо да получи достъп до сървъра, свързан със съответната база данни. След това можете да намерите документа с помощта на хипервръзки. Очевидно този метод е удобен, когато адресът на ресурса е неизвестен на потребителя. За да бъдат използвани като отправна точка за търсене при прилагане на този метод, са предназначени уеб портали – сървъри, които осигуряват директен достъп до определен набор от сървъри, включително и инсталираните на тях. информационни ресурси, както и уеб приложения, които реализират уеб услуги, подходящи за целта на портала. Сървърите, достъпни през портала, могат да бъдат специфични за конкретна система (например корпоративна) или различни системии да бъдат специално подбрани според специфичните, тематични или други особености на документите и данните, съдържащи се в техните сайтове. Обикновено порталите комбинират различни функции, за да запазят клиента възможно най-дълго. Доминиращата услуга на портала е услугата информационно бюро: търсене, рубрикатори, финансови индекси, информация за времето и др. Докато уеб сайтовете са предимно колекции от статични уеб страници, порталите са колекции от софтуерни инструментии предварително неструктурирана информация, която тези инструменти превръщат в структурирани данни по искане на конкретни потребители.

Третиятметодът на търсене включва използването на сървъри за търсене в Интернет. Сървърите за търсене са специализирани хостове - компютри, които хостват бази данни с интернет ресурси. Потребителски интерфейстакъв сървър има поле за въвеждане на ключови думи, които описват темата от интерес за потребителя (виж фиг. 2).

Фиг.2. Изглед на прозореца на сървъра за търсене на Yandex

Сървърът възприема тези думи като заявка за информация, в съответствие с която търси ресурси и представя списък с намерени документи на потребителя. Очевидно при прилагането на този метод са възможни грешки както от 1-ви (липса на целта), така и от 2-ри вид (информационен шум). Трябва да се отбележи, че се разграничават две групи сървъри за търсене: търсачки и предметни директории. Тяхната разлика се дължи на начина на създаване и последващо попълване на базата данни от интернет ресурси, които даден сървъризвършва търсене на информация. Така търсачките имат специална програма- робот за търсене. Той постоянно следи мрежата, събира информация от уеб страници, индексира ги и фиксира изображението им за търсене в своята база данни. В тематичните каталози база данни от интернет документи се формира „ръчно“ от специализирани редактори. Тъй като в Интернет няма единна администрация, нейните информационни ресурси непрекъснато се променят. В него могат да се появят нови документи, а съществуващите да изчезнат. Честотата на актуализиране на информацията в документи за различните сайтове е различна: за някои е няколко пъти на час, за някои е веднъж на ден, ден, месец и т.н. Ето защо е много важно да се разбере, че когато използвате информация и търсачкиза намиране на информация в Интернет, търсенето се извършва не в реалното пространство на документите в мрежата, а в някакъв модел, чието съдържание може да се различава значително от действителното съдържание в Интернет към момента на търсенето. Според степента на покритие на индексираните ресурси търсачките могат да бъдат разделени на две групи: международни и рускоезични. Първият индексира всички документи, публикувани в интернет подред. Вторият индексира ресурси, разположени в домейн зони с преобладаване на руския език. Списъкът на най-популярните системи е даден в табл. един.

Раздел. 1. Най-популярните търсачки

международен	рускоговорящи
Google	Yandex (44,4% от Runet)
Yahoo!	Rambler (10,6% от Runet)
bing	Mail.ru (7,3% от Runet)
msn	Нигма (0,5% Рунет)
AltaVista	Gogo.ru (0,3% Runet)
питам	Aport (0,2% Runet)

Забележка: Рунет е рускоезичната част от Интернет, която съставя домейни с имена ru и rf.

Трябва да се спомене, че има специална категория търсачки - метатърсачки. Основната им разлика от търсачките и тематичните каталози е, че те нямат собствена индексна база данни и следователно при получаване на потребителска заявка я пренасочват към няколко сървъра за търсене наведнъж (виж фиг. 3).

Ориз. 3. Схемата на системата за метатърсене

Възможност едновременна употребамножество сървъри за търсене за една заявка е очевидно предимствометатърсачки. В момента системата Metabot.ru намери широко приложение, чийто интерфейс е показан на фиг. 4. Тази система ви позволява да използвате както международни, така и рускоезични сървъри за търсене за търсене на ресурси.

Проблемът с търсенето в World Wide Web не е, че има малко информация, а че има много. Намирането на информация в Интернет е крайъгълният камък ефективна работаонлайн. Притежаването на умения за търсене прави Интернет полезен за потребителя както по време на работа, така и по време на свободното време.
За организиране на търсенето в Интернет има специализирани услуги, наречени търсачки.

Търсачки.

Търсачките са софтуерен и хардуерен комплекс с уеб интерфейс, който предоставя възможност за търсене на информация в Интернет.
Повечето търсачки търсят информация в уебсайтове световна мрежа, но има и системи, които могат да търсят файлове на FTP сървъри, продукти в онлайн магазини и информация в дискусионните групи на Usenet. За да търси информация с помощта на търсачка, потребителят формулира заявка за търсене. По желание на потребителя търсачката генерира страница с резултати от търсенето. Такава Резултати от търсенетоможе да комбинира различни типове файлове, например: уеб страници, изображения, аудио файлове. Някои търсачки също изтеглят данни от бази данни и директории с ресурси в Интернет.
Целта на търсачката е да намери документи, които съдържат или ключови думи, или думи, свързани с ключовите думи по някакъв начин. Търсачката е по-добра, колкото повече документи отговарят на заявката на потребителя, тя ще върне. Резултатите от търсенето могат да се влошат поради особеностите на алгоритмите. Например, за заявка за домашни любимци сървърът за търсене на Yandex (вижте повече за него по-долу) предоставя повече от 14 000 000 връзки към страници, които съдържат необходимата информация. Не всичко обаче е толкова гладко: при посещение на някои от намерените страници се оказва, че информацията, която търсят, не е достатъчна или дори не е достатъчна.
За да търсите с максимална ефективност, трябва да знаете как работят търсачките и правилно да съставите заявка за търсене на информация.

Принципи на търсачката

Търсачките работят, като съхраняват информация за многото уеб страници, от които получават HTML страници. Основните компоненти на търсачката: робот за търсене, индексатор, търсачка. Системите обикновено работят на етапи. Първо, роботът получава съдържанието, след това обхожда съдържанието на уебсайтовете. Едва тогава индексаторът генерира индекс с възможност за търсене. Индексаторът е модул, който анализира страница, след като я разделя на части, използвайки собствени лексикални и морфологични алгоритми.
Работата на повечето съвременни търсачки се основава на индекса на цитиране, който се изчислява от индексатора в резултат на анализ на връзки към текуща страницаот други уеб страници. Колкото повече от тях, толкова по-висок е индексът на цитиране на анализираната страница, толкова по-високо ще се показва тази страница в резултатите от търсенето и толкова по-високо ще бъде представена страницата в списъка с намерени ресурси.

Правила за конструиране на заявки за търсене

Както вече беше отбелязано, в интернет има много търсачки, местни и чуждестранни.
Руски сървъри за търсене: Yandex (www.yandex.ru); Rambler (www.rambler.ru); Aport (www.aport.ru) и Gogo (www.gogo.ru).

Чуждестранни сървъри за търсене: Google ( www.google.com); Altavista (www.altavista.com) и Yahoo! (www.yahoo.com).
Руските сървъри са по-подходящи за търсене на руски език, чуждите сървъри са по-подходящи за търсене на чужд език, въпреки че Google се справя добре с търсенето на много езици. Въпреки твърденията на много собственици на търсачки, че заявките могат да бъдат написани почти на езика, който хората използват, за да общуват помежду си, това далеч не е така. Благодарение на въвеждането на нови езикови технологии, търсачките станаха много по-добри в разбирането на потребителя. Търсачките вече търсят не само исканата дума, но и нейните словоформи, което ви позволява да направите резултатите от търсенето по-точни. Например, ако заявката за търсене съдържа думата smart, тогава резултатите от нея ще съдържат не само тази дума, но и нейните производни: smart, smart, както и умът и дори умът. Естествено страниците с словоформи няма да са сред първите резултати от търсенето, но има елементи на изкуствен интелект. Този факт е полезно да се вземе предвид при конструирането заявки за търсене.
Трябва да се помни, че търсачките не отчитат регистъра на символите при обработка на заявка и не е необходимо да се използват препинателни знаци в заявките за търсене, тъй като те също се игнорират от сървърите за търсене. Въпреки това, когато се създават сложни разширени заявки, резултатите от търсенето на които обикновено са много по-близки до очакваните, се използват традиционни препинателни знаци. Повечето търсачки могат да се справят с правописни грешки. Ако на сървъра за търсене изглежда, че има грешка или печатна грешка в думата, той ще предупреди за това със същата фраза: Може би сте търсили ....

Думи за запитване на сървъра за търсене

Има един израз „Машината трябва да работи, човекът трябва да мисли“ и се казва точно за такава ситуация. Задачата на потребителя при съставяне на заявка за търсене е да подчертае ключови думи, задачата на сървъра за търсене е по най-добрия начинобработва въведената заявка. Помислете за илюстриращ пример типични грешкиначинаещи потребители, когато търсят в интернет. Търсачката не изведе полезни резултати за заявката "Мистерии за музикални инструменти". Тогава потребителят решава да коригира заявката, като я допълни и напише: „Гатанки за деца за музикални инструменти“ - резултатите от търсенето се оказаха още по-лоши от предишния. За този примердобро решение беше да потърсите ключовата дума "гатанки". В интернет има много такива сайтове и като отидете на самия сайт и потърсите малко в неговите раздели, е напълно възможно да намерите информацията, която ви интересува. Формулираме няколко правила за компилиране на заявки:

изберете само най-важните ключови думи, свързани с разглежданата тема;
думите не трябва да са твърде много, но не и твърде малко;
в случай на незадоволителни резултати от търсенето, използвайте по-меки условия за заявката или опитайте да търсите в друга търсачка, т.к. механизмите на търсачките не са еднакви, следователно резултатите също могат да варират.

подробно търсене

За да осигурят по-ефективно търсене в Интернет, търсачките предоставят възможност за разширено търсене, както и търсене с помощта на език за заявки. Разширено търсене - възможност за търсене с много различни параметри. За да направите това, търсачките предоставят отделни страницикъдето можете да зададете тези опции. Принципите на разширеното търсене са сходни за повечето търсачки.
Помислете за допълнителни опции за търсене, като използвате примерите на търсачките Yandex и Google, тъй като Yandex е най-популярният сървър за търсене в рускоезичния интернет, а Google е най- популярна търсачкав света. При търсене в Интернет Yandex беше един от първите, които взеха предвид морфологията на руския език, тоест използваха различни форми на думата, както бе споменато по-горе. След като влезе в сайта www.yandex.ru, потребителят може да въведе заявка и веднага да получи резултати от търсенето или можете да използвате връзката Разширено търсене с помощта на иконата и да отидете на съответната страница (вижте фигурата по-долу), където можете да глобите -настройте параметрите за търсене.

Страница за разширено търсене на Yandex

Нека разгледаме допълнителни функции, които могат да се използват на страницата за разширено търсене: посочете собственото си местоположение (Москва), посочете в каква форма трябва да бъде представена информацията (Тип файл), периода от време, в който търсим информация (на ден, 2 седмици, на месец, От ..Do), на какъв език трябва да бъде представена информацията (руски, английски Още), а също така можете да посочите URL адреса на сайта и т.н.
Изборът (Точно както в заявката) се посочва на търсачката, за да не се променя морфологията на думите на заявката, а да се търси само формата на думата, която е посочена.

Език на заявките

Езикът на заявката е командна система, която ви позволява да променяте параметрите на заявката от главния низ за търсене с помощта на специални команди. Фокусиран върху опитни потребители.
Тъй като езикът на заявките е доста сложен и обемен, ние представяме само основните му конструкции, които може да са най-търсени от потребителите. Някои команди на езика за заявки на Yandex са представени в таблицата.

Оператор		Описание	Синтаксис	Искане на пример
		Търсете документи, в които задължително присъства избраната дума. Приемливо е да се използват няколко оператора + в една и съща заявка.	"дума 1 + дума 2"	Ще бъдат намерени документи, които задължително съдържат думите "Булевард" и "Москва" и може да съдържат думата "Шолохов".
		Търсене на цитати. Търсете документи, съдържащи думи за заявка в дадена последователност и форма.	"дума 1 дума 2 ... дума N"	Ще бъдат намерени документи, съдържащи посочената оферта.
	Търсене по цитат с липсваща дума(и). Един оператор * отговаря на една липсваща дума. Внимание! Използва се само като част от оператора.		"дума 1 * дума 2 ... дума N" Операторът е разделен с интервали.	Ще бъдат намерени документи, съдържащи дадения цитат, включително липсващата дума. Ще бъдат намерени документи, съдържащи дадения цитат, включително липсващи думи.

Пълната структура на езика за заявки на Yandex може да бъде намерена на страницата за помощ (http://help.yandex.ru/search/?id=481939). Езикът на заявките за търсене в Google се различава от Yandex, въпреки че има някои общи точки. Помислете за някои от основните команди на този език, като разгледате таблицата (вижте по-долу)

Напълно с езикова структура Запитвания в Googleможете да намерите на страницата за помощ:

4.5.1. Традиционни интернет търсачки

За търсене на информация се използват специални външни услуги - сървъри за търсене: търсачки и директории.

Търсачките са сървъри, които натрупват информация за съдържанието на сайтовете автоматично, използвайки специални програми за роботи.

Информацията за сървърите на директории се избира от хора. За разлика от търсачките, информацията в директориите е по-прецизно структурирана и във вертикална йерархична форма.

И търсачките, и директориите са външни услуги или, както още ги наричат, автономни системи. Характеристика на автономните системи е, че цикълът на работа с информация се извършва изцяло директно в тази система, като се започне с получаване на информация от първичния източник и завършва с предоставянето на услуга за търсене на крайния потребител.

Автоматичните търсачки покриват повече информация, тяхната информация се актуализира по-често и следователно по-подходяща. Информацията на такива сървъри обаче е лошо структурирана, тъй като оценката на съдържанието на конкретен сайт е трудна задача за формализиране. Най-често програмата-робот избира документи само по наличието на думите за търсене в текста на документа. Пример за търсачка е AltaVista (http://www.altavista.com).

В каталозите цялата информация има ясна вертикална йерархична структура. Освен това тази структура е изградена на базата на семантично съдържание. Това е основната стойност на директориите, обработвани от хората: можете да намерите не много сайтове, съдържащи тези ключови думи, но много сайтове, посветени на тази тема. Пример за директория е сървърът на Yahoo (http://www.yahoo.com).

WWW директориите, съдържащи голям брой записи, често хостват локални търсачки на своите страници. Реализирани като традиционни шаблони, които не се различават много от шаблоните за автоматичен индекс.

И за търсачките, и за директориите е установен определен принцип на подбор на информация. Този принцип е заложен или в алгоритмите на търсачките, или в правилата за работа на хората (за директории). В зависимост от това къде и какъв вид информация се натрупва, се оценяват две характеристики на автономните системи – пространствен мащаб и специализация.

Пространствената скала е предназначена да ограничи броя на първичните източници на информация до някакъв краен лимит. Например, търсачка може да бъде изградена само в един сайт. Търсенето може да бъде ограничено до един географски домейн (например ru). Такива системи се наричат регионални.

Има много търсачки, които нямат тези ограничения. Те се наричат глобални системи за извличане на информация.

Характеристики на регионалния подход могат да присъстват и в глобални системи. Например системата Lycos (http://www.lycos.com) сортира резултатите от търсенето в зависимост от региона, от който е дошла заявката.

Най-популярните сървъри за търсене се натоварват толкова много, че става необходимо да се създават "огледала" (огледала). Огледалата трябва да съдържат точно копиеосновна търсачка и гарантират бързо обслужване на обажданията, идващи от определен географски район.

Когато се позовавате на конкретна търсачка, трябва да имате предвид какви услуги предоставя. Например, във вътрешната търсачка Yandex (http://www.yandex.ru) беше въведено търсене не само за страници, но и за сървъри. Същността на този метод се крие във факта, че ключовите думи не се търсят за всички страници, а само за техните заглавия (това, което е затворено в HTML между етикетите "title"). В чуждата AltaVista е направена отделна услуга за истински имена, която съдържа списък на всички регистрирани страници на фирми и организации.

Следващата важна услуга е специализацията за търсене. Интернет вече е хранилището различни видовеинформация. Следователно търсенето на информация също може да бъде формализирано. Можете да търсите изключително графични изображения, можете да търсите мултимедийни записи в MP3 формат и т.н. Много търсачки ви позволяват да посочите вида информация, която търсите. освен това има сървъри, които са специализирани в търсенето на информация от строго определен тип. FTPSearch (http://ftpsearch.lycos.com) е специализирана изключително в намирането на файлове. Той индексира различни ftp сървъри за файлове, намиращи се там. Търсенето се извършва директно по името на желания файл. По подобен начин MP3Search (http://mp3.box.sk) е специализирана в търсене изключително на MP3 файлове.

Друг важен моменте какъв език за заявки използва конкретна система. Колкото по-сложен е езикът, толкова повече фина настройкатърсене е възможно. Понастоящем няма единен унифициран език за заявки за търсачките. Разработването на такъв език би направило възможно интегрирането на различни услуги за търсене в единна суперсистема за търсене. През февруари 1999 г. стартира проектът SESP ( търсачка Standards Project), който включва 15 от най-големите интернет търсачки. Целта на проекта е да стандартизира работата на търсачките (материали за него могат да бъдат намерени на http://www.searchenginewatch.com).

4.5.2. Метатърсачки

Друга обещаваща посока в развитието на услугите за търсене в мрежата е използването на метатърсачки. Основата на метатърсачките е интерфейсът между потребителя и множество търсачки. Системата за метатърсене не е предназначена за индексиране и натрупване на информация. нейното назначение е търсене в мрежатаи обработка на резултатите от търсенето.

Метасистемата позволява, в съответствие с желанията на потребителя, да ограничите търсенето си до определени сървъри за търсене, да проверите наличието на ресурси, посочени от резултатите от търсенето, да извършите прецизирани търсения в резултатите от търсенето и т.н. Метатърсачките често се наричат клиенти на търсачките.

Пример за система за метатърсене е вътрешната разработка "DISCo Searcher" на компанията "DISCo" (http://www.disco.ru).

Основната характеристика на новото поколение системи за метатърсене е интегрирането на сървъри за търсене от различни специализации. В рамките на едно и също приложение можете да търсите различни видове информация. При обработка на заявка за търсене е позволено да се свържете с повече от 100 търсачки (включително специализирани). Резултатите от търсенето се обработват допълнително: връзките, които дублират вече намерените, се изключват от системата; получените адреси се проверяват за наличност. Възможно е да конфигурирате работа със сървъри за търсене (можете да изберете сървърите, с които ще работи системата, да посочите максималния брой връзки, получени от всеки сървър и т.н.).

Въпреки това, в случай на използване на метатърсачки, не може да се направи без познания за традиционните сървъри за търсене - те служат като основа за всяко търсене.

Проблемът за търсенето и средствата за неговото организиране

Гигантското и непрекъснато нарастващо количество информация, налична в Интернет, вкл. оперативен, прави проблема с намирането на необходимата информация много актуален и сложен. Скоростта на търсене на необходимата информация определя до голяма степен професионализма на интернет потребителя. Струва си да се каже, че за автоматизиране на ϶ᴛᴏта задача са разработени различни, както чужди, така и местни системи за търсене, които са уеб страници специален вид. В същото време, въпреки наличието на множество инструменти за автоматизация на търсенето, тази задача остава доста трудоемка, изискваща от потребителя да има определен опит, интуиция и познания за терминологията, използвана в неговата предметна област.

Оценка, публикувана в списание Nature на 8 юли 1999 г., изчислява, че броят на публично индексираните уеб страници е 800 млн. Година по-късно авторът на изследването (Стив Лорънс от NEC Research Institute) смята, че техният брой се е удвоил почти до 1,5 млрд. Дори най-добрите търсачки индексират не повече от една страница на шест. Струва си да се каже, че за да се извлече полезна информацияот интернет, трябва да знаете къде и как да търсите.

Инструментът за търсене на Internet Explorer опростява достъпа до инструментите за търсене, като елиминира необходимостта да се знаят адресите на търсачките. В този случай е по-добре да се свържете директно с търсачките, като заредите страницата ϲᴏᴏᴛʙᴇᴛϲᴛʙ.

Според метода на организиране на търсенето и предоставените възможности всички инструменти за търсене могат условно да бъдат разделени на следните групи:

каталози и специализирани бази данни;

търсачки;

системи за метатърсене.

Каталози и бази данни

Каталозите на WWW са подобни на систематичните библиотечни каталози. Търсенето в директория се състои от последователно придвижване през йерархичен списък от връзки, наречени заглавия или категории. Първата страница на справочника съдържа връзки към основни теми като Култура и изкуство; Медицина и здраве; Общество и политика; Бизнес и икономика; Развлечения и т.н. Щракването върху ϲᴏᴏᴛʙᴇᴛϲᴛʙ линк (категория) отваря страница, съдържаща връзки, описващи избраната тема (рубрика). Придвижвайки се надолу по категориите с подробности, можете да намерите страница с желаната информация. На всяка страница, която се отваря при движение през каталога по един или друг начин, се посочва последователността от гледани вложени заглавия, например Бизнес свят: Финанси: Анализ и др.

Всички каталози се създават и поддържат актуални ръчно от специалисти, по същия начин, по който библиографите съставят и поддържат библиотечни каталози. Уместно е да се отбележи, че описанието на документа се извършва или от съставителите на каталога, или от автора. Благодарение на ϶ᴛᴏmu съдържанието на страниците, включени в каталога, е най-адекватно на заглавието, към което са причислени. Но, като се има предвид скоростта на попълване и промяна на информацията в Интернет, "ръчният" метод за поддържане на каталози не позволява да се отрази еднакво реалното състояние на интернет ресурсите по тази тема.

Търсачки

(търсачки, търсачки, роботи за търсене)

Има десетки големи и хиляди малки и специализирани уеб сайтове, посветени на търсенето в Интернет. Инструментите за търсене от групата ϶ᴛᴏth ще позволят на потребителя, съгласно определени правила, да формулира изисквания за информацията, от която се нуждае (да създаде заявка, използвайки езика на заявките). » търсачка, ϲᴏᴏᴛʙᴇᴛʙᴇᴛϲᴛʙ да следва дефинираните от потребителя изисквания (re заявка) Възлите за търсене могат да използват свои собствени интернет индекси, постоянно актуализирани от специални програми, наречени spiders (spiders) Програмата spider разглежда мрежата, проверява всяка връзка на дадена страница, след това на адресирани страници връзки и т.н., и информира собственика си за всички страници за последващо индексиране.

В резултат на търсенето се създават една или повече страници, съдържащи връзки към документи (уеб страници), подходящи за заявката. Струва си да се каже, че за всяка връзка датата на създаване на документа, неговия обем, степента на уместност към заявката обикновено се посочват и текстови фрагменти, които характеризират съдържанието на документа. Щракването върху такава връзка ви позволява да изтеглите страницата, която ви интересува. В случай на много голям брой намерени документи, можете да прецизирате заявката и в ϲᴏᴏᴛʙᴇᴛϲᴛʙ и да повторите търсенето с нея, но само между избраните страници (такова търсене се нарича различно в различните машини, но обикновено ϶ᴛᴏ - търсене в намереното) В редица търсачки можете да използвате определен метод да промените връзката към страницата, чието съдържание най-добре отговаря на вашите нужди, и да повторите търсенето, което изисква да търсите подобни.

Предимството на автоматизираното търсене всъщност е, че предоставя преглед на много големи количества информация, налична в Интернет в този момент. В същото време сложността на точното описание на заявката, която адекватно отразява вашите информационни нужди, както и още по-голямата сложност на задачата за автоматично определяне на степента на ϲᴏᴏᴛʙᴇᴛϲᴛʙ вашата заявка на прегледани страници, води до факта, че броят на страниците, избрани „при първо стартиране“, традиционно е или много малък, или прекалено голям. Като цяло търсенето с помощта на търсачка е итеративен (многопроходен) процес, в резултат на което формата на заявката постепенно се прецизира.

Метатърсачки

Както бе отбелязано по-горе, всяка търсачка разглежда определен набор от сървъри и избира документи в ϲᴏᴏᴛʙᴇᴛϲᴛʙii със свои собствени критерии. В резултат на това търсенето от различни системи за едни и същи ключови думи дава различни резултати. Това доведе до идеята за създаване на така наречените системи за метатърсене (или мултитърсене), които сами не търсят нищо, а се обръщат за помощ към няколко търсачки наведнъж. Имайте предвид, че всяка от метатърсачките има ϲʙᴏ-ти език за заявки. Системата превежда заявката, формулирана на нейния език, на езиците на заявката, използвани от всяка търсачка. Освен това резултатите от търсенето от всички системи се комбинират и се представят в ϲᴏᴏᴛʙᴇᴛϲᴛʙ форма. Естествено, търсенията с помощта на метатърсачки отнемат повече време от конвенционалните търсачки.

Преглед на най-популярните търсачки

В интернет има голям брой търсачки и всеки потребител се ръководи от тази, с която е свикнал или за която са го посъветвали колегите. Ще използваме кратко описание на най-популярните търсачки, което е дадено на един от сайтовете.

1. Google (www.google.com) Най-бързата и най-голяма търсачка. Индексирани са над 1,3 милиарда страници (от които малко над 700 милиона са изцяло, за останалите са известни само адресът и текстът на връзката). Можете да включите/изключите резултати от конкретни сайтове и/или домейни. За разлика от повечето търсачки, Google оценява популярността на даден ресурс по броя на връзките, водещи към него от други страници. Има тематично ориентирано търсене – Apple Macintosh, BSD UNIX, Linux, правителствени и университетски търсения на САЩ – търсене в ресурсите на водещи научни и образователни институции.

2. Yandex (www.yandex.ru) Най-добрата местна търсачка. Индексира основно рускоезични ресурси, докато ϶ᴛᴏm не отстъпва по възможности на чуждите системи. Търсенето може да се извърши точно или във всякакви словоформи, ограничени по дата, указващи сайта или неговата поддиректория. Можете да търсите по така наречения индекс на цитиране, да търсите изображения, скриптове, аплети; задайте езика на документа. Необходимите връзки традиционно се намират в първите десет резултата. Има "олекотена" версия (с минимум дизайнерски елементи) на http://www.ya.ru.

3. AltaVista (www.altavista.com) Предоставя голямо разширение на критериите за търсене: в Разширено търсене има избор на интервал от време, който включва датата на създаване или модификация на ресурса, поддръжка на 25 езика; има възможност за издаване на един резултат на сайт (϶ᴛᴏ стеснява кръга на търсене, без да жертва качеството) Power search има стандартен набор от функции. Доскоро AV беше голям портал, но поради финансови (и не само) причини значително намали броя на услугите.

4 Yahoo! (www.yahoo.com) Важно е да се отбележи, че една от първите търсачки в Интернет. В допълнение към стандартния набор от функции, той ви позволява да избирате ресурси по дата (4 години, 1, 3, 6 месеца, седмица, 1, 3 дни) Поддържа възможността да посочите знака "*" вместо всяка последователност от герои в ключови думи. На Yahoo! е съставен голям структуриран каталог от категории (категории), като първо се извършва търсене в тях, след това в собствен архив, след това - чрез системата на Google. Търсенето в категории дава добри резултати - те са малко и далеч между и добри.

5. Lycos (www.lycos.com) Напоследък - една от най-популярните системи. При всичко това не предоставя никакви специални функции - "И" "ИЛИ", търсене на фрази, задължително присъствие/отсъствие на дума; в разширени функции - търсене в заглавие, URL, име на хост и/или име на домейн; 25 езика, включително руски - с една дума, целият "общоприет" набор. Можете да посочите типа съдържание на ресурса – автоматично, книги, ftp, изтегляне, новини и т.н. Очевидно популярността на Lycos е следствие от мащаба на ϶ᴛᴏ-ия голям проект.

6. Rambler (www.rambler.ru) Доскоро най-известната руска търсачка. Разширеното търсене не ви позволява да търсите фрази, но нормално търсенепреди февруари 1999 г. рядко даваше приемливи резултати. От февруари системата ϶ᴛᴏ използва подобрена търсачка, дизайнът се промени, но Rambler все още не може да сравни Yandex и Aport по отношение на качествени (според автора, който анализира търсачките) източници на статистическа информация за интернет проекти.

7. Aport (www.aport.ru) Друга добра руска търсачка. Търсенето се извършва по текст (само във всички словоформи) и по URL, като се използват логически оператори и оператора "..." (въпреки това стоп думите във фразата все още се игнорират), по дата и в отделни полета (заглавие, описание и т.н.). ), мета знаците * и ! се поддържат. Представянето на резултатите от търсенето е най-добре проектирано в сравнение с други руски търсачки. Някои съмнения предизвиква дизайнът на главната страница, която е явно претоварена с информация. Има малко "по-лека" версия на http://aport.ru.

Как да изберем търсачка

При търсене в интернет са важни два компонента - пълнота (нищо не е загубено) и точност (не е намерено нищо допълнително).

1. Покритие и дълбочина

Покритието се отнася до обема на базата данни на търсачката, който се измерва с три показателя – общото количество индексирана информация, броя на уникалните сървъри и броя на уникалните документи. Под дълбочина се разбира дали има ограничение за броя на страниците или за дълбочината на вмъкване на директория на един сървър.

Как да проверите: Някои машини пишат статистики за роботи на този сайт. Но можете да го проверите сами - трябва да зададете няколко заявки за търсене, състоящи се от една дума (ɥᴛᴏ, за да изключите влиянието на езика на заявката, включително различни интерпретации на пространството), а когато ϶ᴛᴏm погледнете статистиката на резултатите, издадени от машината - обикновено в горната част на списъка се посочва колко документи са намерени общо. Освен че думите трябва да са от различни области, добре е да вземете и думи с различна тежест – редки, „средни“ и „тежки“ (често срещани), и да сравните броя на намерените. Тежките думи, по-специално, тестват пълния текст (индексиране на всички думи в документ) на търсачката.

По-трудно е да се провери дълбочината на ходене на робота - за ϶ᴛᴏ е необходимо да се вземат някои сайтове, например с разклонена структура на архива, и да се провери дали документите са индексирани, до които може да се достигне само, напр. в 6 щраквания върху връзките.

2. Скорост на обхождане и уместност на връзките

Скоростта на преминаване в мрежата показва колко бързо се индексира новодобавен ресурс и колко бързо се актуализира информацията в базата данни. Не забравяйте, че важен показател за качеството на търсачката (нейния робот) ще бъде не само улавянето на нови територии, но и наблюдението на състоянието на вече обхванатите. Сървърите изчезват и остават, страниците на тях се актуализират. Връзките, които се дават от търсачката в списъка на намерените, трябва, първо, да съществуват и, второ, съдържанието им трябва да отговаря на заявката.

Как да проверите: Обективна информация може да бъде получена чрез анализиране на регистрационни файлове на сървъра - роботът на търсачката обикновено се представя от името на своята машина (или подобно), така че можете да видите колко често посещава сървъра, колко страници преглежда и т.н. . За съжаление обикновено дневникът само на ϲʙᴏ от неговия сайт е достъпен за изследване, така че експерименталният метод остава.

За да определите скоростта на обхождане, трябва да създадете страница с текст някъде, да я добавите към търсачките и да видите колко бързо започва да се появява. Или променете съществуваща страница. Струва си да се каже, че за да определите уместността на връзките, проверете документите поне на първата страница от списъка, намерен за няколко заявки. Съобщение не е намеренпоказва, че документът вече не съществува.

3. Качество на търсене (субективен индикатор)

Струва си да се каже, че всяка търсачка има ϲʙᴏ и алгоритъм за сортиране на резултатите от търсенето. Колкото по-близо до горната част на списъка е документът, от който се нуждаете, толкова по-добре работи уместността.

Как да проверите: Само чрез експеримент. Препоръчително е да се правят заявки с различна дължина за сравнение. Можете също да използвате езика на заявката, докато тези, които не са склонни да четат описанието, могат да използват разширената страница за заявка („разширено търсене“ в Aport и Yandex, „подробна заявка“ в Rambler - опции за превод на руски „разширено търсене“)

В допълнение към уместността, има важни потребителски характеристики.

4. Скорост на търсене

Ако търсачката реагира бавно, е неефективно да се работи с нея. Струва си да добавим, че скоростта, която потребителят вижда, зависи не само от самата търсачка, но и от интернет каналите.

Как да проверите: Чрез експеримент - трябва да търсите заявки с различна дължина, различни<тяжести>думи и по различно време на деня (натоварването на сървъра е значително неравномерно през целия ден, пикът е около три до четири следобед)

5. Възможности за търсене (работа с езика на документа, езика на заявките)

Друга точка за сравнение е какво точно и как търсачката допринася за индекса. Струва си да се каже, че търсачката за пълен текст индексира всички думи от текста, видими за потребителя. Наличието на морфология дава възможност да се намерят желаните думи във всички склонения или спрежения. В допълнение към ϶ᴛᴏgo, в HTML езикима тагове, които също могат да бъдат обработени от търсачката (заглавия, връзки, надписи на изображения и т.н.)

Почти всички машини имат език за заявки под формата на стандартни логически оператори (И, ИЛИ, НЕ). Някои са в състояние да търсят фрази или думи на дадено разстояние - ϶ᴛᴏ често е важно, за да получите разумен резултат. Допълнителна функция ще бъде търсене в зоните на документи - заглавия, връзки, ключови думи (META KEYWORDS) и др. Допълнителна функция query language - заявка на естествен език, която не изисква познания за оператори.

Как да проверите: Обикновено тази информация се публикува на сървъра на търсачката (в Помощ "e). Имайте предвид, че въпреки това е препоръчително да проверявате реални заявки, тъй като понякога това, което искате, се дава като валидно.

6. Допълнителни удобства

Това са допълнителни функции, които търсачката предоставя на потребителите. Това включва всички видове опции за търсене (специализирани страници, търсене на подобни документи, ограничаване на областта за търсене), и списък с намерени сървъри, и търсене по дати и сървъри, и удобен интерфейс на търсачката и възможността за персонализиране.

Как да проверите: Информацията може да бъде частично публикувана на сървъра на търсачката, но е най-добре да опитате сами да работите с тези функции.

Ясно е, че този анализ ще отнеме известно време. Освен това търсачките, както и останалата част от Интернет, не стоят неподвижни. В същото време, като се има предвид, че търсенето на информация е един от важните компоненти на компютърните технологии, трябва да му се обърне достатъчно внимание – поне не по-малко от възможността за работа в локална мрежа.

На Yandex.ru беше проведено проучване: защо е необходим интернет и какво му липсва (http://www.yandex.ru/polling/9.html) В низходящ ред данните от проучването бяха разпределени, както следва: Интернет е използва се като справка (23 76%), инструмент за изследване (15,45%), забавление (14,15%) и едва на четвърто място е източник на новини (12,32%). Звучеше оптимистично, че 10% от потребителите винаги и 73% често успеете да намерите необходимата информация. Какво липсва в Интернет: информация, добро търсене и ред (включително: подреденост, структура, структура, структура, структуриране, както и система, систематизация, систематизация, систематичност и систематизация)

ОТГОВОРИ НА ВЪПРОСИТЕ:

Какви са методите за организиране на търсенията в Интернет?

Как се търси информация в каталози и бази данни?

Как се въвежда информацията в каталози и бази данни?

Какво представляват интернет търсачките?

Как се формира информационна база данни в търсачките?

Откъде започва търсенето на информация в търсачките?

Какво е молба?

Как се търси информация в търсачките?

Какво се разбира под релевантност на заявката?

Какво може да се направи в случай на много голям брой документи, открити при по-нататъшно търсене?

Какво представляват метатърсачките?

Каква е основната разлика между метатърсачките и конвенционалните търсачки?

Кои от следните системи ще бъдат метатърсачки:

Кои са най-популярните местни търсачки?

Кои са най-популярните чуждестранни търсачки?

Кои два компонента са важни при търсене на информация в Интернет?

Какви характеристики определят ефективността на търсачките при търсене на информация в Интернет?

Условия за ползване:
Права на интелектуална собственост върху материала - Информационен компютърни мрежи- Борисов Н.А., Лукин А.А. принадлежат на неговия автор. Това ръководство/книга е публикувано само за информационни цели, без участие в търговско обръщение. Цялата информация (включително "Тема 3. Търсене на информация в ИНТЕРНЕТ") се събира от отворени източници или се добавя от потребителите безплатно.
За пълноценно използване на публикуваната информация, администрацията на проекта на сайта силно препоръчва закупуването на книга / ръководство Информационни компютърни мрежи - Борисов Н.А., Лукин А.А. във всеки онлайн магазин.

Таг-блок: Информационни компютърни мрежи - Борисов Н.А., Лукин А.А., 2015 г. Тема 3. Търсене на информация в ИНТЕРНЕТ.