Работа на търсачките: общи принципи на търсачките. Как работи системите за търсене - фрагменти, алгоритъм за обратно търсене, индексиране на страници и характеристики на yandex работата принцип на търсачката

Добър ден, Уважаеми читатели на моя главен изпълнителен директор . Тази статия е за това как системата за търсене Yandex което използва технологии и алгоритми за класиране на сайтове, което прави да подготви отговора на потребителите. Много хора знаят, че този флагман на руското търсене определя тона в рутина, притежава най-голямата база данни в Евразия, функционира със съдържанието на повече от един милиард страници, знае отговора на всеки въпрос. Според LiveInternet за август 2012 г. делът на Yandex в Русия е 60.5%. Месечната аудитория на портала е 48,9 милиона души. Но най-важното, за нас, блогърите в начина, по който търсачката получава нашите искания, как се обработват и какъв резултат се получава на изхода. От една страна, познаване и разбиране на тази информация, за нас е по-лесно да използваме всички ресурси на Yandex, от друга страна - по-лесно е да популяризираме нашите блогове. Затова предлагам с мен да видя най-важните технологии на най-добрата растителност на търсачката.

Когато потребителят на интернет за първи път иска да потърси информация за търсачката, може да има един въпрос: "Как е търсенето?" Но когато го получи, често този въпрос се променя в друг: "Защо толкова бързо?" И наистина, защо търсенето на файл на компютъра отнема 20 секунди и резултатът от заявката от цялата мрежа от компютри по света се появява след секунда? Най-интересното е, че първите два въпроса (като търсене и защо 1 секунда) могат да бъдат в един отговор - търсачката е подготвена предварително към искането на потребителя.

За да разберете принципа на операцията на Yandex, като друга търсачка, ние ще нарисуваме аналогия с телефонния указател. За да намерите всеки телефонен номер, трябва да знаете фамилното име на абоната и всяко търсене отнема в този случай максимум една минута, защото всички страници на директорията са твърд азбучен указател. Но представете си, ако търсенето е последвано от друга опция, където телефонните номера ще бъдат поръчани от самите числа. След такива търсения, които вече са забавени за по-дълго време, номерата преди очите на търсенето ще бъдат все още много дълги. 🙂

Така че търсачката решава цялата информация от интернет във форма, удобна за нея. И най-важното, всички тези данни се поставят предварително в нейната директория, преди посетителят да дойде с исканията си. Това е, когато питаме Yandex въпрос, той вече знае нашия отговор. И ни дава през секунда. Но тази секунда включва редица съществени процеси, които сега ще разгледаме подробно.

Интернет индексиране.

Yandex RU събира цялата информация в интернет, която може да достигне. С помощта на специално оборудване се наблюдава цялото съдържание, включително изображения на визуални параметри. Ангажирани в такава колекция от търсачката, и процесът на събиране и подготовка на данните се нарича индексиране. Базата на такава машина включва компютърна система, която е различна в робота за търсене. Той редовно заобикаля индексираните сайтове, проверява ги за ново съдържание, а също така сканира интернет в търсене на отдалечени страници. Ако открие, че някои такива страни вече не съществуват или затварят от индексирането, той го премахва от търсенето.

Как роботът за търсене намиране на нови сайтове? Първо, благодарение на връзките от други сайтове. Тъй като ако линк от вече индексиран сайт е поставен на нов уеб ресурс, след това следващия път, когато посетите втория, роботът ще посети първо. Второ, в уебмастъра на търсачката Yandex има чудесно обслужване, хората наричали "добавяне" (от фрази в английски -adurl - add адрес). Възможно е да направите адреса на новия ви сайт, който след известно време ще посети робота за търсене. Трето, с помощта на специалната програма "Yandex.bar", посещение на потребители, които го използват, се проследяват. Съответно, ако човек е получил нов уеб ресурс, скоро ще се появи робот.

Дали всички страници влизат в търсенето? Всеки ден милиони страници се индексират. Сред тях са страници с различно качество, в която различна информация може да съдържа - от уникално съдържание до твърд боклук. Освен това, тъй като статистиката казва, боклукът в интернет е много повече. Всеки документ Търсене на робот анализи със специални алгоритми. Той определя дали има някаква полезна информация, ако може да отговори на искането на потребителя. Ако не, тогава такива страници не приемат "в астронавти", ако е така, то е включено в търсенето.

След като роботът посети страницата и определи своята програма, тя се появява в съхранението на търсачките. Ето и анализа на всеки документ към самите основи, както казват майсторите на автоцентъра - на винтовете. Страницата се изчиства от HTML маркиране, чист текст преминава пълен инвентар - изчислява се местоположението на всяка дума. В такава разглобена форма страницата се превръща в таблица с цифри и букви, което се нарича индекс по различен начин. Сега, така че да не се случи на уеб ресурса, който съдържа тази страница, последното му копие винаги е в търсенето. Дори ако сайтът вече не съществува, хвърлянето на неговите документи все още се съхранява в интернет.

Всеки индекс заедно с данните за видовете документи, кодиране, език, заедно с копия, са търсене на база . Той се актуализира периодично, затова е на специални сървъри, с които търсачките потребителски искания се справят.

Колко често се случва процесът на индексиране? Преди всичко зависи от видовете сайтове. Първият тип уеб ресурс много често променя съдържанието на страниците си. Това е, когато един робот за търсене се стигне до тези страници всеки път, те съдържат друго съдържание всеки път. За тях нищо следващия път няма да бъде намерен, така че такива сайтове не са включени в индекса. Вторият тип сайтове - склад за данни, на страниците на които периодично се добавят към документи за изтегляне. Съдържанието на този сайт обикновено не се променя, така че роботите му посещения изключително рядко. Други сайтове зависят от честотата на актуализацията на материала. Това се отнася до следното - по-бързото съдържание се появява на сайта, толкова по-често идва роботът за търсене. И приоритет се дава преди всичко най-важните уеб ресурси (новината е по-важна по-важна от всеки блог).

Индексирането ви позволява да извършвате първата функция за търсене - събиране на информация на нови страници в интернет. Но Yandex има втората функция - търсене на отговор на заявката на потребителя в вече подготвената база за търсене.

Yandex подготвя отговора

Процесът на обработка на искането и издаването на съответните отговори е ангажиран компютърна система "Metapoisk" . За работата си, в началото събира цялата въвеждаща информация: от кой регион е направен искане, до кой клас смята, има ли грешки в искането и т.н. След такава обработка, метапоаскът проверява дали има точно същите искания със същите параметри в базата данни. Ако отговорът е положителен, системата показва потребителя предварително запазени резултати. Ако в базата данни няма такъв въпрос, Metapoisk се отнася до базата за търсене, съдържаща индексните данни.

И тук има невероятни неща. Представете си, че има един супер мощен компютър, който поддържа целия интернет, обработен от роботи. Потребителят определя заявката и в паметта на паметта започва търсенето на всички документи, свързани с заявката. Отговорът е намерен и всички са доволни. Но вземете друг случай, когато има много искания, съдържащи идентични думи в тялото ви. Системата трябва да премине през една и съща памет клетки всеки път, която може да увеличи времето за обработка на данни понякога. Съответно, времето се увеличава, което може да доведе до загуба на потребителите - ще бъде помолен за помощ на друга търсачка.

Така че няма такива закъснения, всички копия в индекса на сайта се разпространяват чрез различни компютри. След изпращане на заявка, Metapoisk дава командата на такива сървъри да търсят вашето парче с текст. След това всички данни от тези машини се връщат към централния компютър, той съчетава всички получени резултати и дава на потребителя първите десет от най-добрите отговори. С такава технология, двама заек веднага се убиват: времето за търсене се намалява няколко пъти (отговорът е за акция от секунда) и благодарение на увеличаването на платформите, информацията се дублира (данните не се губят поради внезапни повреди) . Компютри с дублирана информация съставляват центъра за данни - това е стая със сървъри.

Когато потребителят на търсачката определя искането си, в 20 случая от 100 случаи се получават двусмислени цели. Например, ако той пише в низ за търсене, думата "Наполеон" все още не е известна какъв е отговорът - рецептата за тортата или биографията на великия комисар. Или фразата "братя Grimm" - приказки, филми, музикална група. Към такъв евентуален фен на целите, за да се стесните до конкретни отговори в Yandex има специална технология Спектър. Той взема предвид нуждите на потребителите, използващи статистическите данни за заявките за търсене. От всички въпроси, посочени в посетителите на Yandex, спектърът разпределя различни обекти в тях (имена на хора, книги, модели, модели и др.) Тези обекти се разпространяват в някои категории. Към днешна дата тези категории имат повече от 60. Използването им, търсачката има различни думи от думи в базата данни в исканията на потребителя. Интересното е, че тези категории се проверяват периодично (анализът се извършва няколко пъти седмично), което позволява на Yandex да даде по-точно отговорите на въпросите.

Въз основа на технологията, Yandex Spectrum организира съвети за диалог. Те се появяват под низа за търсене, в който потребителят набира двусмислената си молба. Тази линия отразява категориите, към които може да се свърже обектът обект. Допълнителните резултати от търсенето зависят от избора на потребител от такава категория.

От 15 до 30% от всички потребители на търсачката на Yandex желаете да получават само местна информация (данни за региона, в който живеят). Например, за нови филми в кината на вашия град. Следователно отговорът на такова искане трябва да бъде различен за всеки регион. В това отношение Yandex използва своята технология търсене на региони . Например, такива отговори могат да получават жители, които търсят репертоар от филми в киното на октомври:

Но такъв резултат ще получи жители на град Ставропол в същото искане:

Регионът на потребителя се определя предимно от IP адреса си. Понякога тези данни не са точни, защото редица доставчици могат незабавно да работят в няколко региона и следователно да променят IP адресите на потребителите. По принцип, ако това се случи с вас, можете лесно да промените региона си в настройките за търсене. Той е посочен в горния десен ъгъл на страницата с резултати. Можете да го промените.

Търсачка Yandex RU - Резултати от отговора

Когато Metapoisk подготви отговора, пазарът на Yandex трябва да го даде на страницата с резултатите. Това е списък с препратки, които да намерят документи с малка информация за всеки. Задачата на технологията за издаване на резултати е по-неформално да предостави на потребителя най-важните отговори. Шаблонът на една такава връзка изглежда така:

Помислете за по-подробно тази форма на резултата. За Заглавие на резултатите от търсенето Yandex често използва името на заглавието на страницата (фактът, че оптимизаторите се предписват в заглавие). Ако не е, тогава тук се появяват думи от заглавието на статията или пост. Ако текстът на заглавката е голям, търсачката поставя своя фрагмент в това поле, което е най-подходящо за определената заявка.

Това е много рядко, но се случва, че заглавието не съответства на съдържанието на искането. В този случай Yandex генерира заглавието на резултатите от търсенето, използвайки текста в статията или пощата. Той определено ще има дума за заявка.

За сноя Търсачката използва целия текст на страницата. Тя избира всички фрагменти, където отговорът е налице в заявката и след това избира най-подходящия от тях и вмъква връзка към документа към документа. Благодарение на този подход, компетентният оптимизатор може да го повтори след това, което е видяло сново, като по този начин подобрява привлекателността на референцията.

За по-добро възприятие на представянето, заявката на потребителя, заглавките се изготвят като препратки в текста (подчертаване в синьо с акцент). За привлекателността на уеб ресурса и неговото признание се добавя фавонт - малка икона на сайта на марка. Изглежда вляво от текста в първия ред преди заглавието. Всички думи, включени в искането за отговор, също са подчертани в получер шрифт за удобство на възприятието.

Наскоро в един фрагмент, търсачката на Yandex добавя различна информация, която ще помогне на потребителя дори по-бързо и по-точно да намери своя отговор. Например, ако потребителят пише името на всяка организация в своето искане, след това в фрагмент, Yandex ще добави адреса си, да се свързва с телефони и позоваване на местоположението в географските карти. Ако търсачката е позната на структурата на сайта, в която има документ с отговора за потребителя, той определено ще го покаже. Плюс това, Yandex може веднага да добави към фрагмент от най-посещаваните страници на такъв уеб ресурс, така че, ако желаете, посетителят може веднага да отиде в секцията, от която се нуждаете, запазвайки времето си.

Има фрагменти, които съдържат стойност на всеки продукт за онлайн магазин, хотелска рейтинг или ресторант под формата на звезди, друга интересна информация с различни номера за обекти в документите за търсене. Задачата на такава информация е да се даде пълен списък с данни за тези субекти или обекти, които се интересуват от потребителя.

Като цяло, с различни примери, страницата с отговорите ще изглежда така:

Класиране и песни

Yandex задачата включва не само търсенето на всички възможни отговори, но и избор на най-добрите (уместни). В края на краищата, потребителят няма да бъде претърсен във всички връзки, които ще бъдат предоставени в резултат на търсене в Yandex. Нарича се процесът на поръчване на резултатите от търсенето класиране . Това означава, че е класиране, което определя качеството на предлаганите отговори.

Съществуват правила, за които Yandex определя съответните страници:

понижаването на позициите на страницата с резултати чакат сайтове, които влошават качеството на търсенето. Обикновено това са такива уеб ресурси, чиито собственици се опитват да заблудят търсачката. Например, това са сайтове с страници, които са безсмислени или невидими текст. Разбира се, той е видим и разбираем от робота за търсене, но не и посетител, който чете този документ. Или сайтове, които при преминаването към връзката в зоната на емисия незабавно превеждат потребителя на друг сайт.
те не попадат в емитирането на резултати или силно намаляват местата за класиране, съдържащи еротично съдържание. Това се дължи на факта, че често такива уеб ресурси използват агресивни методи за промоция.
сайтовете, заразени с вируси, не се намаляват в екстрадицията и не са изключени от резултатите от търсенето - в този случай, потребителят е информиран за опасността, използвайки специална икона. Това се дължи на факта, че Yandex предполага, че такива уеб ресурси могат да съдържат важни документи по искане на посещателя за търсене.

Например, сайтовете на Yandex ще бъдат класирани по заявка "Apple":

В допълнение към класационните фактори, Yandex използва специални проби с искания и отговори на тях, които потребителите на търсачката се считат за най-подходящи. Такива проби не могат да направят в момента - това е прерогатив на човек. В Yandex такива експерти се наричат помощници . Тяхната задача включва пълен анализ на всички документи за търсене и оценка на отговорите на посочените искания. Те избират най-добрите отговори и съставляват специална проба за обучение. В него търсачката вижда връзката между съответните страници и техните свойства. Като такава информация Yandex може да избере за всяка заявка оптимална формула за класиране. Методът за конструиране на такава формула се нарича matrixnet. Плюс това система е, че тя е устойчива на преквалификация, което дава възможност да се вземе предвид голям брой фактори за класиране, без да се увеличава броят на ненужните оценки и модели.

В края на моя пост искам да ви покажа интересни статистически данни, събрани от Yandex търсачката в процеса на вашата работа.

1. Популярността на личните имена в Русия и руски градове (Данните се вземат от блогъри и потребители на социални мрежи през март 2012 г.).

2. Статистика с различни видове интереси.

Моя пост за това как е завършена търсачката на Yandex.

През 1863 г. великият писател Жул Вер е създал още един Париж през ХХ век. В него той описва подробно метрото, автомобила, електрическия стол, компютър и дори интернет. Въпреки това, издателят отказва да отпечата книгата и тя лежеше повече от 120 години, докато не бъде намерена от прадядото на Жул Верн през 1989 година. Публикувано е книга през 1994 година.

Търсачката или просто "търсачката" е да търсите онлайн страници в съответствие с искането на потребителя. Най-известната търсачка в света е Google, най-популярната в Русия - Yandex, а един от най-старите търсачки е Yahoo. В архитектурата на търсачката можете да разпределите търсачка - ядрото на системата, представена от набор от софтуерни модули; База данни Or индекссъхраняване на информация за цялата известна търсачка за интернет ресурси; и набор от сайтове, които са точки за влизане Потребители (www.google.com, www.yandex.ru, ru.yahoo.com и др.). Всичко това съответства на класическата архитектура на тристепенната информационна система: има потребителски интерфейс, бизнес логика, която в този случай е представена от изпълнението на алгоритмите и базата данни за търсене.

Търсене на специфичност онлайн

На пръв поглед търсенето в интернет не е много по-различно от обичайното търсене на информация, например от обработката в базата данни или от задачата за търсене на файлове. Така те считат за разработчиците на първите търсачки в интернет, но с течение на времето те осъзнаха, че грешат ...

Първата разлика в търсенето на интернет от обичайното е, че алгоритъмът за търсене за една и съща база данни предполага, че нейната структура е известна предварително от търсачката и автора за искане. В интернет, по очевидни причини, не е така. Интернет страниците не са структурата на директорията, но мрежата, която също засяга алгоритмите за търсене, и форматът на данните, публикуван в интернет ресурсите, не се контролира от никого.

Втората разлика, като една от последствията от първото е, че искането не е представено под формата на набор от параметри (критерии за търсене) и под формата на текст, написан от човек на естествен език за него . Така, преди да започнете да търсите, все още трябва да разберете какво иска авторът на искането. Отбелязвам, че не разбирам друг човек, а компютърна машина.

Третата разлика вече е по-малко очевидна, но не по-малко фундаментални: в директорията или базата данни всички елементи са равни. Има конкуренция в интернет и следователно разделянето на повече "надеждни доставчици на информация" и източници, близки до статута за "Информационен мисосор". Толкова класови ресурси хора, и включват търсачки.

И в заключение трябва да се добави, че зоната за търсене е милиарди страници, няколко килобайта и повече всеки. За палатка от милиони страници се добавя ежедневно и се актуализира толкова. Всичко това е представено от различни цифрови формати. За съжаление, дори съвременните технологии и ресурси, достъпни на разположение на пазарни лидери в интернет, не им позволяват да се справят с всичко това "в движение" и изцяло.

Каква е търсачката

Преди всичко е важно да се реализира друго и вероятно най-значимата разлика между работата на търсачката в интернет и работата на всяка друга информационна система, упражняваща в различни видове директории и бази данни. Търсачката не търси информация между това, което е в интернет по време на получаването на искането и се опитва да създаде отговор въз основа на Вашето собствено съхранение на информация - база данни, наречена индекс, където съхранява досие за всички известен с него и периодично го актуализира. С други думи, търсачката не работи с оригинала, но с прогнозната област на допустимите стойности за търсене. Всички последни промени в интернет могат да бъдат отразени в резултатите от търсенето само след като съответните страници ще бъдат индекси - добавен към индекса на търсачката. Така че, търсачката в първото приближаване се състои от търсачка, база данни или индекс (индекс) и точки за влизане.

Сега накратко за това, което търсачката се състои от:

Паяк или паяк (паяк). Приложение, което се занимава с изтегляне на страници за интернет ресурси. Никъде Паякът няма да "обхожда" - изисква само съдържанието на страниците по същия начин, както обичайният интернет браузър, изпращането на заявка до HTTP сървъра и получаването на отговор от него. След съдържанието на снимката, тя се изпраща на индекса и робот, който е описан по-долу.

Индексатор (индексатор). Индексът генерира първоначален анализ на съдържанието на изтеглената страница, разпределя основните части (име, описание, връзки, заглавки и др.) И намалява всичко това от разделите на базата данни за търсене - места в индекса на търсачката. Този процес се нарича индексиране на интернет ресурсиОт тук и името на самата подсистема. Въз основа на резултатите от първоначалния анализ, индексът може също да реши, че страницата обикновено е "недостойно", за да бъде в индекса. Причините за такова решение могат да бъдат различни: страницата няма име, е точно копие на другото, което вече е налично в индекса на страницата или съдържа препратки към забранени от закона ресурси.

Кроулър. Това "животно" е проектирано да "обхожда" с връзки, достъпни на паяк. Краулър анализира пътеките, водещи от текущата страница към други раздели на сайта или на страницата на външни интернет ресурси и определя по-нататъшната процедура за заобикаляне на паяка на нишките на World Wide Web. Беше Krauller, който намира нов за страницата на търсачката и ги прехвърля до паяк. Работата на робота е изградена на базата на алгоритмите за търсене на колони по ширина и дълбочина.

Машина за търсене и резултати). Най-важната част от всяка търсачка. Алгоритмите на разработчиците на работната подсистема на компанията се съхраняват в строга тайна, тъй като те са търговска тайна. Именно тази част от търсачката е отговорна за адекватността на отговора на търсачките към потребителското искане. Тук можете да изберете два основни компонента:
- Подсистема за класиране. Обшивка - Това са страници на интернет сайтове в съответствие с тяхната значимост към конкретна заявка. Уместност на страницата - Това от своя страна, степента на съответствие на съдържанието на значението на страницата на заявката и тази стойност на търсачката определя независимо, въз основа на огромния брой параметри. Класиране - това е най-загадъчната и противоречива част от "изкуствения интелект" на търсачката. На класирането на страницата, в допълнение към неговата структура и съдържание (съдържание), също влияе на: броя и качеството на връзките, водещи до тази страница от други сайтове; възрастта на самия сайт; Естеството на поведението на потребителите, гледащо през страницата и много други фактори.
- Подсистеми за издаване на резултати. Задачата на тази подсистема включва интерпретация на потребителска заявка, нейният превод на езика на структурираните искания към индекса и формирането на страниците с резултати от търсенето. В допълнение към анализирането на текста на заявката, търсачката може също да вземе предвид:
  - Заявка за контекстаОбразуваем въз основа на значението на предварително изпълнени заявки. Например, ако потребителят често посещава сайтове на автомобилни теми, тогава той вероятно иска да получи информация за тези марки в думата "Волга" или "Ока", а не за това къде руснаците със същото име започват реки. Нарича се персонализирано търсенеПри издаването на една и същата молба за различни потребители е значително различна.
  - Персонализирани предпочитаниякоято тя (търсачката) може да "предположи" анализиране на потребителските връзки при страници с резултати от търсенето. Това е друг начин за коригиране на контекста на искането: Потребителят с неговите действия, сякаш казва на колата, какво точно искаше да намери. Като правило, търсачките в резултатите от търсенето се опитват да добавят страници, съответното запитване, но свързани с доста различни области на живота. Да предположим, че потребителят се интересува от филми и поради това често избира връзки към страници с съобщенията на Kinonovinki, дори ако тези страници не са доста подходящи за първоначалната заявка. Когато формирате отговор на следващата си заявка, системата може да предпочете страници с описание на филмите, в името на които са думи от текста на заявката.
  - РегионМного е важно при обработката на търговски искания, свързани с придобиването на стоки и услуги от местните доставчици. Ако се интересувате от продажби и отстъпки и сте в Москва, тогава най-вероятно не сте интересно, какви акции се държат по тази тема в Санкт Петербург, ако не сте посочили това изрично в текста на заявката. Преди всичко информацията за продажбите в Москва трябва да се появи в резултатите от търсенето. По този начин съвременните търсачки споделят искания за изгодност и геонезависим. Най-вероятно, ако търсачката реши, че вашата заявка е гео-зависима, тя автоматично добавя знак на регион, който се опитва да определи информацията за вашия интернет доставчик.
  - Време. Понякога търсачките трябва да бъдат анализирани, когато са настъпили събитията, описани на страницата. В края на краищата, информацията е постоянно остаряла и потребителят се нуждае от всички връзки към последните новини, текущите прогнози и съобщения за събития, които все още не са завършили или трябва да дойдат в бъдеще. Разбираемо е, че уместността на страницата зависи от времето и го сравнява с момента на изпълнение на заявката, също изисква търсачката за комплекса от интелигентност.
  След това търсачката търси най-близкото значение ключова заявка В индекса и формите води до сортиране на справки в низходящ ред на тяхната значимост. Всяка ключова заявка в индекса съответства на съответния отговор на отделни страници. Не за всяка комбинация от букви и номера, системата започва нова ключова заявка и я прави на базата на честотния анализ на определени потребителски искания. Търсачката може също така да разбърква рейтингите от различни ключови заявки в резултатите от търсенето, ако счита, че е необходимо за потребителя.

Общи принципи на търсачката

Необходимо е да се разбере, че услугите за търсене в интернет са много доста печеливш бизнес. В детайлите, поради които компаниите като Google и Yandex не могат да влязат, тъй като основната част от печалбите им са доходите им от контекстната реклама. И след като търсенето в интернет е изключително печеливш бизнес, тогава конкуренцията между такива компании е много сериозна. Какво определя конкурентоспособността на пазара на онлайн търсене? Отговорът е качеството на търсачката. Логично е, че колкото по-висок е, толкова по-нови потребители се появяват в системата, и колкото по-ценни на страниците на този сам за контекстната реклама. Разработчиците на търсещи машини изразходват големи усилия, насочени към "почистване" на резултатите от резултатите от търсенето от различни видове информационни отломки, наречени спам (спам). По-подробно за това как това е направено, ще бъде разказано в отделен статия и тук ще дам общите принципи на поведението на търсачката, формулирана под формата на заключения по време на гореизложеното.

Търсачката, представена от нейните паяци и робот, непрекъснато сканира интернет за появата на нови и актуализации на съществуващите страници, тъй като неподходящата информация е оценена по-долу.

Търсачката периодично актуализира класирането на ресурсите чрез тяхното значение за ключовите запитвания, тъй като новите страници постоянно се появяват в индекса. Този процес се нарича актуализация (актуализация) резултати от търсенето.

Благодарение на огромните количества информация, публикувана в световните уеб и ограничени ресурси на самия търсачка, търсачката винаги се опитва да се качи само най-много (в неговото мнение). В нейния арсенал има всички видове филтри, които отрязват много ненужно вече на сцената на индексиране или изхвърлят спам от индекса, базиран на резултатите от резултатите от търсенето.

Съвременните търсачки по време на анализа на заявката се опитват не само да вземат предвид текста на най-търсенето, но и върху околната среда: контекста и предпочитанията на потребителя, който преди това е бил казано, както и времето за искане, регион и много повече.

Не само вътрешните параметри (структура, съдържание), но и външни параметри, като връзки към страницата от други сайтове и поведението на потребителя, засягат значението на определена страница.

Работата на търсачките непрекъснато се подобрява. Идеалната работа на търсачката (за дадено лице) е възможна само ако всички решения относно индексирането и класирането ще вземат Комисията, състояща се от голям брой специалисти от всички области и насоки на човешката дейност. Тъй като това е нереалистично, Комисията заменя експертни системи, евристични алгоритми за търсене и други елементи на изкуствения интелект. Вероятно работата на всички тези подсистема може също да даде по-адекватни резултати, ако е възможно да се обработват абсолютно всички налични данни в интернет, но е практически невъзможно. Несъвършена изкуствена интелигентност и ограничени ресурси - две основни причини за факта, че резултатите от резултатите от търсенето не винаги са потребители, но всичко това се лекува. За днес, по мое мнение, работата на най-известните и големи търсачки е съобразена с нуждите и очакванията на техните потребители.

Здравейте, скъпи читатели!

Търсачките в световното интернет пространство в момента са доста много. Всеки от тях има свои собствени алгоритми индексиране и класиране на сайтове, но като цяло принципът на работа на търсачките е доста сходен.

Познаването на начина, по който търсачката работи в условията на бързо растяща конкуренция, са значително предимство в популяризирането не само на търговски, но и информационни сайтове и блогове. Тези знания помагат за изграждането на ефективна стратегия за оптимизиране на обекта и с по-малко усилия да се вкарват в най-големите издания в рекламни групи.

Принципи на търсачките

Значението на работата на оптимизатора е да "създаде" напреганите страници за алгоритми за търсене и по този начин да помогне на тези страници да постигнат високи позиции по определени искания. Но преди започване на работа по оптимизацията на сайта или блога е необходимо най-малкостествено да се разберат характеристиките на търсачките, за да се разбере как могат да реагират на оптимизатора на действие.

Разбира се, подробните подробности за формирането на резултатите от търсенето са информацията, която търсачките не са разкрити. Въпреки това, за правилните усилия за постигане на достатъчно разбиране на основните принципи, на които работят търсачките.

Методи за търсене на информация

Двата основни метода, използвани днес от търсачките, се отличават с подхода за търсене.

Алгоритъм за директно търсенеКоя включва картографиране към всеки от документите, съхранявани в базата данни за търсачките, ключовата фраза (потребителска заявка) е доста надежден метод, който ви позволява да намерите цялата необходима информация. Недостатъкът на този метод е, че при търсене в големи масиви данни времето, необходимо за намиране на отговор, е доста голямо.
Алгоритъм на обратните индексиКогато ключовата фраза е сравнена със списък с документи, в които е налице, е удобно, когато взаимодействате с бази данни, съдържащи десетки и стотици милиони страници. С този подход търсенето не се извършва на всички документи, но само на специални файлове, включително списъци с думи, съдържащи се на страниците на сайтовете. Всяка дума в подобен списък е придружена от индикация за координатите на позициите, където се случва, и други параметри. Това е този метод, който се прилага днес в работата на такива известни търсачки като Yandex и Google.

Тук трябва да се отбележи, че при достъпа до потребителя към лентата за търсене на браузъра, търсенето не се прави директно в интернет, но в предварително сглобени, съхранени и текущи бази данни, съдържащи информацията, обработена от търсачките (страници на сайта) . Бързото образуване на резултатите от търсенето може да се дължи на обратни индекси.

Съдържанието на текста на страниците (директни индекси) чрез търсачки също се записват и се използват при автоматично формиране на откъси от най-подходящото искане за текстови фрагменти.

Модел на математически класиране

За да се ускори търсенето и опростяване на процеса на формиране на емитирането, най-отговорното искане на потребителя се прилага определен математически модел. Задачата на този математически модел е да намерите желаните страници на обратната индексна база, оценка на степента на съответствие с заявката и разпределението в низходящ ред на уместност.

Просто намирането на желаната фраза на страницата не е достатъчно. Когато определяте търсачките, се изчислява изчисляването на теглото на документа относно заявката за потребителя. За всяко заявление този параметър се изчислява въз основа на следните данни: честотата на използване на страницата на страницата и коефициентът, който отразява колко рядко се намира същата дума в други документи на базата данни за търсачките. Продукта на тези две стойности и съответства на теглото на документа.

Разбира се, представеният алгоритъм е много опростен, тъй като съществуват редица други допълнителни коефициенти, използвани в изчисленията, на разположение на търсачките, но не се променя от това. Колкото по-често се намира отделна дума от искането на потребителя във всеки документ, толкова по-висока е теглото на последния. В същото време съдържанието на страницата на страницата се признава като спам, ако са превишени определени граници, които са различни за всяко искане.

Основни функции за търсачки

Всички съществуващи системи за търсене са призовани да изпълняват няколко важни функции: търсене на информация, индексиране, качествена оценка, подходящо класиране и формиране на резултатите от търсенето. Приоритетната задача на всяка търсачка е да предостави на потребителя информация, която той търси, като точен отговор на конкретно искане.

Тъй като повечето от потребителите нямат представа за това как търсачките работят в интернет и способността да се обучават потребителите на "правилното" търсене, са много ограничени (например, съвети за търсене), разработчиците са принудени да подобрят самата търсене. Последното предполага създаването на алгоритми и принципи за работа на търсачките, които ви позволяват да намерите необходимата информация, независимо от това как е формулирана "правилно" заявка за търсене.

Сканиране

Той проследява промени в вече индексирани документи и търсене на нови страници, които могат да бъдат представени в резултатите от издаването на потребители за искания. Сканиращите ресурси на интернет търсачките се извършват чрез специализирани програми, наречени паяци или роботи.

Сканирането на интернет ресурсите и събирането на данни се произвежда автоматично от ботове за търсене. След първото посещение в сайта и го включете в базата данни за търсене, роботите започват да посещават периодично този сайт за проследяване и поправяне на промените, настъпили в съдържанието.

Тъй като броят на развиващите се ресурси в интернет е голям, и нови сайтове се появяват ежедневно, описаният процес не спира за минута. Такъв принцип на работа на търсачките в интернет позволява винаги да имат актуална информация за наличните уебсайтове в мрежата и тяхното съдържание.

Основната задача на робота за търсене е търсенето на нови данни и прехвърлянето на тяхната търсачка за по-нататъшна обработка.

Индексиране

Търсачката е в състояние да намери данни само на сайтове, представени в базата данни - с други думи, индексирани. На тази стъпка, търсачката трябва да определи дали информацията, която открива информация, трябва да бъде въведена в базата данни и, ако влезете, в коя от дяловете. Този процес се извършва и автоматично.

Смята се, че Google индексира почти цялата информация, налична в мрежата, Yandex за индексиране на съдържанието е подходящо по-селективно и не толкова бързо. И двата детската работа на Giants в полза на потребителя, но общите принципи на работата на Google и Yandex са малко по-различни, тъй като те се основават на уникалното, което съставлява всяка система от софтуерни решения.

Общите системи за търсене е, че процесът на индексиране на всички нови ресурси отнема по-дълго време от индексирането на новото съдържание на добре познатите системни сайтове. Информацията се появява на сайтовете, доверието на търсачките, към които силно попада в индекса, е практически незабавно.

Обшивка

Класирането е оценка на алгоритмите за търсачките за значението на индексираните данни и ги изгражда в съответствие с факторите, характерни за тази търсачка. Получената информация се обработва, за да се формира резултати от търсенето през спектъра на исканията на потребителите. Каква информация ще бъде представена в резултатите от търсенето по-горе, и колко по-ниска е напълно определена от това как избраната търсачка и нейните алгоритми работят.

Сайтовете, които са в базата данни на търсачката, се разпределят по темите и групите заявки. За всяка група запитване се формира предварителна емисия, подложена на по-нататъшна корекция. Позициите на повечето сайтове се променят след всяка актуализация на емисионните актуализации, които Google се срещат ежедневно, в търсенето на Yandex - веднъж няколко дни.

Човек като асистент в борбата за качеството на издаване

Реалността е, че дори най-напредналите системи за търсене, като Yandex и Google, все още трябва да помогнат на дадено лице да формира емисия, която отговаря на приетите стандарти за качество. Когато алгоритъмът за търсене не е добре задействан, резултатите се регулират ръчно - чрез оценка на съдържанието на страницата при множество критерии.

Многобройната армия от специално обучени хора от различни страни - модератори (оценители) на търсачките - трябва да извършите много работа по проверка на съответствието на страниците на сайта до потребителски заявки, филтриране на издаване от спам и забранено съдържание (текстове, изображения, видео). Работата на оценителите ви позволява да направите по-чист за емисия и да допринасяте за по-нататъшното развитие на алгоритмите за търсене на самообучение.

Заключение

С развитието на интернет и постепенната промяна в стандартите и представяне на съдържанието, подходът за търсене също се променя, процесите на индексиране и класиране Информация, използвани от алгоритмите, се подобряват, се появяват нови класационни фактори. Всичко това позволява на търсачките да формират най-високо качество и адекватни потребителски заявки, но в същото време усложняват живота на уебмастърите и специалистите, ангажирани в популяризирането на сайтове.

В коментарите, в статията, предлагам да се говори за това коя от основните търсачки на Runet - Yandex или Google, според вас, работи по-добре, предоставяйки на потребителя по-добро търсене и защо.

Са една от основните и най-важни интернет услуги.

С помощта на търсачките милиардите интернет потребители намират необходимата информация за себе си.

Какво е търсачка?

Търсачката е софтуер и хардуер комплекс, който използва специални алгоритми за обработка на огромно количество информация за най-различни сайтове, за тяхното съдържание до всяка страница.

Търсачката, от гледна точка на простите посетители, е такъв интелигентен сайт, който съдържа много информация и дава отговори на потребителски искания.

Потребителите на интернет използват различни търсачки в различни страни. В англоговорящия сегмент на интернет най-популярната е търсачката на Google.

Търсачки в Runet

В Русия повече от половината потребители предпочитат системата за търсене на Yandex, а Google представлява около 35% от исканията. Останалите потребители използват Rambler, Mail.ru, Nigma и други услуги.

В Украйна около 60% от потребителите използват Google, делът на Yandex представлява малко повече от 25% от преработените искания.

Ето защо, когато насърчавате сайтове в Runet, специалистите се опитват да популяризират сайта, като се фокусират върху търсачките Yandex и Google.

Задачи за търсачките

За да се максимизират точно да отговарят на въпроси от посетители, търсачките трябва да изпълняват следните задачи:

Бързо и ефективно събиране на информация за различни страници от различни сайтове.
Процесира информация за тези страници и определя какъв вид искане или искания те съответстват.
И издаване на резултати от търсенето в отговор на потребителски заявки.

Компоненти на търсачките

Търсачките са сложен софтуерен пакет, който се състои от следните основни блокове:

Събиране на данни.
Индексиране.
Изчисление.
Варинг.

Това разделение е условно, тъй като работата на различни търсачки е малко по-различна един от друг.

1. Събиране на данни

На този етап има предизвикателство да се намерят нови документи, да изготви план за техните посещения и сканиране.

Трябва да се предоставят уебмастъри за търсачките за появата на нови материали, използвайки адреса на страницата на страницата в Adducerka или за управление на съобщенията за социалните мрежи.

Лично аз използвам последния и мисля, че това е достатъчно.

Коментар. Малко разсеян и разказва за ефективността на поставянето на съобщения в социалните мрежи върху степента на индексиране на нови страници на обекта.

Използвам да контролирам и поправя уникалността на текста на страниците на вашия сайт text.ru.

Той качествено проверява уникалността, го прави и дава възможност да се постави уникален банер на страниците на вашия сайт.

Но понякога на тази услуга има голяма обработка. Имах няколко случая, когато не очаквах проверка на уникалност, публикува статия на сайта и го караше в социалните мрежи.

Ако проверката на уникалността се забави за около час и повече, процентът на уникалността винаги е равен на 0%. Това означава, че за непълен час след разположение страницата вече е индексирана и изброена в базата данни на търсачките.

2. индексация

Търсачките, събирането на данни на нови уеб страници, поставете ги в базата данни. В този случай се формира индекс, т.е. ключът за бързо достъп до данните на тази страница, ако възникне такава необходимост.

3. Изчисляване

След като въведете базата данни на страницата, нашите сайтове преминават към етапа на изчисляване на различни параметри и индикатори.

Колко от тези показатели и как се изчисляват да се каже точно, с изключение на разработчиците на алгоритми на търсачките, никой не може.

4. Класиране

След това, въз основа на изчислените параметри и индикатори, е решено да се определи уместността на страницата с тези искания и класирането на тази страница.

Това ще бъде важно за бързото и качествено формиране на страницата с резултати от търсенето по тези искания.

Търсачките образуват отговори на потребителски заявки и формират резултати за тях като страница с резултати от търсенето.

Трябва да се отбележи, че алгоритмите за обработка на данни на страници, формирането на показатели и методи за класиране непрекъснато се подобряват. Промяна на приоритетите, за които класирането.
Търсачките се стремят да отговорят на исканията на потребителите възможно най-точно, като се опитват да вземат предвид естеството на искането, интересите на даден потребител, мястото му на пребиваване, възраст, пол, навици, наклонности.

Най-популярната уеб услуга на модерността е търсачката. Всичко е обяснено тук, защото тези времена, когато представители на първите интернет потребители могат да наблюдават нови елементи в мрежата отдавна.

Информацията се появява и натрупва толкова много, че лицето е станало много трудно да намери точно този, който той ще е необходим. Представете си, сякаш търсенето в интернет, ако обикновен потребител ще трябва да търси информация, да не разбира къде. Не е, че не разбираме къде, защото не можете да намерите много информация за ръчно търсене.

Търсачката, какво е това?

Е, ако потребителят вече е известен да знае сайтове, на които е възможно да има необходимата информация, но какво да направите друго? За да се улесни живота на дадено лице при намирането на необходимата информация в интернет и изобретил търсачките или просто търсачките. Търсачката изпълнява една много важна функция, без която интернет няма да му хареса, както виждаме - това е търсене на информация в мрежата.

Система за търсене - Това е специален уеб възел или различен сайт, който предоставя на потребителите хипервръзка на страници, сайтове, които отговарят на зададената заявка за търсене.

За да бъдете малко по-точни, потърсете информация в интернет, която се извършва от софтуер и хардуерна функционална настройка и уеб интерфейс за взаимодействие с потребители.

За да си взаимодействат човек с търсачка и е създаден уеб интерфейс, т.е. видимата и разбираема черупка. Този подход на разработчиците на развитие улеснява търсенето на много хора. Като правило, той е в интернет, че търсенето се извършва с помощта на търсачките, но също така има системи за търсене на FTP сървъри, отделни видове стоки в World Wide Web или информация за новини или други указания за търсене.

Търсенето може да се извърши не само чрез текстово съдържание на сайтове, но и от други видове информация, която човек може да търси: изображения, видеоклипове, звукови файлове и др.

Как е търсенето на търсачката?

Самото търсене е в интернет, точно същото като гледането на уеб сайтове е възможно интернет браузър на интернет браузъра. Само след като потребителят поиска от заявката си в лентата за търсене, самото търсене е директно.

Всяка търсачка съдържа софтуерна част, върху която се основава цялата търсачка, тя се нарича търсачка - това е софтуерен пакет и осигурява възможност за търсене на информация. След като се обърнете към търсачката, формирането на заявката за търсене на човек и я въведете в низа за търсене, търсачката генерира страница със списък с резултати от търсенето, най-подходящият, според търсачката тук, са разположени по-горе.

Съответствие на търсенето - търсене на най-отговорните услуги на потребителските материали и местоположението на хипервръзката върху тях на страницата за издаване с по-точни резултати над другата. Самото разпространение се нарича класация на сайтове.

Как се подготвя търсачката за издаване на вашите материали и как се намира името на търсачката? Събирането на информация в мрежата допринася уникално за всяка система за търсене на робот или различен бот, който също има редица други синоними като робот или паяк, а самата система за търсене може да бъде разделена на три етапа:

Към първата стъпка от работата на търсачката можете да припишете сайтове за сканиране в глобалната мрежа и да събирате собствени копия на уеб страници. Това формира огромен брой все още не обработени и не са подходящи информация за резултатите от търсенето.

Вторият етап на търсачката се свежда до привеждане в ред на получените по-рано, на първия етап от информацията от сайтове. Това сортиране се произвежда, което за най-малкото време благоприятно благоприятства най-висококачественото търсене, което потребителите всъщност чакат за търсачката. Етапът се нарича индексиране, това означава, че страниците вече са подготвени за екстрадиция, а текущата база ще се счита за индекс.

Само третият етап и причинява резултатите от търсенето след получаване на заявка от своя клиент, базирана на ключ или за ключови думи, посочени в искането. Това допринася за подбора на най-подходящото искане за информация и последващо издаване. Тъй като информация, много, много, търсачката изпълнява класиране в съответствие с алгоритмите си.
Най-добрата търсачка е тази, която може да предостави най-правилно отговора на искането на потребителя. Но тук те могат да посрещнат резултатите, които са били повлияни от хората, които се интересуват от популяризирането на сайта си, такива сайтове не винаги, но често се появяват в резултатите от търсенето, но не и дълго време.

Въпреки че световните лидери в много региони са дефинирани, търсачките продължават да развиват висококачественото си търсене. Колкото по-добре ще предоставят, толкова повече хора ще го използват.

Как да използвате търсачката?

Какво е търсачката и как работи вече разбираемо, но как да го използвате правилно? Повечето сайтове винаги представят низ за търсене и до него е бутонът за намиране или търсене. Заявката се въвежда в низ за търсене, след което трябва да натиснете бутона за търсене или как се случва по-често, натиснете клавиша Enter на клавиатурата и за няколко секунди получавате резултат от заявката като списък.

Но за да получите правилния отговор на искането за търсене, не винаги е възможно да получите за първи път. За да се търси желаното не е станало болезнено, е необходимо да композирате правилно заявката за търсене и следвайте препоръките по-долу.

Направете правилно заявка за търсене

След това ще покаже съвети как да използвате търсачката. След някои трикове и правила, когато търсенето на информация в търсачката ще даде възможност да получат желания резултат много по-бързо. Следвайте тези препоръки:

Компетентното писане на думи осигурява максималния брой съвпадения с желания информационен обект (най-малко съвременните търсачки вече са се научили да коригират правописни грешки, но не е необходимо да се пренебрегват този съвет).
Чрез използването на синоними в заявката можете да достигнете до по-широк диапазон на търсене.
Понякога променянето на думата в текста на заявката може да доведе до по-голям резултат. Заявете заявка.
Насърчаване на видове към искането, използвайте точното влизане на фрази, за да определите основната същност на търсенето.
Експериментирайте с ключови думи. Използването на ключови думи и фрази може да помогне за идентифициране на основната същност и търсачката ще даде по-подходящ резултат.

Така че такава търсачка е нищо друго освен възможността да се намери информация за интереси и обикновено е напълно свободна да я използва, да научи нещо, да разбере нещо или да направи правилното заключение за себе си. Мнозина вече не представляват живота си без гласово търсене, в което текстът не трябва да печели, трябва само да произнасяте заявката си, а устройството за въвеждане на микрофона е тук. Всичко това показва постоянно развитие на технологиите за търсене в интернет и необходимостта от тях.