Робота пошукових систем: загальні принципи роботи пошукових систем. Як працюють пошукові системи - сніппети, алгоритм зворотного пошуку, індексація сторінок і особливості роботи Яндекса Принцип роботи пошукової системи

Добрий день, шановні читачі мого сео блогу . Ця стаття про те, як працює пошукова система Яндекс , Які вона використовує технології та алгоритми для ранжирування сайтів, що робить для підготовки відповіді користувачам. Багато хто знає, що цей флагман російського пошуку задає тон в Рунеті, володіє найбільшою базою даних в Євразії, оперує контентом більш ніж мільярда сторінок, знає відповідь на будь-яке питання. За даними Liveinternet за серпень 2012 року, частка Яндекса в Росії становить 60,5%. Місячна аудиторія порталу - 48,9 мільйонів чоловік. Але найголовніше, для нас, блогерів в тому, як пошукова система отримує наші запити, як їх обробляє і який результат виходить на виході. З одного боку, знаючи і розуміючи цю інформацію, нам простіше користуватися всіма ресурсами Яндекса, з іншого боку - легше просувати наші блоги. Тому, пропоную разом зі мною подивитися найважливіші технології кращої пошукової системи Рунета.

Коли користувач Інтернету вперше хоче звернутися за інформацією до пошукової системи, у нього може виникнути одне питання: «Як відбувається пошук?» Але коли він її отримує, найчастіше це питання змінюється на інший: «Чому так швидко?» І дійсно, чому пошук якогось файлу на комп'ютері займає 20 секунд, а результат запиту з усієї мережі комп'ютерів по всьому світу з'являється через секунду? Найцікавіше, що перші два питання (як відбувається пошук і чому 1 секунда) можуть бути в одній відповіді - пошукова система заздалегідь підготувалася до запиту користувача.

Щоб зрозуміти принцип роботи Яндекса, як і інший пошукової системи, проведемо аналогію з телефонним довідником. Щоб знайти будь-який номер телефону, необхідно знати прізвище абонента і будь-який пошук займає в такому випадку максимум хвилину, тому що всі сторінки довідника - це суцільний алфавітний покажчик. А ось уявіть собі, якби пошук йшов за іншим варіантом, де номери телефонів були б упорядковані по самим номерами. Після таких пошуків, які вже затягнуться на більш тривалий час, цифри перед очима шукав будуть ще дуже довго стояти. 🙂

Так і пошукова система розкладає всю інформацію з Інтернету в зручному для неї вигляді. І найголовніше, всі ці дані заздалегідь кладуться в її довідник, до приходу відвідувача зі своїми запитами. Тобто, коли ми задаємо Яндексу питання, він вже знає наш відповідь. І видає нам його через секунду. Але ця секунда включає в себе ряд найважливіших процесів, які ми зараз детально розглянемо.

індексування Інтернету

Яндекс ру збирає в мережі Інтернет всю інформацію, до якої може дотягнутися. За допомогою спеціального обладнання, отсматрівать весь контент, в тому числі і зображення по візуальних параметрами. Займається таким збором пошукова машина, а сам процес збору і підготовки даних називається індексуванням. В основу такої машини входить комп'ютерна система, яка інакше називається пошуковий робот. Він регулярно обходить проіндексовані сайти, перевіряє їх на наявність нового контенту, а також сканує Інтернет в пошуках віддалених сторінок. Якщо він виявляє, що якась така сторінка більше не існує або закрита від індексації, то видаляє її з пошуку.

Як пошуковий робот знаходить нові сайти? По-перше, завдяки посиланням з інших сайтів. Тому що якщо на новий веб-ресурс поставлена \u200b\u200bпосилання з вже проіндексованого сайту, то при наступному відвідуванні другого, робот зайде в гості і до першого. По-друге, в вебмайстрів пошукача Яндекс є чудовий сервіс, в народі званий «аддурілку» (від словосполучення англійською мовою -addurl - додати адресу). У ньому можна внести адресу Вашого нового сайту, який через деякий час відвідає пошуковий робот. По-третє, за допомогою спеціальної програми «Яндекс.Бар» відстежується відвідування користувачів, які нею користуються. Відповідно, якщо людина потрапила на новий веб-ресурс, незабаром там з'явиться і робот.

Чи всі сторінки потрапляють в пошук? Кожен день індексуються мільйони сторінок. Серед них є сторінки різної якості, в яких може містяться різна інформація - від унікального контенту до суцільного сміття. Причому, як каже статистика, сміття в Інтернеті набагато більше. Кожен документ пошуковий робот аналізує за допомогою спеціальних алгоритмів. Він визначає, чи є у нього якась корисна інформація, чи зможе він відповісти на запит користувача. Якщо немає, то такі сторінки не беруть «в космонавти», якщо ж так, то він включається в пошук.

Після того, як робот відвідав сторінку і визначив її корисність, вона з'являється в сховище пошукової машини. Тут йде розбір будь-якого документа до самих основ, як кажуть майстри автоцентру - до гвинтиків. Сторінка очищається від html-розмітки, чистий текст проходить повну інвентаризацію - підраховується розташування кожного слова. В такому розібраному вигляді сторінка перетворюється в таблицю з цифрами і буквами, яку інакше називають індексом. Тепер, щоб не сталося з веб-ресурсом, в якому міститься ця сторінка, її остання копія завжди є в пошуку. Навіть якщо сайт вже не існує, зліпки його документів ще деякий час зберігаються в Інтернеті.

Кожен індекс разом з даними про типи документів, кодуванні, мовою разом з копіями складають пошукову базу . Вона періодично оновлюється, тому знаходиться на спеціальних серверах, за допомогою яких відбувається обробка запитів користувачів пошукової системи.

Як часто відбувається процес індексації? В першу чергу це залежить від типів сайтів. Веб-ресурс першого типу дуже часто змінює вміст своїх сторінок. Тобто, коли до цих сторінок кожен раз приходить пошуковий робот, вони кожен раз містять інший контент. За ним нічого наступного разу вже не вийде знайти, тому такі сайти не включаються в індекс. Другий тип сайтів - сховища даних, на сторінках яких періодично додаються посилання на документи для скачування. Контент такого сайту зазвичай не змінюється, тому його робот відвідує вкрай рідко. Інші сайти залежать від частоти оновлення матеріалу. Мається на увазі наступне - чим швидше з'являється новий контент на сайті, тим частіше приходить пошуковий робот. І пріоритет віддається в першу чергу найбільш важливим веб-ресурсів (новинний сайт на порядок важливіше, ніж будь-який блог, наприклад).

Індексування дозволяє виконати першу функцію пошукової системи - збір інформації на нових сторінках в мережі Інтернет. Але у Яндекса є і друга функція - пошук відповіді на запит користувача в уже підготовленої пошуковій базі.

Яндекс готує відповідь

Процесом обробки запиту і видачею релевантних відповідей займається комп'ютерна система «метапоіска» . Для своєї роботи спочатку вона збирає всю вступну інформацію: з якого регіону було здійснено запит, до якого класу належить, чи є помилки в запиті і т.д. Після такої обробки метапошук перевіряє, чи є в базі точно такі ж запити з такими ж параметрами. Якщо відповідь позитивна, то система показує користувачеві заздалегідь збережені результати. Якщо ж такого питання в базі не існує, метапошук звертається пошуковій базі, в якій містяться дані індексу.

І ось тут відбуваються дивні речі. Уявіть собі, що існує один суперпотужний комп'ютер, який зберігає в собі весь оброблений пошуковими роботами Інтернет. Користувач задає запит і в осередках пам'яті починається пошук всіх документів, причетних до запиту. Відповідь знайдений і всі задоволені. Але візьмемо інший випадок, коли з'являється дуже багато запитів, що містять в своєму тілі однакові слова. Система повинна кожен раз пройтися по одним і тим же осередків пам'яті, що може збільшити час на обробку даних в рази. Відповідно, збільшується час, що може привести до втрати користувача - він звернеться за допомогою до іншої пошукової системи.

Щоб таких затримок не було, всі копії в індексі сайтів розподілені по різних комп'ютерів. Після передачі запиту, метапошук дає команду таким серверам шукати свій шматочок з текстом. Після чого, всі дані від цих машин повертаються в центральний комп'ютер, він об'єднує всі отримані результати і видає користувачеві першу десятку найкращих відповідей. З такою технологією відразу вбивається двох зайців: в кілька разів зменшується час пошуку (відповідь виходить за частки секунди) і завдяки збільшенню майданчиків дублюється інформація (дані не втрачаються через раптові поломок). Самі комп'ютери з дублюючої інформацією складають дата-центр - це кімната з серверами.

Коли користувач пошукової системи задає свій запит, в 20-ти випадках з 100 виходять неоднозначні цілі в питанні. Наприклад, якщо він пише в рядку пошуку слово «Наполеон», то ще не відомо, яку відповідь очікує - рецепт торта або біографія великого полководця. Або фраза «Брати Грімм» - казки, фільми, музична група. Щоб такий можливий віяло цілей звузити до конкретних відповідей в Яндексі існує спеціальна технологія З п е к т р. Вона враховує потреби користувачів, використовуючи статистику пошукових запитів. З усіх питань, заданих в Яндексі відвідувачами, Спектр виділяє в них різні об'єкти (імена людей, назви книг, моделі машин і т.д.) Ці об'єкти розподілені по деяким категоріям. На сьогоднішній момент таких категорій налічується більше 60-ти. За допомогою них пошукова система має в своїй базі різних значень слів в запитах користувачів. Цікаво, що ці категорії періодично перевіряються (аналіз відбувається пару раз в тиждень), що дозволяє Яндексу більш точно давати відповіді на поставлені питання.

На базі технології Спектр Яндекс організував діалогові підказки. Вони з'являються під пошуковим рядком, в якій користувач набирає свій неоднозначний запит. У цьому рядку відображені категорії, до яких може відноситься об'єкт питання. Від вибору користувачем такої категорії залежать подальші результати пошуку.

Від 15 до 30% всіх користувачів пошукової системи Яндекс бажають отримати тільки місцеву інформацію (дані того регіону, в якому вони живуть). Наприклад, про нові фільми в кінотеатрах свого міста. Тому відповідь на такий запит повинен бути різним для кожного регіону. У зв'язку з цим, Яндекс використовує свою технологію пошуку з урахуванням регіонів . Наприклад, ось такі відповіді можуть отримати жителі, які шукають репертуар фільмів в своєму кінотеатрі «Жовтень»:

А ось такий результат отримають жителі міста Ставрополь на той же запит:

Регіон користувача визначається в першу чергу по його ip-адресу. Іноді ці дані не точні, тому що ряд провайдерів можуть відразу працювати на кілька регіонів, а значить і змінювати ip-адреси за потрібне користувачам. В принципі, якщо таке трапилося з Вами, Ви легко можете поміняти в налаштуваннях в пошуковій системі свій регіон. Він зазначений у правому верхньому кутку на сторінці видачі результатів. Змінити його можна.

Пошукова система Яндекс ру - результати відповіді

Коли метапоіска підготував відповідь, пошукова система Яндекс має видати його на сторінці з результатами. Вона являє собою перелік посилань на знайдені документи з невеликою інформацією по кожному. Завдання технології видачі результатів - максимально інформативно надати користувачеві самі релевантні відповіді. Шаблон однієї такої посилання виглядає наступним чином:

Розглянемо цю форму результату більш детально. для заголовка результату пошуку Яндекс часто використовує назву заголовка сторінки (те, що оптимізатори прописують в тезі title). Якщо ж його немає, то тут з'являються слова з назви статті або поста. Якщо текст заголовка великий, пошукова система ставить в це поле його фрагмент, який найбільше релевантний до заданому запиту.

Дуже рідко, але буває так, що заголовок не відповідає змісту запиту. В такому випадку Яндекс формує свій заголовок результату пошуку, використовуючи текст в статті або пості. Він обов'язково буде мати слова запиту.

для сниппета пошукова система використовує весь текст на сторінці. Вона вибирає всі фрагменти, де присутня відповідь на запит, а потім вибирає самий релевантний з них і вставляє в поле форми посилання на документ. Завдяки такому підходу, грамотний оптимізатор може після побаченого сниппета його переробити, тим самим покращивши привабливість посилання.

Для кращого сприйняття результату на запит користувача, заголовки оформляються як посилання в тексті (виділення синім кольором з підкресленням). Для привабливості веб-ресурсу і його впізнаваності додається фавікон - маленький фірмовий значок сайту. Він з'являється зліва від тексту в першому рядку перед заголовком. Всі слова, які входили в запит у відповіді теж виділені жирним шрифтом для зручності сприйняття.

Останнім часом в сниппет пошукова система Яндекса додає різну інформацію, яка допоможе користувачеві ще швидше і точніше знайти свою відповідь. Наприклад, якщо користувач в своєму запиті пише назва будь-якої організації, то в сніпеті Яндекс додасть адреса її, контактні телефони та посилання на місце розташування в географічних картах. Якщо пошуковій системі знайома структура сайту, в якому є документ з відповіддю для користувача, він її обов'язково покаже. Плюс до цього Яндекс тут же може додати в сниппет найбільш відвідувані сторінки такого веб-ресурсу, щоб при бажанні відвідувач зміг відразу перейти в потрібний йому розділ, економлячи свій час.

Є сніппети, які містять в собі ціну будь-якого товару для інтернет-магазину, рейтинг готелю чи ресторану у вигляді зірочок, інша цікава інформація з різними цифрами про об'єктах в документах пошуку. Завдання такої інформації - дати повний перелік даних про тих предметах або об'єктах, які цікаві користувачеві.

В цілому вже з різними прикладами сторінка з відповідями буде виглядати так:

Ранжування і асесори

У завдання Яндекса входить не тільки пошук всіх можливих варіантів відповіді, але і підбір найкращих (релевантних). Адже користувач не буде ритися у всіх посиланнях, які йому надасть в якості результату пошуків Яндекс. Процес упорядкування результатів пошуку називається ранжированием . Тобто саме ранжування визначає якість пропонованих відповідей.

Є правила, за якими Яндекс визначає релевантні сторінки:

зниження в позиціях на сторінці з результатами чекають сайти, які погіршують якість пошуку. Зазвичай це такі веб-ресурси, власники яких намагаються обдурити пошукову систему. Наприклад, це сайти зі сторінками, на яких знаходиться безглуздий або невидимий текст. Звичайно, він бачимо і зрозумілий пошуковому роботу, але не відвідувачеві, що читає цей документ. Або сайти, які при переході на засланні в зоні видачі відразу переводять користувача зовсім на інший сайт.
не потрапляють в видачу результатів або сильно знижуються в ранжируванні сайти, що містять в собі еротичний контент. Це пов'язано з тим, що часто такі веб-ресурси використовують агресивні методи просування.
заражені вірусами сайти не знижуються у видачі і не виключаються з результатів пошуку - в цьому випадку користувач інформується про небезпеку за допомогою спеціального значка. Це пов'язано з тим, що Яндекс передбачає, що на таких веб-ресурсах можуть перебувати важливі документи за запитом користувача пошукової системи.

Наприклад, так буде ранжувати Яндекс сайти за запитом «яблуко»:

Крім чинників ранжирування Яндекс використовує спеціальні зразки з запитами і відповідями на них, які користувачі пошукової системи вважають найбільш підходящими. Такі зразки жодна машина не зможе зробити на даний момент - це прерогатива людини. В Яндексі такі фахівці називаються асессорами . В їх завдання входить повний аналіз всіх документів пошуку і оцінка відповідей на задані запити. Вони вибирають кращі відповіді і складають спеціальну навчальну вибірку. У ній пошукова машина бачить залежність між релевантними сторінками і їх властивостями. Маючи таку інформацію Яндекс може підібрати для кожного запиту оптимальну формулу ранжирування. Метод побудови такої формули називається Матрикснет. Плюс цієї системи в тому, що вона стійка до перенавчання, що дозволяє враховувати велику кількість чинників ранжирування, не збільшуючи кількість непотрібних оцінок і закономірностей.

На завершення мого поста хочу показати вам цікаву статистику, зібрану пошуковою системою Яндекса в процесі своєї роботи.

1. Популярність особистих імен в Росії і російських містах (Дані взяті з облікових записів блогерів і користувачів соціальних мереж в березні 2012 року).

2. Статистика з різними типами інтересів.

Мій пост про те, як працює пошукова система Яндекс завершено.

У 1863 році великий письменник Жюль Верн створив чергову свою книжку «Париж в ХХ столітті». У ній він детально описав метро, \u200b\u200bавтомобіль, електричний стілець, комп'ютер і навіть мережу Інтернет. Однак видавець відмовився друкувати книгу і вона пролежала більше 120 років, поки її не знайшов правнук Жюля Верна в 1989 році. Видано була книга в 1994года.

Пошукова система або просто "пошуковик" - це, що здійснює пошук інтернет сторінок відповідно до запиту користувача. Найвідоміша пошукова система в світі - це Google, найпопулярніша в Росії - Яндекс, а однією з найстаріших пошукових систем є Yahoo. В архітектурі пошукової системи можна виділити пошукову машину - ядро \u200b\u200bсистеми, представлене набором програмних модулів; базу даних або індекс, Що зберігає інформацію про всі відомі пошуковій системі інтернет ресурсах; і набір сайтів, що виявляють собою точки входу користувачів в систему (www.google.com, www.yandex.ru, ru.yahoo.com, і т.д.). Все це відповідає класичній трирівневої архітектурі інформаційних систем: є призначений для користувача інтерфейс, бізнес логіка, яка в даному випадку представлена \u200b\u200bреалізацією алгоритмів пошуку і база даних.

Специфіка пошуку в інтернеті

На перший погляд пошук в інтернеті мало чим відрізняється від звичайного інформаційного пошуку, наприклад, від обробки до бази даних або від завдання пошуку файлу на. Так вважали і розробники перших пошукових систем в інтернеті, але з часом вони усвідомили, що помилялися ...

Перша відмінність пошуку в інтернеті від звичайного полягає в тому, що алгоритм пошуку по тій же базі даних передбачає, що її структура заздалегідь відома пошуковій машині і автору запиту. В інтернеті, зі зрозумілих причин, це не так. Інтернет сторінки утворюють собою не структуру каталогу, а мережа, що також впливає на алгоритми пошуку, а формат даних, що розміщуються на інтернет ресурсах, ніким не контролюється.

Друга відмінність, як один з наслідків першого - це те, що запит подається не у вигляді набору значень параметрів (критеріїв пошуку), а у вигляді тексту, написаного людиною на природному для нього мовою. Таким чином, перед тим, як почати пошук потрібно ще зрозуміти, чого саме хоче автор запиту. Зауважу, зрозуміти не іншій людині, а обчислювальній машині.

Третя відмінність вже менш очевидне, але не менш важливе: в каталозі або базі даних всі елементи рівноправні. В інтернеті має місце конкуренція, а, отже, і поділ на більш "благонадійних постачальників інформації" та джерел, близьких за статусом до "інформаційного сміття". Так класифікують ресурси люди, і також до них відносяться пошукові машини.

І на завершення слід додати, що область пошуку - це мільярди сторінок, по кілька кілобайт і більш кожна. Близько десятка мільйонів сторінок додається щодня і стільки ж оновлюється. Все це представлено різними цифровими форматами. На жаль, навіть сучасні технології та ресурси, наявні в розпорядженні лідерів ринку пошукових послуг в інтернеті не дозволяють їм обробляти все це різноманіття "на льоту" і в повній обсязі.

З чого складається пошукова машина

В першу чергу важливо усвідомити ще одне і, напевно, найсуттєвіша відмінність між роботою пошукової машини в інтернеті і роботою будь-якої іншої інформаційної системи, що здійснює пошук в різного роду каталогах і базах даних. Пошукова інтернет машина не шукає інформацію серед того, що є в інтернеті на момент надходження запиту, а намагається сформувати відповідь на підставі власного інформаційного сховища - бази даних, званої індексом, де вона зберігає досьє на всі відомі їй і періодично його оновлює. Іншими словами, пошукова машина працює не з оригіналом, а з проекцією області допустимих значень пошуку. Всі останні зміни в інтернеті можуть відбитися в результатах пошуку тільки після того, як відповідні сторінки будуть проіндексовані - додані в індекс пошукової системи. Отже, пошукова система в першому наближенні складається з пошукової машини, бази даних або індексу (index) і точок входу в систему.

Тепер коротко про те, з чого складається пошукова машина:

Павук або спайдер (spider). Додаток, який займається скачуванням сторінок інтернет ресурсів. Нікуди павук не "заповзає" - він лише запитує вміст сторінок точно так же, як це робить звичайний інтернет браузер, відправляючи на сервер HTTP запит і отримуючи від нього відповідь. Після того, як вміст сторінки завантажено, воно відправляється індексатора і краулер, про яких розповідається далі.

Індексатор (indexer). Індексатор виробляє первинний аналіз вмісту завантаженої сторінки, виділяє основні частини (назва сторінки, опис, посилання, заголовки і т.д.) і розкладає все це по розділах пошукової бази даних - поміщає в індекс пошукової системи. Цей процес називають індексацією інтернет ресурсів, Звідси і назва самої підсистеми. На основі результатів первинного аналізу індексатор також може прийняти рішення, що сторінка взагалі "не варта" перебувати в індексі. Причини такого рішення можуть бути різними: сторінка не має назви, є точною копією іншого, вже наявної в індексі сторінки або містить посилання на заборонені законодавством ресурси.

Краулер (crawler). Це "тварина" покликане "повзати" по посиланнях, які є на завантаженої павуком сторінці. Краулер аналізує шляхи, що ведуть з поточної сторінки на інші розділи сайту, або на сторінки зовнішніх інтернет ресурсів і визначає подальший порядок обходу павуком ниток всесвітньої павутини. Саме краулер знаходить нові для пошукової машини сторінки і передає їх павуку. Робота краулер побудована на базі алгоритмів пошуку на графах в ширину і глибину.

Підсистема обробки та видачі результатів (Search Engine and Results Engine). Найважливіша частина будь-якої пошукової машини. Алгоритми роботи цієї підсистеми компанії розробники зберігають в суворій секретності, оскільки вони являють собою комерційну таємницю. Саме ця частина пошукової машини відповідає за адекватність відповіді пошукової системи на запит користувача. Тут можна виділити два основних компоненти:
- Підсистема ранжирування. ранжування - це сторінок інтернет сайтів відповідно до їх релевантність певному запиту. релевантність сторінки - це, в свою чергу, ступінь відповідності змісту сторінки змістом запиту, і цю величину пошукова машина визначає самостійно, виходячи з величезної кількості параметрів. Ранжування - ця найзагадковіша і спірна частина "штучного інтелекту" пошукової машини. На ранжування сторінки, крім її структури і вмісту (контенту) також впливають: кількість і якість посилань, що ведуть на дану сторінку з інших сайтів; вік домену самого сайту; характер поведінки користувачів, які переглядають сторінку і багато інших чинників.
- Підсистема видачі результатів. До завдань цієї підсистеми входить інтерпретація призначеного для користувача запиту, його переклад на мову структурованих запитів до індексу і формування сторінок результатів пошуку. Крім розбору самого тексту запиту, пошукова машина може також враховувати:
  - контекст запиту, що формується виходячи зі змісту раніше здійснених користувачем запитів. Наприклад, якщо користувач часто відвідує сайти на автомобільні теми, то на запит зі словом "Волга" або "Ока" він, ймовірно, хоче отримати інформацію про автомобілі цих марок, а не про те, звідки починають свою течію і куди впадають однойменні російські ріки. Це називається персоналізованих пошуком, Коли видача на один і той же запит для різних користувачів істотно відрізняється.
  - призначені для користувача переваги, Про які вона (пошукова машина) може "здогадуватися", аналізуючи обрані користувачем посилання на сторінках результатів пошуку. Це ще один спосіб скоригувати контекст запиту: користувач своїми діями як би підказує машині, що саме він хотів знайти. Як правило, пошукові машини в результати пошуку намагаються додавати сторінки, релевантні запиту, але які відносяться до досить різним сферам життя. Припустимо, користувач цікавиться кіно і тому часто вибирає посилання на сторінки з анонсами кіноновинок, навіть якщо ці сторінки не цілком доречні вихідного запиту. При формуванні відповіді на його черговий запит система може віддавати перевагу сторінкам з описом фільмів, у назві яких зустрічаються слова з тексту запиту.
  - регіон, Що дуже важливо при обробці комерційних запитів, пов'язаних з придбанням товарів і послуг у місцевих постачальників. Якщо ви цікавитеся розпродажами і знижками і перебуваєте в Москві, то вам, швидше за все, зовсім не цікаво, які акції на цю тему проводяться в Санкт-Петербурзі, якщо ви не вказали цього явно в тексті запиту. В першу чергу в результатах пошуку повинна з'явитися інформація про розпродажі в Москві. Таким чином, сучасні пошукові машини ділять запити на геозалежні і геонезавісімие. Швидше за все, якщо пошукова система вирішує, що ваш запит геозалежний, то вона автоматично додає до нього ознака регіону, який намагається визначити за інформацією про ваш інтернет провайдера.
  - час. Пошуковим машинам іноді доводиться аналізувати, коли мали місце події, описувані на сторінці. Адже інформація постійно застаріває, а користувачеві потрібні в першу чергу посилання на найостанніші новини, актуальні прогнози та анонси подій, які ще не завершилися або повинні наступити в майбутньому. Зрозуміти, що актуальність сторінки залежить від часу, і зіставити її з моментом виконання запиту також вимагає від пошукової машини неабиякої частки інтелекту.
  Далі, пошукова машина шукає найближчий за змістом ключовий запит в індексі і формує результати, сортуючи посилання в порядку убування їх релевантності. Кожному ключовому запиту в індексі відповідає окремий рейтинг сторінок, релевантних йому. Чи не на кожне поєднання букв і цифр система заводить новий ключовий запит, а робить це на основі аналізу частоти тих чи інших призначених для користувача запитів. Пошукова машина може також перемішувати в результатах пошуку рейтинги з різних ключових запитів, якщо вважатиме, що користувачеві потрібно саме це.

Загальні принципи роботи пошукової системи

Потрібно розуміти, що послуги пошуку в інтернеті - це дуже і дуже вигідний бізнес. У деталі, за рахунок чого живуть такі компанії, як Google і Яндекс можна не вдаватися, оскільки основна частина їх прибутку - це доходи від контекстної реклами. А раз пошук в інтернеті є вкрай вигідною справою, то і конкуренція серед таких компаній дуже серйозна. Що визначає конкурентоспроможність на ринку інтернет пошуку? Відповідь - якість видачі пошукової системи. Логічно, що чим воно вище, тим більше у системи з'являється нових користувачів, і тим цінніше розміщується на сторінках цієї самої видачі контекстна реклама. Розробники пошукових систем витрачають великі зусилля, спрямовані на те, щоб "очистити" результати своєї пошукової видачі від різного роду інформаційного сміття, званого в народі спамом (spam). Більш докладно про те, як це робиться, буде розказано в окремій статті, а тут я приведу загальні принципи поведінки пошукової системи, сформульовані у вигляді висновків по всьому вищесказаному.

Пошукова машина в особі своїх павуків і краулерів постійно сканує інтернет на предмет появи нових і оновлення існуючих сторінок, оскільки неактуальна інформація цінується нижче.

Пошукова машина періодично оновлює ранжування ресурсів по їх релевантності ключових запитах, оскільки в індексі постійно з'являються нові сторінки. Цей процес називають оновленням (update) пошукової видачі.

В силу величезних обсягів інформації, розміщеної у всесвітній павутині і обмеженості ресурсів самої пошукової системи, пошукова машина завжди намагається завантажувати тільки саме (на її думку) необхідне. В її арсеналі є всілякі фільтри, які відсікають багато непотрібне вже на етапі індексації або викидають спам з індексу за результатами поновлення пошукової видачі.

Сучасні пошукові системи в ході аналізу запиту намагаються враховувати не тільки текст самого запиту, але і його оточення: контекст і переваги користувача, про які було сказано раніше, а також час запиту, регіон і багато іншого.

На релевантність конкретної сторінки впливають не тільки внутрішні її параметри (структура, зміст), але і зовнішні параметри, такі як посилання на сторінку з інших сайтів і поведінку користувача при її перегляді.

Робота пошукових систем постійно вдосконалюється. Ідеальна робота пошукової машини (для людини) можлива тільки в тому випадку, якщо всі рішення, що стосуються індексації та ранжирування буде приймати комісія, що складається з великого числа фахівців усіх областей і напрямків людської діяльності. Оскільки це нереально, то таку комісію замінюють експертні системи, евристичні алгоритми пошуку та інші елементи штучного інтелекту. Ймовірно, робота всіх цих підсистем також могла б давати більш адекватні результати, якби була можливість обробляти абсолютно всі дані, наявні у відкритому доступі в інтернеті, але і це практично неможливо. Недосконалий штучний інтелект і обмеженість ресурсів - дві основні причини того, що результати пошукової видачі не завжди радують користувачів, але все це лікується часом. На сьогодні, на мою думку, робота найбільш відомих і великих пошукових систем цілком відповідає потребам і очікуванням їх користувачів.

Привіт, шановні читачі!

Пошукових систем в світовому інтернет-просторі в даний момент досить багато. У кожної з них є власні алгоритми індексування і ранжирування сайтів, але в цілому принцип роботи пошукових систем досить схожий.

Знання про те, як працює пошукова система в умовах стрімко зростаючої конкуренції є вагомою перевагою при просуванні не тільки комерційних, а й інформаційних сайтів і блогів. Ці знання допомагають вибудовувати ефективну стратегію оптимізації сайту і з меншими зусиллями потрапляти в ТОП видачі по просуваються групам запитів.

Принципи роботи пошукових систем

Сенс роботи оптимізатора полягає в тому, щоб «підлаштувати» просуває сторінки під пошукові алгоритми і, тим самим, допомогти цих сторінок досягти високих позицій по певних запитах. Але до початку робіт по оптимізації сайту або блогу необхідно хоча б поверхово розбиратися в особливостях роботи пошукових систем, щоб розуміти, як вони можуть реагувати на вживані оптимізатором дії.

Зрозуміло, детальні подробиці формування пошукової видачі - інформація, яку пошукові системи не розголошують. Однак, для правильних зусиль по досить розуміння головних принципів, за якими працюють пошукові системи.

Методи пошуку інформації

Два основні методи, які використовуються сьогодні пошуковими машинами, відрізняються підходом до пошуку інформації.

Алгоритм прямого пошуку, Що передбачає зіставлення кожному з документів, збережених в базі пошукової системи, ключової фрази (запиту користувача), є досить надійним методом, який дозволяє знайти всю необхідну інформацію. Недолік цього методу полягає в тому, що при пошуку у великих масивах даних час, необхідний для знаходження відповіді, досить велике.
Алгоритм зворотних індексів, Коли ключовою фразою зіставляється список документів, в яких вона присутня, зручний при взаємодії з базами даних, що містять десятки і сотні мільйонів сторінок. При такому підході пошук здійснюється не за всіма документами, а тільки за спеціальними файлів, що включає списки слів, що містяться на сторінках сайтів. Кожне слово в подібному списку супроводжується вказівкою координат позицій, де воно зустрічається, і інших параметрів. Саме цей метод застосовується сьогодні в роботі таких відомих пошукових систем, як Яндекс і Гугл.

Тут слід зазначити, що при зверненні користувача до пошуковому рядку браузера пошук здійснюється не безпосередньо в інтернеті, а в попередньо зібраних, збережених і актуальних на даний момент базах даних, що містять оброблені пошуковими системами блоки інформації (сторінки сайтів). Швидке формування результатів пошуку можливо саме завдяки роботі зі зворотними індексами.

Текстовий вміст сторінок (прямі індекси) пошуковими машинами теж зберігається і використовується при автоматичному формуванні фрагментів з найбільш відповідних запиту текстових фрагментів.

Математична модель ранжування

З метою прискорення пошуку і спрощення процесу формування видачі, що максимально відповідає запиту користувача, застосовується певна математична модель. Завдання цієї математичної моделі - знаходження потрібних сторінок в актуальній базі зворотних індексів, оцінка їх ступеня відповідності запиту і розподіл в порядку убування релевантності.

Простого знаходження потрібної фрази на сторінці недостатньо. При визначенні пошуковими системами застосовується розрахунок ваги документа щодо призначеного для користувача запиту. По кожному запиту цей параметр розраховується на основі наступних даних: частоти використання на аналізованої сторінці і коефіцієнтом, що відображає наскільки рідко зустрічається це ж слово в інших документах бази даних пошукової системи. Твір цих двох величин і відповідає вазі документа.

Зрозуміло, представлений алгоритм є досить спрощеним, оскільки в розпорядженні пошукових машин є ряд інших додаткових коефіцієнтів, використовуваних при розрахунках, але сенс від цього не змінюється. Чим частіше окреме слово із запиту користувача зустрічається в будь-якому документі, тим вище вага останнього. При цьому текстове вміст сторінки визнається спамние, якщо будуть перевищені певні межі, які є для кожного запиту різними.

Основні функції пошукової системи

Всі існуючі системи пошуку покликані виконувати кілька важливих функцій: пошук інформації, її індексування, якісну оцінку, правильне ранжування і формування пошукової видачі. Першочергове завдання будь-якого пошукача - надання користувачеві тієї інформації, яку він шукає, максимально точної відповіді на конкретний запит.

Оскільки більшість користувачів поняття не мають про те, як працюють пошукові системи в інтернеті і можливості навчити користувачів «правильному» пошуку вельми обмежені (наприклад, пошуковими підказками), розробники змушені покращувати сам пошук. Остання має на увазі створення алгоритмів і принципів роботи пошукових систем, що дозволяють знаходити необхідну інформацію незалежно від того, наскільки «правильно» сформульований пошуковий запит.

сканування

Це відстеження змін в уже проіндексованих документах і пошук нових сторінок, які можуть бути представлені в результатах видачі на запити користувачів. Сканування ресурсів в мережі інтернет пошуковики здійснюють за допомогою спеціалізованих програм, званих павуками або пошуковими роботами.

Сканування інтернет-ресурсів і збір даних проводиться пошуковими ботами автоматично. Після першого відвідування сайту і включення його в базу даних пошуку, роботи починають періодично відвідувати цей сайт, щоб відслідковувати і фіксувати відбулися в контенті зміни.

Оскільки кількість розвиваються ресурсів в інтернеті велике, а нові сайти з'являються щодня, описаний процес не зупиняється ні на хвилину. Такий принцип роботи пошукових систем в інтернеті дозволяє їм завжди мати у своєму розпорядженні актуальною інформацією про доступні в мережі сайтах і їх контенті.

Основне завдання пошукового робота - пошук нових даних і передача їх пошуковику для подальшої обробки.

індексування

Пошукова система здатна знаходити дані тільки на сайтах, представлених в її базі - інакше кажучи, проіндексованих. На цьому кроці пошуковик повинен визначити, чи слід знайдену інформацію заносити в базу даних і, якщо заносити, то в який з розділів. Цей процес також виконується в автоматичному режимі.

Вважається, що Google індексує майже всю доступну в мережі інформацію, Яндекс ж до індексації контенту підходить більш вибірково і не так швидко. Обидва пошукових гіганта рунета працюють на благо користувача, але загальні принципи роботи пошукової системи Гугл і Яндекс дещо відрізняються, так як засновані на унікальних, складових кожну систему програмних рішеннях.

Загальним же для пошукових систем моментом є те, що процес індексування всіх нових ресурсів займає більш тривалий час, ніж індексування нового контенту на відомих системі сайтах. Інформація, що з'являється на сайтах, довіру пошукових систем до яких високо, потрапляє в індекс практично моментально.

ранжування

Ранжування - це оцінка алгоритмами пошукача значущості проіндексованих даних і вибудовування їх у відповідності c факторами, властивими даному пошуковику. Отримана інформація обробляється з метою формування результатів пошуку по всьому спектру призначених для користувача запитів. Те, яка саме інформація буде представлена \u200b\u200bв результатах пошуку вище, а яка нижче, повністю залежить від того, як працює обрана пошукова система і її алгоритми.

Сайти, що знаходяться в базі пошукової системи, розподіляються по тематиках і групам запитів. Для кожної групи запитів формується попередня видача, піддається надалі коригування. Позиції більшості сайтів змінюються після кожного апдейта видачі - поновлення ранжирування, яке в Google відбувається щодня, в пошуку Яндекса - раз в декілька днів.

Людина як помічник у боротьбі за якість видачі

Реальність така, що навіть найбільш просунуті системи пошуку, такі як Яндекс і Гугл, на даний момент все ще потребують допомоги людини для формування видачі, відповідної прийнятим стандартам якості. Там, де пошуковий алгоритм спрацьовує недостатньо добре, результати його коригуються вручну - шляхом оцінки вмісту сторінки по безлічі критеріїв.

Численної армії спеціально навчених людей з різних країн - модераторів (асессоров) пошукових систем - доводиться щодня виконувати величезний обсяг роботи з перевірки відповідності сторінок сайтів призначеним для користувача запитів, фільтрації видачі від спаму і забороненого контенту (текстів, зображень, відео). Робота асессоров дозволяє робити видачу чистіше і сприяє подальшому розвитку самообучающихся пошукових алгоритмів.

висновок

З розвитком мережі інтернет і поступовою зміною стандартів і форм подання контенту змінюється і підхід до пошуку, удосконалюються процеси індексування і ранжирування інформації, використовувані алгоритми, з'являються нові чинники ранжирування. Все це дозволяє пошуковим системам формувати найбільш якісну і адекватну запитам користувача видачу, але при цьому ускладнює життя вебмастерам і фахівцям, які займаються просуванням сайтів.

У коментарях під статтею пропоную висловитися про те, яка з основних пошукових систем рунета - Яндекс або Гугл, на вашу думку, працює краще, надаючи користувачу більш якісний пошук, і чому.

Є одним з основних і найбільш важливих сервісів інтернету.

За допомогою пошукових систем мільярди користувачів інтернету знаходять для себе необхідну інформацію.

Що таке пошукова система?

Пошукова система являє собою програмно-апаратний комплекс, який використовує спеціальні алгоритми для обробки величезної кількості інформації про самих різних сайтах, про їх вміст аж до кожної сторінки.

Пошукова система, з точки зору простих відвідувачів, це такий розумний сайт, який містить багато інформації і дає відповіді на будь-які запити користувачів.

У різних країнах користувачі інтернету використовують різні пошукові системи. В англомовному сегменті інтернету найбільш популярною є пошукова система Google.

Пошукові системи в Рунеті

У Росії більше половини користувачів вважають за краще пошукову систему Яндекс, а на частку Google припадає близько 35% запитів. Решта користувачів використовують Рамблер, Mail.ru, Nigma і інші сервіси.

На Україні близько 60% користувачів використовують Google, на частку Яндекса припадає трохи більше 25% оброблених запитів.

Тому при просуванні сайтів в Рунеті фахівці намагаються просувати сайт, орієнтуючись на пошукові системи Яндекс і Google.

Завдання пошукових систем

Для того, щоб максимально точно відповісти на питання відвідувачів, пошукові системи повинні виконувати такі завдання:

Швидко і якісно зібрати інформацію про різних сторінках різних сайтів.
Обробити інформацію про ці сторінки і визначити якому запиту або запитам вони відповідають.
Формувати і видавати пошукову видачу в відповідь на запити користувачів.

Складові пошукових систем

Пошукові системи є складний програмний комплекс, який складається з наступних основних блоків:

Збір даних.
Індексація.
Обчислення.
Ранжування.

Це умовний розподіл, так як робота різних пошукових систем дещо відрізняється один від одного.

1. Збір даних

На цьому етапі стоїть завдання знайти нові документи, скласти план їх відвідування і сканування.

Вебмайстрам необхідно дати знати пошуковим системам про появу нових матеріалів за допомогою розміщення адреси сторінки в аддурілку або прогнати анонс сторінки з соціальних мереж.

Особисто я користуюся останнім способом і вважаю, що цього цілком достатньо.

Коментар. Трохи відволікаючись і розповім про ефективність розміщення анонсів в соціальних мережах на швидкість індексації нових сторінок сайту.

Я використовую для контролю і фіксації унікальності тексту на сторінках свого сайту сервіс text.ru.

Він якісно перевіряє унікальність, фіксує її і дає можливість розмістити банер унікальності на сторінках Вашого сайту.

Але іноді на цьому сервісі буває велика черга на обробку. У мене було кілька випадків, коли я не став чекати перевірки унікальності, розміщував статтю на сайті і проганяв її по соціальним мережам.

Якщо перевірка унікальності затримувалася близько години і більше, то відсоток унікальності завжди дорівнював 0%. Це означає, що за неповну годину після розміщення сторінка вже була проіндексована і занесена в базу даних пошукових систем.

2. Індексація

Пошукові системи, зібравши дані про нові веб-сторінках, розміщують їх у своїй базі даних. При цьому формується індекс, тобто ключ для швидкого доступу до даних про цю сторінку, якщо виникає така необхідність.

3. Обчислення

Після потрапляння в базу даних сторінки наших сайтів проходять етап обчислення різних параметрів і показників.

Скільки цих показників і як вони обчислюються точно сказати, крім самих розробників алгоритмів пошукових систем, ніхто не може.

4. Ранжування

Потім, на підставі розрахованих параметрів і показників, відбувається визначення релевантності сторінки тих чи інших запитам і ранжування цієї сторінки.

Це буде важливо для швидкого і якісного формування сторінки пошукової видачі по цих запитах.

Пошукові системи формують відповіді на запити користувачів і формують для них результати у вигляді сторінки пошукової видачі.

Треба відзначити, що алгоритми обробки даних про сторінки, формування показників і способи ранжирування постійно удосконалюються. Змінюються пріоритети, за якими відбувається ранжування.
Пошукові системи прагнуть відповісти на запити користувача максимально точно, намагаючись враховувати характер запиту, інтереси конкретного користувача, його місце проживання, вік, стать, звички, нахили.

Найбільш популярним веб сервісом сучасності є саме пошукова система. Тут все зрозуміло, адже ті часи, коли представники перших користувачів інтернету могли спостерігати новинки в мережі вже давним-давно пішли.

Інформації з'являється і накопичується так багато, що людині стало дуже важко знайти саме ту, яка йому була б необхідна. Уявіть, як би виглядали б пошук в інтернеті, якби пересічному користувачеві довелося б шукати інформацію не зрозумій де. Саме не зрозумій де, тому як ручним пошуком багато інформації не знайдеш.

Пошукова система, що це таке?

Добре якщо користувачеві вже відомі сайти, на яких можливо є потрібна інформація, але що робити в іншому випадку? Для того, щоб полегшити життя людині в пошуку потрібної інформації в інтернеті і були придумані пошукові системи або просто пошуковики. Пошукова система виконує одну дуже важливу функцію, без якої інтернет був би не таким як ми його звикли бачити - це пошук інформації в мережі.

Пошукова система - це спеціальний веб вузол або по-іншому сайт, який надає користувачам за їх запитами гіперпосилання на сторінки, сайтів, що відповідають на поставлене пошукової запит.

Якщо бути трохи точнішим, то пошук інформації в інтернеті, який наразі триває завдяки програмно-апаратного функціональному набору і веб інтерфейсу для взаємодії з користувачами.

Для взаємодії людини з пошуковою системою і був створений веб інтерфейс, тобто видима і зрозуміла оболонка. Даний підхід розробників пошукових систем полегшує пошук багатьом людям. Як правило, саме в інтернеті здійснюється пошук за допомогою пошукових систем, але також існують системи пошуку для FTP-серверів, окремих видів товарів у всесвітній павутині, або новинної інформації або ж інші пошукові напрямки.

Пошук може здійснюватися не тільки по текстового наповнення сайтів, але і по інших типах інформації, які людина може шукати: зображення, відео, звукові файли і т.д.

Як здійснюється пошук пошуковою системою?

Сам пошук в інтернеті, рівно так само як перегляд веб сайтів можливий за допомогою інтернет оглядача - браузера. Тільки після того, як користувач задав свій запит в рядку пошуку, здійснюється безпосередньо і сам пошук.

Будь-яка пошукова система містить програмну частину, на якій заснований весь пошукової механізм, його називають пошуковим движком - це програмний комплекс і забезпечує можливість пошуку інформації. Після звернення до пошукача, формування людиною пошукового запиту і введення його в рядок пошуку, пошукова система генерує сторінку зі списком результатів пошуку, найбільш релевантні, на думку пошукача тут розташовуються вище.

Релевантність пошуку - пошук найбільш відповідають запиту користувача матеріалів і розташування на них гіперпосилань на сторінці видачі з більш точними результатами вище інших. Саме распределеніерезультатов називається ранжируванням сайтів.

Так як же пошуковик готує для видачі свої матеріали і як відбувається пошук інформації самим пошукачем? Збору інформації в мережі сприяє унікальний для кожної пошукової системи робот або по-іншому бот, що володіє так само поруч інших синонімів як краулер або павук, а саму роботу системи пошуку можна розділити на три етапи:

До першого етапу роботи пошукової системи можна віднести сканування сайтів в глобальній мережі і збір на свої власні сервери копій веб сторінок. Це утворює величезну кількість поки ще не обробленої і не придатною інформації для пошукової видачі.

Другий етап роботи пошукача зводиться до впорядкування отриманої раніше, на першому етапі інформації від сайтів. Проводиться така сортування, яка за найменший час буде сприяти тому самому якісному пошуку, якого власне і чекають користувачі від пошукової системи. Етап називають індексацією, це означає, що сторінки вже є підготовленими до видачі, а актуальна база буде вважатися індексом.

Якраз третій етап і обумовлює пошукову видачу, після прийому запиту від свого клієнта, спираючись на ключові або близько ключові слова, зазначені в запиті. Це сприяє відбору найбільш відповідною запиту інформації, і подальшої її видачі. Так як інформації, дуже і дуже багато, пошукова система виконує ранжування у відповідність зі своїми алгоритмами.
Кращою пошуковою системою вважається та, яка зможе надати найбільш коректно відповідає на запит користувача матеріал. Але і тут можуть зустрічатися результати, на які вплинули люди, зацікавлені в просування свого сайту, такі сайти хоч і не завжди, але часто з'являються в результатах пошуку, але не на довго.

Хоч світові лідери вже в багатьох регіонах визначені, пошукові системи тривають розвивати свій якісний, пошук. Чим якісніше пошук вони зможуть надати, тим більше людей будуть ним користуватися.

Як користуватися пошуковою системою?

Що таке пошукова система і як вона працює вже зрозуміло, але як їй правильно користуватися? На більшості сайтів завжди присутній рядок пошуку, а поруч з нею знаходиться кнопка Знайти або Пошук. У пошуковий рядок вводиться запит, після чого потрібно натиснути кнопку пошуку або ж як це частіше буває, натиснути клавішу Enter на клавіатурі і за лічені секунди ви отримуєте результат запиту у вигляді списку.

А ось отримати правильну відповідь на запит пошуку, з першого разу вдається не завжди. Для того, щоб пошуки бажаного не стає болісними, необхідно правильно складати пошуковий запит і слідувати нижчеописаних рекомендацій.

Складаємо пошуковий запит правильно

Далі будуть вказані поради по використанню пошукової системи. Дотримання деяких хитрощів і правилам при здійсненні пошуку інформації в пошуковій системі дасть можливість отримати потрібний результат набагато швидше. Дотримуйтеся таких вказівок:

Грамотне написання слів забезпечує максимальну кількість збігів з шуканим інформаційним об'єктом (Хоч сучасний пошукові системи вже навчилися виправляти орфографічні помилки, але даними радою нехтувати не варто).
Завдяки використанню синонімів в запиті, можна охопити більш широкий пошукової діапазон.
Іноді зміна слова в тексті запиту може принести більший результат здійснюйте переформування запиту.
Привносите в запит конкретність, використовуйте точні входження фраз, які повинні визначати головну суть пошуку.
Експериментуйте з ключовими словами. Використання ключових слів і словосполучень може допомогти визначити головну суть, і пошукова машина видасть більш релевантний результат.

Так що таке пошукова система - це ні що інше, як можливість знайти необхідну інформацію і зазвичай абсолютно безкоштовно їй скористатися, чогось навчитися, щось зрозуміти або зробити правильний для себе висновок. Багато вже не уявляють свого життя без голосового пошуку, при якому текст не доводиться набирати, свій запит потрібно всього лише вимовити, а пристроєм введення інформації тут є мікрофон. Все це свідчить про постійне розвиток пошукових технологій в інтернеті і необхідності в них.