logo
Internet

Архітектура сучасних пошукових систем.

Основні протоколи, що використовуються в Інтернет, не забезпечені достатніми вбудованими функціями пошуку, не кажучи вже про мільйони серверів, що знаходяться в ній. Протокол HTTP, який використовується в Інтернет, ефективний тільки в плані навігації, яка розглядається лише як засіб перегляду сторінок, але не їх пошуку. Теж саме відноситься і до протоколу FTP, який в цьому відношенні ще більш примітивний, ніж HTTP. В зв'язку із швидким ростом кількості інформації, доступної в Інтернет, навігаційні методи перегляду швидко досягають межі їх функціональних можливостей, не кажучі вже про їх ефективність. На сьогодні потрібну інформацію вже неможливо отримати відразу, оскільки в Інтернет знаходяться міліарди документів, доступних користувачам Інтернет, і їх кількість зростає за експоненціальною залежністю. Кількість змін, яким ця інформація була піддана, величезна, і, найголовніше, вони відбулись за дуже короткий проміжок часу. Основна проблема полягає в тому, що єдиної повної функціональної системи оновлення і занесення подібного об'єму інформації, одночасно доступного усім користувачам Інтернет в уьому світі, ніколи не було. Для того, щоби структурувати інформацію, накопичену в Інтернет, і забезпечити її користувачів зручними засобами пошуку необхідних їм даних, були створені пошукові системи.

Пошукові cистеми звичайно складаються з трьох компонентів:

Засоби пошуку і структурування, що іноді називаються пошуковими механізмами. використовуються для того, щоби допомогти користувачам знайти потрібну інформацію. Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів. Деякі переміщуються за кожним посиланням на кожній знайденій сторінці і далі, в свою чергу, досліджують кожне посилання на кожній з нових сторінок, і так далі. Деякі ігнорують певні посилання, інші проінструктовані, що потрібно переглядати перш за все найбільш популярні сторінки.

Агенти збирають та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у зустріненому документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному документі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу визначає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.

Агенти можуть переміщуватись по Інтернет і знаходити інформацію, після чого розміщувати її в базі даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати та проіндексувати. Проіндексована інформація відправляється базі даних пошукового механізму так само, як було описано вище.

Користувачі можуть розміщувати інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.

Коли користувач хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує потрібну йому інформацію. Тут можуть використовуватись ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі.

База даних відшукує предмет запиту, оснований на інформації, вказаній в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Для того, що визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжирування. В ідеальному випадку, документи, найбільш релевантні запиту користувача, будуть розташовані першими в списку. Різні пошукові системи використовують різні алгоритми ранжирування, однак основні принципи визначення релевантності наступні:

  1. Кількість слів запиту в текстовому вмісті документу (тобто в html-коді).

  2. Теги, в яких ці слова розташовуються.

  3. Місцеположення шуканих слів у документі.

  4. Питома вага слів, відносно яких визначається релевантність, в загальній кількості слів документу.

Ці принципи застосовуються всіма пошуковими системами. А наведені нижче використовуються деякими, але достатньо відомими (наприклад, AltaVista).

  1. Час - як довго сторінка знаходиться в базі пошукового сервера. Спочатку може здатись, що це досить безглуздий принцип. Але в Інтернет існує багато сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить довго, це значить, що його власник досить досвідчений за даною темою і користувачу більше підійде сайт, що існує вже кілька років, ніж той, який з'явився тиждень тому за цією ж темою.

  2. Індекс цитованості - як багато посилань на дану сторінку веде з інших сторінок, зареєстрованих в базі пошуковика.

База даних виводить ранжирований таким чином список документів з HTML і повертає його користувачу, який зробив запит. Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання, інші виводять посилання з декількома першими реченнями, що містяться в документі або заголовок документу разом з посиланням. Коли користувач звертається до посилання на один з документів, що його інтересують, цей документ запитується у сервера, на якому він знаходиться.

Yandex.RTB R-A-252273-3
Yandex.RTB R-A-252273-4