Архітектура сучасних пошукових систем.
Основні протоколи, що використовуються в Інтернет, не забезпечені достатніми вбудованими функціями пошуку, не кажучи вже про мільйони серверів, що знаходяться в ній. Протокол HTTP, який використовується в Інтернет, ефективний тільки в плані навігації, яка розглядається лише як засіб перегляду сторінок, але не їх пошуку. Теж саме відноситься і до протоколу FTP, який в цьому відношенні ще більш примітивний, ніж HTTP. В зв'язку із швидким ростом кількості інформації, доступної в Інтернет, навігаційні методи перегляду швидко досягають межі їх функціональних можливостей, не кажучі вже про їх ефективність. На сьогодні потрібну інформацію вже неможливо отримати відразу, оскільки в Інтернет знаходяться міліарди документів, доступних користувачам Інтернет, і їх кількість зростає за експоненціальною залежністю. Кількість змін, яким ця інформація була піддана, величезна, і, найголовніше, вони відбулись за дуже короткий проміжок часу. Основна проблема полягає в тому, що єдиної повної функціональної системи оновлення і занесення подібного об'єму інформації, одночасно доступного усім користувачам Інтернет в уьому світі, ніколи не було. Для того, щоби структурувати інформацію, накопичену в Інтернет, і забезпечити її користувачів зручними засобами пошуку необхідних їм даних, були створені пошукові системи.
Пошукові cистеми звичайно складаються з трьох компонентів:
агент (павук або кроулер), який переміщується по мережі і збирає інформацію;
база даних, яка містить всю інформацію, зібрану павуками;
пошуковий механізм, який користувачі використовують як інтерфейс для взаємодії з базою даних.
Засоби пошуку і структурування, що іноді називаються пошуковими механізмами. використовуються для того, щоби допомогти користувачам знайти потрібну інформацію. Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів. Деякі переміщуються за кожним посиланням на кожній знайденій сторінці і далі, в свою чергу, досліджують кожне посилання на кожній з нових сторінок, і так далі. Деякі ігнорують певні посилання, інші проінструктовані, що потрібно переглядати перш за все найбільш популярні сторінки.
Агенти - найбільш "інтелектуальні" з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати навіть транзакції від Вашого імені. Вже зараз вони можуть шукати сайти специфічної тематики і повертати списки сайтів, відсортованих за їх відвідуваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не тільки сторінки. Вони можуть бути також запрограмовані для витягання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад базі даних пошукового механізму.
Загальний пошук інформації в Інтернет здійснюють програми, які називаються павуками. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію базі даних пошукового механізму.
Кроулери переглядають заголовки і повертають тільки перше посилання.
роботи можуть бути запрограмовані таким чином, щоби переходити по різним посиланням різної глибини вкладеності, виконувати індексацію і навіть перевіряти посилання в документі. За їх природою вони можуть застрявати в циклах, отже, проходячи за посиланнями, їм потрібні значні ресурси мережі. Крім того, існують методи, призначені для того, щоби заборонити роботам пошук по сайтах, власники яких не бажають, щоби вони були проіндексовані.
Агенти збирають та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у зустріненому документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному документі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу визначає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.
Агенти можуть переміщуватись по Інтернет і знаходити інформацію, після чого розміщувати її в базі даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати та проіндексувати. Проіндексована інформація відправляється базі даних пошукового механізму так само, як було описано вище.
Користувачі можуть розміщувати інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.
Коли користувач хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує потрібну йому інформацію. Тут можуть використовуватись ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі.
База даних відшукує предмет запиту, оснований на інформації, вказаній в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Для того, що визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжирування. В ідеальному випадку, документи, найбільш релевантні запиту користувача, будуть розташовані першими в списку. Різні пошукові системи використовують різні алгоритми ранжирування, однак основні принципи визначення релевантності наступні:
Кількість слів запиту в текстовому вмісті документу (тобто в html-коді).
Теги, в яких ці слова розташовуються.
Місцеположення шуканих слів у документі.
Питома вага слів, відносно яких визначається релевантність, в загальній кількості слів документу.
Ці принципи застосовуються всіма пошуковими системами. А наведені нижче використовуються деякими, але достатньо відомими (наприклад, AltaVista).
Час - як довго сторінка знаходиться в базі пошукового сервера. Спочатку може здатись, що це досить безглуздий принцип. Але в Інтернет існує багато сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить довго, це значить, що його власник досить досвідчений за даною темою і користувачу більше підійде сайт, що існує вже кілька років, ніж той, який з'явився тиждень тому за цією ж темою.
Індекс цитованості - як багато посилань на дану сторінку веде з інших сторінок, зареєстрованих в базі пошуковика.
База даних виводить ранжирований таким чином список документів з HTML і повертає його користувачу, який зробив запит. Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання, інші виводять посилання з декількома першими реченнями, що містяться в документі або заголовок документу разом з посиланням. Коли користувач звертається до посилання на один з документів, що його інтересують, цей документ запитується у сервера, на якому він знаходиться.
Yandex.RTB R-A-252273-3- 1.Сервіси Internet
- 2. Організація мережі тср/ip
- 3. Підключення локальної або корпоративної мережі до Internet
- 4. Проблема маршрутизації.
- Отримання доменного імені.
- 4. Обмін електронною поштою.
- Організація Intrаnet.
- Проблема безпеки мережі tcp/ip.
- Міжмережевий обмін в мережах tcp/ip.
- 6.Структура стеків протоколів тср/ір.
- Термінологія.
- 7.Інкапсуляція.
- 8.Основні протоколи стека тср/ір.
- Протокол slip.
- Протокол ррр.
- Протоколи мережевого рівня.
- Протокол arp (rfc 826)
- Протокол ір.
- Формат пакета
- Протокол icmp(Internet Control Massage Protocol).
- Протоколи транспортного рівня.
- Протокол тср.
- 9.Принцип побудови ір адрес.
- 10.Підмережі.
- 11.Порти та сокети.
- Використання номерів портів і номерів протоколів для передачі даних.
- 12.Основні принципи ір маршрутизації.
- 13.Настройка ос і мережеві інтерфейси.
- Настройка мережевих інтерфейсів.
- Настройка slip
- Настройка ррр.
- Маршрутизація. Протоколи динамічної маршрутизації. Засоби керування маршрутами.
- Статична маршрутизація.
- Динамічна маршрутизація.
- Аналіз і фільтрація тср/ір пакетів.
- 14.Інформаційні сервіси Internet. Система доменних імен dns
- Принципи організації системи доменних імен dns
- Сервери доменних імен і механізми пошуку ір адрес.
- Електронна пошта
- Принцип організації
- С труктура взаємодії учасників поштового обміну. Формат поштового повідомлення.
- Формат представлення поштового повідомлення mime.
- Протокол smtp
- Дисципліни роботи і команди протоколу smtp.
- Інтерфейс Eudora
- 15.Самостійне опрацювання. Емуляція віддаленого термінала. Віддалений доступ до ресурсів мережі.
- Командний режим програми telnet
- Робота з протоколом ftp.
- Сервери www.
- Архітектура сучасних пошукових систем.
- Різні пошукові системи