3.2. характеристика серверів управління трафікомТрафіком називається вся інформація, що передається через ме- режу Інтернет. Основна ціль серверів управління трафіком — пере- направлення споживачів до кінцевого сервера. Згідно з класифікаці- єю веб-серверів до цієї групи належать пошукові системи, каталоги та ініціюючі сервери. Пошукові системи. Для організації пошуку інформації в мере- жі Інтернет призначено пошукові сервери (пошукові системи). Ви- користовуючи такі сервери, можна подати запит на пошук потрібної інформації, а сервер (система) у відповідь видає список посилань (адрес) на електронні джерела, при цьому кожна адреса відіграє роль гіперпосилання, активізуючи яке, можна одразу ж відкрити відповід- ну веб-сторінку. За принципом дії пошукові сервери поділяються на пошукові ката- логи і пошукові індекси. Пошукові каталоги дозволяють здійснювати
тематичний пошук. Початкова сторінка таких серверів є тематичним рубрикатором верхнього рівня. Вибравши рубрику, підрубрику і т.д., можна поступово опускатися до переліку матеріалів, які присвячені досить вузькій тематиці. Пошукові індекси працюють як алфавітні вказівники. У них пев- ний запит робиться в полі пошуку у вигляді подання послідовності ключових слів, які відповідають змісту шуканої інформації. У відпо- відь на такий запит буде видано список веб-сторінок, в яких зустріча- ються вказані слова. Багато інформаційно-пошукових систем є одночасно і пошуко- вими каталогами, і пошуковими індексами. Відмітимо, що пошукові системи часто називають пошуковими машинами або машинами по- шуку. Всього в світі існують сотні пошукових систем, і вибір якоїсь із них залежить від власних уподобань. Деякі з пошукових систем дозволяють шукати інформацію не тільки на веб-сторінках, але й у групах новин і в місцях, де зберігаються файли (див. додаток Г). Отже, основне завдання пошукових систем — впізнати інші сер- вери Інтернету через пошук за ключовими словами бази даних, яка складається з проіндексованого змісту веб-серверів мережі загалом. Пошукові системи складаються з трьох основних частин: 1. Спайдери (Spider, Crawler, Robot) — програма, що відвідує веб- сервери, зчитує й індексує цілком або частково їхній вміст і далі ру- хається через посилання, знайдені на сервері. Спайдер повертається через визначені періоди часу, наприклад, кожного місяця, і повторює індексацію сторінок. Кожний пошуковий механізм має власний набір засобів, завдяки якому визначається збір документів. Зупинимось коротко на їх осо- бливостях. • агенти є найінтелектуальнішими з пошукових засобів. Вони мо- жуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від імені користувача, а також шукати сайти специфіч- ної тематики і повертати списки сайтів, відсортованих за їх відвід- уваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для отримання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.
• Павуки здійснюють загальний пошук інформації в Інтернеті. Павуки повідомляють про зміст знайденого документа, індексу- ють його і добувають підсумкову інформацію. Вони також мо- жуть переглядати заголовки, деякі посилання і відправляти про- індексовану інформацію до бази даних пошукового механізму. • Кроулери переглядають заголовки і повертають користувачу тільки перше посилання. • Роботи можуть бути запрограмовані таким чином, щоб пере- ходити по різним посиланням різної глибини вкладеності, ви- конувати індексацію і перевіряти посилання в документі. Але, вони можуть застрягати в циклах, адже, проходячи за посилан- нями, їм потрібні значні ресурси мережі. Існують методи, що забороняють роботам пошук по сайтах, власники яких не бажа- ють, щоби вони були проіндексовані. 2. Усе, що знаходить і зчитує спайдер, попадає в індекси пошу- кової системи. Індекси системи — гігантське сховище інформації, де зберігаються копії текстової складової усіх сторінок, що відвідав і проіндексував спайдер. Агенти збирають та індексують різні види інформації. Деякі, на- приклад, індексують кожне окреме слово у документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному до- кументі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу ви- значає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована. Агенти знаходять інформацію, після чого її розміщують в базі даних пошукового механізму. Адміністратори пошукових систем ви- значають, які сайти або типи сайтів агенти мають відвідати та проін- дексувати. Проіндексована інформація відправляється до бази даних пошукового механізму. Користувачі можуть розміщувати власну інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних. Коли користувач хоче знайти інформацію, доступну в Інтернеті, він відвідує сторінку пошукової системи і заповнює форму, що деталі- зує потрібну йому інформацію. Тут можуть використовуватись клю- чові слова, дати та інші критерії. Критерії в формі пошуку повинні
відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі. База даних відшукує предмет запиту, що базується на інформації, яка вказана в заповненій формі, і виводить відповідні документи, що підготовані базою даних. Для того, щоб визначити порядок, в якому перелік документів буде показано, база даних застосовує алгоритм ранжування. В ідеальному випадку, розташованими першими в спис- ку будуть такі документи, що є найбільш релевантними до запиту ко- ристувача. 3. Третя частина — це програма, що відповідно до запиту корис- тувача перебирає індекси пошукової системи в пошуках інформації і видає йому в порядку зменшення релевантності знайдені документи. Релевантність визначає, наскільки повно той або інший документ (зміст знайденої веб-сторінки) відповідає критеріям, зазначеним у за- питі користувача. Але комп’ютер — не людина, і тому пошукові системи використовують спеціальні алгоритми для визначення релевантності. Теоретичних методів визначення релевантності веб-сторінок іс- нує більш ніж 20. Але виділяють два основні напрями: лінгвістичне (Rambler, Яndex) і статистичне (Google). Основні російські пошукові системи (зокрема Rambler) використовують лінгвістичний напрям, коли пошуковий робот, переглядаючи сторінку, звертає увагу на «лі- тературність» її написання (наприклад, «чом ти не прийшов» буде більш релевантною, ніж «чом ти не травень прийшов»). Різні пошукові системи використовують різні алгоритми ранжу- вання, однак основними принципами визначення релевантності є наступні: • Кількість слів запиту, який є у текстовому вмісті документу (тобто в html-коді). • теги, в яких ці слова розташовуються. • Місцеположення шуканих слів у документі. • Питома вага слів, відносно яких визначається релевантність сторінки, у загальній кількості слів документу. Вище вказані принципи застосовуються всіма пошуковими сис- темами, в той час як наведені нижче використовуються лише деяки- ми, але достатньо відомими (наприклад, AltaVista). • Час — тобто як довго сторінка знаходиться в базі пошукового сервера. Спочатку здається, що це недолугий принцип. Але в Ін-
тернеті існує багато веб-сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить довго, то це означає, що його власник є досвідченим за певною темою. Вірогідно, що користу- вачу більше підійде веб-сайт, що існує вже кілька років, ніж той, який з’явився тиждень тому за цією ж тематикою. • Індекс цитованості показує як багато посилань на дану веб- сторінку ведеться з інших сторінок, що зареєстровані у базі по- шукової системи. База даних виводить ранжований таким чином перелік докумен- тів з html-кодами і повертає його користувачу, який зробив запит. Різні пошукові механізми вибирають різні способи показу отримано- го переліку — деякі відображають лише посилання, інші — виводять посилання з декількома першими реченнями документу чи заголовок документу разом з посиланням. Коли користувач звертається до по- силання на один з документів, цей документ завантажується з серве- ра, на якому він знаходиться. Зрозуміло, далеко не завжди документ, визнаний пошуковою системою найбільш релевантним, буде таким на думку самого корис- тувача. У кожній пошуковій системі працює власний спайдер, кожна сис- тема індексує сторінки своїм особливим способом і пріоритети при пошуку за індексами теж відмінні. Тому запит на основі визначених ключових слів або виразів у кожній з пошукових систем зазвичай по- роджує різні результати. Найбільш відомими міжнародними пошуковими системами є: – AltaVista (https://www.altavista.digital.com/). – Excite (https://www.excite.com/). – HotBot (https://www.hotbot.com/). – Infoseek (https://www.infoseek.com/). – Lycos (https://www.lycos.com/). – WebCrawler (https://www.webcrawler.com/). Каталоги (directories). Ці веб-сервери Інтернету виконують ана- логічну пошуковим системам функцію з тією різницею, що пошук здійснюється користувачем вручну за ієрархічно організованою те- матичною структурою каталогів (див. додаток Г). Для реєстрації в каталозі необхідно або заповнити визначену форму, або надіслати
запит, що містить вказівку, в який розділ ви хочете помістити свою сторінку, короткий опис сайта і список ключових слів для пошуку сторінки в каталозі. «Королем» серед каталогів по праву вважається Yahoo! (https:// www.yahoo.com/). Сайт (site) — це ресурс Інтернету, який не має виділеної сервер- ної програми. Як правило, він є інтегрованою частиною сервера, ка- талогом на серверному комп’ютері, незважаючи на те, що більшість сайтів мають власне доменне ім’я. • Приклади українських каталогів і їх основне призначення: – UaList.com — каталог, пошукова система, пошта, робота, зна- йомства; – Youth.net.ua — каталог молодіжних сайтів; – Richard-LS — тематичний каталог сайтів. Має прямі лінки; – Silver Україна в Інтернеті — тематичний каталог ресурсів. Забезпечує пошук у рубриках; – 360.com.ua — мета-пошук інформації на пошукових серверах усього світу; надає можливість пошуку інформації на музич- них веб-сайтах України та Росії; – UaList — пошукова система і тематичний каталог україн- ських сайтів; – Sesna — пошукова система та каталог, які є однією з найсер- йозніших розробок у сфері рубрикації української та украї- номовної частини Інтернету. Пошук виконується як за клю- човими словами, так і за темами; в межах регіону або країни; – Ukrop — український об’єднаний портал: є інформація про Україну, останні новини, практично всі ресурси українського Інтернету, пошук необхідної інформації, каталог українських ресурсів; – Старт Україна — інформаційно-розважальні та ділові ре- сурси: фірми, організації, новини, оголошення, домени. За- безпечує пошук у каталозі; – AtlasUa — функціональний каталог українських сайтів. Дає можливість пошуку товарів, послуг, новин, повнотекстових документів; – QS — каталог сайтів та пошукова система. Посилання супро- воджуються анотаціями. Також містить прайс-листи, оголо- шення, курси валют, погодні умови та інші рубрики;
– КУСТ — пошук в українських ресурсах, різноманітні сервіси, послуги, служби. Веде статистику сайтів та чемпіонат сайтів. • Приклади російських каталогів і характеристика їх можливос- тей: – Улітка — тематичний каталог російських інтернет-ресурсів, який продовжує розвиватися. Поповнюється регулярно, але не надто оперативно. Пошук здійснюється як за назвою сай- ту, так і за URL. Посилання розбиті на декілька великих роз- ділів, але не мають коментарів; – SearchCentre — каталог ресурсів Інтернету, поділений на 15 категорій. Ведеться рейтинг сайтів; – Омен — «Кращі посилання в Інтернеті» — великий тематич- ний каталог ресурсів Інтернету. Понад 10 тисяч кращих по- силань з усіх тем, дво-трирівнева класифікація, відсутність неякісних ресурсів; – Сурок — це компактний каталог російських інтернет-ресур- сів з можливістю пошуку; – @llru.net — анотований каталог ресурсів. Посилання на різ- номанітні теми. Можливий пошук за ключовим словом. Веб- сайт оновлюється щоденно; – ЕМir — дозволяє шукати за частиною слова, за фразою, а та- кож у знайденому. Має рейтинг сайтів і каталогів; – RIN — об’ємний каталог кращих посилань в Інтернеті. Харак- теризується високою швидкістю і простотою навігації. Ресур- си цього каталогу постійно оновлюються; – Dylan — пошукова система та каталог кращих інтернет-ре- сурсів. Найкращим прикладом для українських та російських каталогів може бути Карлсруеський віртуальний каталог (КВК — KVK), який стане в нагоді, якщо мова йде про пошук книг чи інших самостій- них публікацій. До цього каталогу можна дістатися за адресою https:// kvk.uni-karlsruhe.de, і на сьогодні він є одним з найважливіших бібліо- графічних пошукових систем Німеччини, що підтверджують такі дані про кількість його користувачів: КВК опрацьовує щомісяця мільйон запитів з усієї країни. Цю пошукову систему для Інтернету щодо по- шуку книг і журналів було розроблено у Карлсруеській універси- тетській бібліотеці у процесі співпраці з факультетом інформатики
і підключено у липні 1996 р. З того часу каталог постійно поновлю- ється й оптимізується. КВК — це метапошукова система в Інтернеті. Коли запит вво- диться у пошуковий реєстр, то пошук проводиться зразу ж за 27 бі- бліотечними і книготорговельними каталогами, представленими в мережі. КВК охоплено 75 мільйонів книжок і журналів, а це на сьо- годні колосальна цифра, навіть якщо взяти до уваги, що маса книжок описується в каталозі по декілька разів. Користувач вибирає сам, в яких каталогах необхідно здійснювати пошук. Насамперед система КВК постачає списки знайдених публікацій з форматованими короткими назвами творів, які за допомогою про- стого клацання мишкою перетворюються на повні назви з інформаці- єю, де їх можна знайти. Таким чином можна дізнатися, в якій бібліо- теці знаходиться певна книга і які умови її отримання на абонементі або за міжбібліотечним абонементом. Основні поняття структури цього каталогу, з якими стикається користувач при пошуку інфор- мації, надаються у англійському та іспанському варіантах. Пошук у КВК можна здійснювати за назвою твору, за автором чи ключовим словом або ж за видавництвом, роком видання та номером ISBN-/ ISSN. Зрозуміло, що КВК може знайти тільки те, що надають інтер- нет-каталоги. Але далеко не кожна книга, яка є в бібліотеці, описа- на в комп’ютерному каталозі. Бібліотеки напружено працюють над переведенням своїх фондів у цифровий варіант. Можна виходити з того, що, як правило, література останніх 10–20 рр. повністю описана в комп’ютерних каталогах. З часу свого заснування КВК інтегрує все більше інтернет-ката- логів у пошукову систему. Зараз запит передається до тринадцяти німецькомовних зведених каталогів, тобто до спільних пулів даних великих бібліотек, п’ять з них — австрійські та швейцарські. До цього додаються десять бібліотечних каталогів з не німецькомовного зару- біжжя — з Франції, Великої Британії, Італії, Норвегії, Швеції, Іспа- нії та США. Серед них: Бібліотека конгресу, Національна бібліотека Франції та Британська бібліотека. Можна також здійснювати пошук у базі даних журналів (БДЖ-ZDB) — найбільшій у світі базі даних щодо газет, журналів і т.д., а також фондів. Там зазначені не тільки друковані засоби інформації, але й електронні журнали, але, на жаль, немає переліку статей.
Але можливості КВК значно більші — він здійснює пошук у ка- талогах великих оптовиків і книжкових інтернет-магазинів, а також у Центральному переліку антикварних книг, який зараз охоплює більш, ніж чотири мільйони творів з 900 антикварних магазинів у 17 країнах, які можна замовити за допомогою мережі Інтернет. Насам- кінець, з середини липня 2002 року у виведення результатів пошу- ку за запитом було інтегровано також формуляр пошукової системи Google в Інтернеті. За допомогою клацання мишкою стартує подаль- ша пошукова робота стосовно інтернет-документів. Життя науковців, студентів і бібліотекарів вже не можна собі уявити без КВК, який за свої послуги був відзначений премією за но- ваторство «Iнeтбіб 1999» («InetBib 1999 Award Innovation»). Комбіновані системи. Деякі пошукові системи мають при собі і каталог. Індекси для самої пошукової системи добуваються спайде- ром, а каталог поповнюється через реєстраційну форму або модера- торами системи. • Приклади комбінованих систем: – Excite Net Directory (https://www.excite.com). – InfoSeek (https://infoseek.go.com). – Lycos (https://www.lycos.com). – WebCrawler (https://www.webcrawler.com). Ініціюючі сервери. На відміну від пошукових машин і каталогів, ціль яких — пошук інформації і наступне перенаправлення користу- вачів до знайдених ресурсів відповідно до запиту, ініціюючі сервери використовують більш комплексний підхід і, поряд з функціями по- шуку інформації і переміщення до неї користувачів, надають тема- тично різноманітний інформаційний зміст. Найбільш великі з них одержали назву порталів. Портали — це веб-вузли, що являють собою поєднання інформа- ційного наповнення, спільноти користувачів і базових послуг, таких, наприклад, як електронна пошта. Вони служать відправним пунктом навігації в середовищі Інтернет, де можна ознайомитися із заголовка- ми новин, дізнатись про події в мережі, і є центрами, навколо яких будуються взаємовідносини користувачів з Інтернетом. Сюди корис- тувач може повернутися, якщо він заблудився в Павутині, тут також
можна слідкувати за курсами акцій, саме звідси можна починати по- шук. Тут знаходяться поштові скриньки користувачів, які призначені для отримання і відправлення повідомлень електронної пошти, а та- кож особиста базова сторінка. Крім того, портал виступає гарантією безпеки і орієнтиром у всьому, що стосується середовища Інтернет. Портали володіють приблизно однаковою комбінацією інформа- ційного наповнення і набором послуг. Відмінності полягають лише в тому, наскільки успішно інтегровані всі функції і наскільки вдало ви- брані технології для організації спільнот користувачів, веб-сторінок, діалогів, електронної пошти і миттєвого відправлення повідомлень. Основними складовими елементами порталів вважають на- ступні: • Канали. Одна із основних функцій порталів — спрощення по- шуку даних шляхом поділу всієї інформації на канали. • електрона пошта. Найпопулярніший рід занять в мережі Інтер- нет став стандартним доповненням до порталів, ще одним спо- собом привести користувачів до вузла і дати їм відчуття зв’язку з порталом. За допомогою поштових клієнтів, не тільки авто- номних, але і на базі мережі можна переглянути HTML-пошту, створити папки і організувати адресну книгу. • дискусії. Можливість організації форуму для обміну ідеями і зустрічі з іншими користувачами. Дискусії є одним із головних атрибутів будь-якого порталу. Більшість порталів наділені вбудованими засобами діалогової взаємодії, які охоплюють всі служби порталу. • Покупки. Інтернет перетворився в гігантський ринок товарів і послуг, і розробники порталів мають вигоди від такої ситуації, вони збирають посилання на комерційні вузли і надають корис- тувачам інструменти для пошуку потрібних їм продуктів. Так, в Shopping Guide вузла Yahoo! передбачена функція пошуку в Інтернет товарів, наприклад, книг з найнижчою ціною. Одним із найбільш популярних міжнародних порталів виступає Excite (https://www.excite.com), про який вже йшла мова як про одну з популярних міжнародних пошукових систем.
|
| Оглавление| |