Інтернет в маркетингу - Навчальний посібник (Бойчук І. В., Музика О. М.)

3.2. характеристика серверів управління трафіком

Трафіком називається вся інформація, що передається через ме- режу Інтернет. Основна ціль серверів управління трафіком — пере- направлення споживачів  до кінцевого сервера. Згідно з класифікаці- єю веб-серверів до цієї групи належать пошукові системи, каталоги та ініціюючі сервери.

Пошукові системи. Для  організації  пошуку  інформації  в мере- жі Інтернет  призначено  пошукові  сервери  (пошукові системи).  Ви- користовуючи такі сервери, можна подати запит на пошук потрібної інформації,  а сервер (система) у відповідь видає список посилань (адрес)  на електронні  джерела, при цьому кожна адреса відіграє роль гіперпосилання, активізуючи яке, можна одразу ж відкрити відповід- ну веб-сторінку.

За принципом дії пошукові сервери поділяються на пошукові ката- логи і пошукові індекси. Пошукові  каталоги  дозволяють  здійснювати

 

тематичний пошук. Початкова  сторінка таких серверів є тематичним рубрикатором верхнього рівня. Вибравши  рубрику, підрубрику  і т.д., можна поступово  опускатися до переліку  матеріалів,  які присвячені досить вузькій тематиці.

Пошукові індекси працюють як алфавітні  вказівники. У них пев- ний запит робиться  в полі пошуку у вигляді  подання  послідовності ключових слів, які відповідають змісту шуканої інформації.  У відпо- відь на такий запит буде видано список веб-сторінок, в яких зустріча- ються вказані слова.

Багато  інформаційно-пошукових систем  є одночасно  і пошуко- вими каталогами,  і пошуковими індексами.  Відмітимо, що пошукові системи часто називають  пошуковими машинами  або машинами  по- шуку. Всього в світі існують сотні пошукових  систем, і вибір якоїсь із них залежить від власних уподобань. Деякі з пошукових систем дозволяють  шукати  інформацію  не тільки  на веб-сторінках, але й у групах новин і в місцях, де зберігаються  файли (див. додаток Г).

Отже, основне завдання  пошукових  систем — впізнати  інші сер- вери Інтернету через пошук за ключовими словами бази даних, яка складається з проіндексованого змісту веб-серверів  мережі загалом.

Пошукові системи складаються з трьох основних частин:

1. Спайдери (Spider, Crawler, Robot) — програма, що відвідує веб- сервери, зчитує й індексує  цілком або частково їхній вміст і далі ру- хається  через посилання,  знайдені  на сервері. Спайдер  повертається через визначені періоди часу, наприклад,  кожного місяця, і повторює індексацію сторінок.

Кожний  пошуковий  механізм має власний набір засобів, завдяки якому визначається збір документів. Зупинимось коротко на їх осо- бливостях.

• агенти є найінтелектуальнішими з пошукових  засобів. Вони мо- жуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від імені користувача, а також шукати сайти специфіч- ної тематики і повертати списки сайтів, відсортованих за їх відвід- уваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для отримання інформації  з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.

 

• Павуки  здійснюють  загальний   пошук  інформації  в Інтернеті. Павуки повідомляють про зміст знайденого документа, індексу- ють його і добувають  підсумкову  інформацію.  Вони також мо- жуть переглядати заголовки, деякі посилання і відправляти про- індексовану інформацію до бази даних пошукового механізму.

• Кроулери  переглядають   заголовки   і  повертають  користувачу тільки перше посилання.

• Роботи можуть  бути  запрограмовані таким  чином,  щоб пере- ходити по різним  посиланням різної глибини  вкладеності,  ви- конувати  індексацію  і перевіряти посилання в документі. Але, вони можуть застрягати в циклах, адже, проходячи  за посилан- нями, їм потрібні значні ресурси мережі. Існують методи, що забороняють роботам пошук по сайтах, власники  яких не бажа- ють, щоби вони були проіндексовані.

2. Усе, що знаходить  і зчитує  спайдер, попадає в індекси пошу- кової  системи. Індекси  системи  — гігантське  сховище  інформації, де зберігаються  копії текстової складової усіх сторінок, що відвідав і проіндексував спайдер.

Агенти збирають та індексують різні види інформації.  Деякі, на- приклад,  індексують  кожне  окреме  слово  у документі,  в той час як інші індексують тільки 100 найбільш важливих  слів в кожному до- кументі, індексують розмір документу і кількість  слів в ньому, назву, заголовки  і підзаголовки і так далі. Вигляд побудованого індексу ви- значає, який пошук може бути проведений пошуковим  механізмом  і як отримана інформація буде інтерпретована.

Агенти  знаходять  інформацію,  після  чого її розміщують  в базі даних пошукового  механізму. Адміністратори пошукових  систем ви- значають, які сайти або типи сайтів агенти мають відвідати та проін- дексувати. Проіндексована інформація відправляється до бази даних пошукового механізму.

Користувачі можуть розміщувати власну інформацію  прямо в індексі, заповнюючи  особливу  форму  для того розділу, в який  вони хотіли б помістити свою інформацію. Ці дані передаються базі даних.

Коли користувач  хоче знайти  інформацію,  доступну  в Інтернеті, він відвідує сторінку пошукової системи і заповнює форму, що деталі- зує потрібну йому інформацію.  Тут можуть використовуватись клю- чові слова, дати та інші критерії.  Критерії  в формі  пошуку  повинні

 

відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі.

База даних відшукує предмет запиту, що базується на інформації, яка вказана в заповненій  формі, і виводить відповідні документи, що підготовані  базою даних. Для того, щоб визначити порядок,  в якому перелік документів буде показано, база даних застосовує алгоритм ранжування. В ідеальному випадку, розташованими першими в спис- ку будуть такі документи, що є найбільш релевантними до запиту ко- ристувача.

3. Третя  частина  — це програма,  що відповідно  до запиту  корис- тувача перебирає  індекси пошукової  системи в пошуках  інформації  і видає йому в порядку  зменшення  релевантності знайдені  документи. Релевантність визначає,  наскільки  повно  той або інший  документ (зміст знайденої  веб-сторінки) відповідає критеріям,  зазначеним  у за- питі користувача. Але комп’ютер — не людина, і тому пошукові системи використовують спеціальні алгоритми для визначення релевантності.

Теоретичних методів визначення релевантності веб-сторінок  іс- нує більш ніж 20. Але виділяють  два основні напрями:  лінгвістичне (Rambler, Яndex) і статистичне (Google). Основні російські пошукові системи  (зокрема  Rambler) використовують лінгвістичний напрям, коли пошуковий  робот, переглядаючи сторінку, звертає увагу на «лі- тературність»  її написання (наприклад, «чом ти не прийшов»  буде більш релевантною, ніж «чом ти не травень прийшов»).

Різні пошукові системи використовують різні алгоритми  ранжу- вання, однак основними принципами визначення релевантності є наступні:

• Кількість  слів запиту,  який  є у текстовому  вмісті  документу

(тобто в html-коді).

• теги, в яких ці слова розташовуються.

• Місцеположення шуканих слів у документі.

• Питома  вага слів, відносно  яких  визначається релевантність сторінки, у загальній кількості слів документу.

Вище вказані  принципи  застосовуються всіма пошуковими сис- темами, в той час як наведені нижче використовуються лише деяки- ми, але достатньо відомими (наприклад, AltaVista).

• Час — тобто як довго сторінка  знаходиться в базі пошукового сервера. Спочатку здається, що це недолугий принцип. Але в Ін-

 

тернеті існує багато веб-сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить довго, то це означає, що його власник є досвідченим за певною темою. Вірогідно, що користу- вачу більше підійде веб-сайт, що існує вже кілька років, ніж той, який з’явився тиждень тому за цією ж тематикою.

• Індекс цитованості  показує  як  багато  посилань  на дану  веб- сторінку ведеться з інших сторінок, що зареєстровані у базі по- шукової системи.

База даних виводить ранжований таким чином перелік докумен- тів з html-кодами і повертає  його користувачу,  який  зробив  запит. Різні пошукові механізми вибирають різні способи показу отримано- го переліку  — деякі відображають  лише посилання,  інші — виводять посилання з декількома першими реченнями документу чи заголовок документу  разом з посиланням. Коли користувач  звертається до по- силання  на один з документів, цей документ завантажується з серве- ра, на якому він знаходиться.

Зрозуміло, далеко не завжди документ, визнаний пошуковою системою найбільш релевантним,  буде таким на думку самого корис- тувача.

У кожній пошуковій системі працює власний спайдер, кожна сис- тема індексує  сторінки  своїм особливим  способом  і пріоритети  при пошуку за індексами  теж відмінні. Тому запит на основі визначених ключових слів або виразів у кожній з пошукових  систем зазвичай по- роджує різні результати.

Найбільш відомими міжнародними пошуковими системами є:

– AltaVista (http://www.altavista.digital.com/).

– Excite (http://www.excite.com/).

– HotBot (http://www.hotbot.com/).

– Infoseek (http://www.infoseek.com/).

– Lycos (http://www.lycos.com/).

– WebCrawler (http://www.webcrawler.com/).

Каталоги (directories). Ці веб-сервери Інтернету  виконують  ана- логічну пошуковим  системам функцію з тією різницею, що пошук здійснюється користувачем вручну  за ієрархічно  організованою те- матичною структурою каталогів (див. додаток Г). Для реєстрації в каталозі  необхідно  або заповнити визначену  форму,  або надіслати

 

запит, що містить  вказівку,  в який  розділ ви хочете помістити  свою сторінку, короткий  опис сайта і список ключових слів для пошуку сторінки  в каталозі.  «Королем»  серед каталогів  по праву вважається Yahoo!  (http:// www.yahoo.com/).

Сайт (site) — це ресурс Інтернету, який не має виділеної сервер- ної програми.  Як правило,  він є інтегрованою  частиною сервера, ка- талогом  на серверному  комп’ютері, незважаючи  на те, що більшість сайтів мають власне доменне ім’я.

• Приклади українських каталогів і їх основне призначення:

– UaList.com — каталог, пошукова система, пошта, робота, зна- йомства;

– Youth.net.ua — каталог молодіжних сайтів;

– Richard-LS — тематичний каталог сайтів. Має прямі лінки;

– Silver  Україна в Інтернеті — тематичний каталог ресурсів. Забезпечує пошук у рубриках;

– 360.com.ua — мета-пошук інформації на пошукових серверах усього світу; надає можливість  пошуку інформації  на музич- них веб-сайтах України  та Росії;

– UaList —  пошукова  система  і тематичний каталог  україн- ських сайтів;

– Sesna  — пошукова система та каталог, які є однією з найсер- йозніших розробок у сфері рубрикації української  та украї- номовної частини  Інтернету.  Пошук  виконується як за клю- човими словами, так і за темами; в межах регіону або країни;

– Ukrop  — український об’єднаний  портал:  є інформація про Україну, останні новини, практично всі ресурси українського Інтернету, пошук необхідної інформації, каталог українських ресурсів;

– Старт  Україна — інформаційно-розважальні та ділові  ре- сурси: фірми, організації, новини, оголошення, домени. За- безпечує пошук у каталозі;

– AtlasUa — функціональний каталог  українських сайтів. Дає можливість пошуку товарів, послуг, новин, повнотекстових документів;

– QS — каталог сайтів та пошукова система. Посилання супро- воджуються  анотаціями. Також  містить  прайс-листи, оголо- шення, курси валют, погодні умови та інші рубрики;

 

– КУСТ — пошук в українських ресурсах, різноманітні сервіси, послуги, служби. Веде статистику  сайтів та чемпіонат сайтів.

• Приклади російських  каталогів  і характеристика їх можливос- тей:

– Улітка — тематичний каталог російських  інтернет-ресурсів, який  продовжує  розвиватися. Поповнюється регулярно,  але не надто оперативно.  Пошук здійснюється як за назвою сай- ту, так і за URL. Посилання розбиті на декілька великих роз- ділів, але не мають коментарів;

– SearchCentre — каталог ресурсів Інтернету,  поділений  на 15 категорій. Ведеться рейтинг сайтів;

– Омен  — «Кращі посилання в Інтернеті»  — великий  тематич- ний каталог ресурсів Інтернету. Понад 10 тисяч кращих по- силань  з усіх тем, дво-трирівнева класифікація, відсутність неякісних  ресурсів;

– Сурок  — це компактний каталог  російських  інтернет-ресур- сів з можливістю пошуку;

– @llru.net — анотований  каталог  ресурсів. Посилання на різ- номанітні теми. Можливий пошук за ключовим  словом. Веб- сайт оновлюється щоденно;

– ЕМir — дозволяє шукати за частиною слова, за фразою, а та- кож у знайденому. Має рейтинг сайтів і каталогів;

– RIN — об’ємний каталог кращих посилань в Інтернеті. Харак- теризується високою швидкістю і простотою навігації. Ресур- си цього каталогу постійно оновлюються;

– Dylan — пошукова  система  та каталог  кращих  інтернет-ре- сурсів.

Найкращим прикладом  для українських та російських  каталогів може бути Карлсруеський віртуальний каталог (КВК — KVK), який стане в нагоді, якщо мова йде про пошук книг чи інших самостій- них публікацій. До цього каталогу можна дістатися за адресою http:// kvk.uni-karlsruhe.de, і на сьогодні він є одним з найважливіших бібліо- графічних пошукових систем Німеччини, що підтверджують такі дані про кількість  його користувачів:  КВК опрацьовує  щомісяця  мільйон запитів з усієї країни. Цю пошукову систему для Інтернету  щодо по- шуку книг і журналів  було розроблено  у Карлсруеській універси- тетській  бібліотеці  у процесі  співпраці  з факультетом інформатики

 

і підключено  у липні 1996 р. З того часу каталог постійно поновлю- ється й оптимізується.

КВК — це метапошукова система в Інтернеті.  Коли запит вво- диться  у пошуковий  реєстр, то пошук проводиться зразу ж за 27 бі- бліотечними і книготорговельними каталогами,  представленими в мережі. КВК охоплено  75 мільйонів  книжок  і журналів,  а це на сьо- годні колосальна  цифра, навіть якщо взяти до уваги, що маса книжок описується в каталозі  по декілька  разів. Користувач  вибирає  сам, в яких каталогах необхідно здійснювати  пошук.

Насамперед система КВК постачає списки знайдених  публікацій з форматованими короткими назвами  творів, які за допомогою про- стого клацання мишкою перетворюються на повні назви з інформаці- єю, де їх можна знайти. Таким чином можна дізнатися,  в якій бібліо- теці знаходиться певна книга і які умови її отримання на абонементі або  за  міжбібліотечним абонементом.  Основні  поняття   структури цього каталогу,  з якими  стикається користувач  при пошуку  інфор- мації, надаються  у англійському та іспанському  варіантах.  Пошук  у КВК можна здійснювати за назвою твору, за автором чи ключовим словом  або ж за видавництвом, роком  видання  та номером  ISBN-/ ISSN. Зрозуміло, що КВК може знайти  тільки  те, що надають інтер- нет-каталоги.  Але далеко  не кожна  книга, яка є в бібліотеці,  описа- на в комп’ютерному  каталозі.  Бібліотеки напружено  працюють  над переведенням своїх фондів  у цифровий варіант.  Можна  виходити  з того, що, як правило, література останніх 10–20 рр. повністю описана в комп’ютерних каталогах.

З часу свого заснування КВК інтегрує  все більше інтернет-ката- логів у пошукову  систему.  Зараз  запит  передається до тринадцяти німецькомовних зведених  каталогів,  тобто до спільних  пулів  даних великих бібліотек, п’ять з них — австрійські  та швейцарські. До цього додаються десять бібліотечних  каталогів  з не німецькомовного зару- біжжя — з Франції,  Великої  Британії, Італії, Норвегії,  Швеції,  Іспа- нії та США. Серед них: Бібліотека конгресу, Національна бібліотека Франції та Британська бібліотека. Можна також здійснювати  пошук у базі даних журналів  (БДЖ-ZDB) — найбільшій  у світі базі даних щодо газет, журналів  і т.д., а також фондів. Там зазначені  не тільки друковані засоби інформації, але й електронні  журнали, але, на жаль, немає переліку статей.

 

Але можливості  КВК значно більші — він здійснює пошук у ка- талогах великих  оптовиків  і книжкових інтернет-магазинів, а також у Центральному переліку антикварних книг, який зараз охоплює більш, ніж чотири мільйони  творів з 900 антикварних магазинів  у 17 країнах, які можна замовити  за допомогою мережі Інтернет.  Насам- кінець, з середини  липня  2002 року у виведення результатів  пошу- ку за запитом було інтегровано  також формуляр пошукової  системи Google в Інтернеті.  За допомогою клацання мишкою стартує подаль- ша пошукова робота стосовно інтернет-документів.

Життя науковців,  студентів  і бібліотекарів  вже  не  можна  собі уявити без КВК, який за свої послуги був відзначений премією за но- ваторство «Iнeтбіб 1999» («InetBib 1999 Award Innovation»).

Комбіновані системи.  Деякі  пошукові  системи мають при собі і каталог.  Індекси  для самої пошукової  системи  добуваються  спайде- ром, а каталог  поповнюється через реєстраційну форму  або модера- торами системи.

• Приклади комбінованих систем:

– Excite  Net Directory (http://www.excite.com).

– InfoSeek (http://infoseek.go.com).

– Lycos  (http://www.lycos.com).

– WebCrawler (http://www.webcrawler.com).

Ініціюючі сервери. На відміну від пошукових  машин і каталогів, ціль яких — пошук інформації  і наступне перенаправлення користу- вачів до знайдених  ресурсів відповідно  до запиту, ініціюючі сервери використовують більш комплексний підхід і, поряд з функціями по- шуку  інформації  і переміщення до неї користувачів,  надають  тема- тично різноманітний інформаційний зміст. Найбільш великі з них одержали назву порталів.

Портали — це веб-вузли, що являють собою поєднання інформа- ційного наповнення, спільноти  користувачів і базових послуг, таких, наприклад,  як електронна  пошта. Вони служать відправним  пунктом навігації в середовищі Інтернет, де можна ознайомитися із заголовка- ми новин, дізнатись  про події в мережі, і є центрами,  навколо  яких будуються взаємовідносини користувачів з Інтернетом. Сюди корис- тувач може повернутися, якщо він заблудився в Павутині,  тут також

 

можна слідкувати  за курсами акцій, саме звідси можна починати  по- шук. Тут знаходяться поштові скриньки користувачів, які призначені для отримання і відправлення повідомлень  електронної пошти, а та- кож особиста базова сторінка. Крім того, портал виступає  гарантією безпеки і орієнтиром  у всьому, що стосується  середовища Інтернет.

Портали  володіють приблизно однаковою комбінацією  інформа- ційного наповнення і набором послуг. Відмінності полягають  лише в тому, наскільки  успішно інтегровані всі функції і наскільки  вдало ви- брані технології для організації спільнот користувачів, веб-сторінок, діалогів, електронної пошти і миттєвого відправлення повідомлень.

Основними складовими елементами порталів вважають на- ступні:

• Канали. Одна  із основних  функцій  порталів  — спрощення  по- шуку даних шляхом поділу всієї інформації  на канали.

• електрона пошта. Найпопулярніший рід занять в мережі Інтер- нет став стандартним доповненням до порталів, ще одним спо- собом привести користувачів до вузла і дати їм відчуття зв’язку з порталом. За допомогою поштових клієнтів, не тільки авто- номних, але і на базі мережі можна переглянути HTML-пошту, створити папки і організувати адресну книгу.

• дискусії.  Можливість організації  форуму  для  обміну  ідеями  і зустрічі з іншими користувачами. Дискусії є одним із головних атрибутів  будь-якого  порталу. Більшість порталів наділені вбудованими засобами діалогової  взаємодії, які охоплюють всі служби порталу.

• Покупки.  Інтернет  перетворився в гігантський  ринок  товарів  і послуг, і розробники порталів  мають вигоди від такої ситуації, вони збирають посилання на комерційні вузли і надають корис- тувачам інструменти для пошуку потрібних  їм продуктів.  Так, в Shopping  Guide  вузла Yahoo! передбачена  функція пошуку в Інтернет товарів, наприклад,  книг з найнижчою ціною.

Одним  із найбільш  популярних міжнародних  порталів  виступає Excite (http://www.excite.com), про який вже йшла мова як про одну з популярних міжнародних  пошукових  систем.