Міжнародні інформаційні системи - Навчальний посібник ( Коломієць В.Ф.)

Розділ 14

Технології пошуку в індексованих базах даних мережі Internet

14.1. Поняття про глобальну інформаційну службу WAIS

Однією з додаткових послуг Internet є пошук в індексованих базах даних, що виконує глобальна інформаційна служба (Wide Area Information Service, WAIS).

Система WAIS дозволяє знаходити ресурси в мережі і отримувати до них доступ незалежно від того, де вони знаходяться. Система знаходить ресурси рухаючись по ланцюгу меню і сама виконує пошук. Потрібно тільки повідомлення системі, що необхідно знайти. Команда для системи WAIS зводиться, по суті справи, до вимоги: “Знайдіть мені матеріали про таке-то в такій-то бібліотеці.” WAIS розглядає всі документи в бібліотеці ( бібліотеках), що вказані в команді, і повідомляє, які документи вміщують те, що потрібно по заявці. При бажанні система WAIS видасть ці документи на екран монітора або принтер.

Зараз в мережі Internet нараховується близько 500 загальнодоступних бібліотек WAIS. Оскільки вони ведуться на добровільній основі за рахунок спонсорів, одні галузі знань в них представлені більш повно, інші - менш. Мається багато бібліотек по обчислювальній техніці, мережам, молекулярній біології.

Існують літературні бібліотеки, наприклад, набір художніх творів по проекту “Гутенберг” та бібліотеки, що вміщують різні релігійні тексти і книги. Суспільні науки в сучасний час представлені значно гірше, але бібліотеки з цієї галузі знань постійно розширюються. Працюючи із системою WAIS, можливо запитати: ”Чи є бібліотека по даній темі?” і отримати відповідь, яка дозволить вияснити про наявність в системі WAIS відповідних ресурсів.

Деяка інформація комерційного характеру, наприклад, матеріали інформаційної служби Доу - Джонса, також можуть надаватись через WAIS. Але такі послуги є платними, а загалом вони нічим не відрізняються від безкоштовних послуг.

Система WAIS при пошуку інформації звертає увагу тільки на індекс, вибирає усю інформацію незалежно від її формату ( текстового, графічного або змішаного). Таким чином, систему WAIS можливо розглядати як базу даних спеціалізованих бібліотек.

14.2. Принципи роботи системи WAIS

Розглянемо деякі принципи роботи системи WAIS. Щоб змусити WAIS виконувати команди користувача, необхідно правильно задавати питання та команди. При цьому необхідно знати як будувати ці питання, і як система WAIS їх обробляє.

Система WAIS репрезентує розподілену службу пошуку тексту .В її основу покладений стандарт номер Z 39.50. Це стандарт Американського національного інституту стандартів, що визначає процедуру запита бібліографічної інформації. Цей стандарт довгий час розроблявся фахівцями по бібліотечній справі та комп`ютерній техніці. Даний стандарт регламентує процедуру пошуку, тобто визначає порядок взаємодії двох комп`ютерів в ситуації, коли один комп`ютер повинен запитувати, а інший проведення для нього пошуку. Система WAIS є однією з перших реалізацій цього проекту стандарту і самою найбільш використованою із числа аналогічних систем в сучасній час.

Щоб отримати доступ до документу через сервер WAIS, необхідно створити для цого серверу індекс, якій буде використовуватися при пошуку. При роботі з текстовою інформацією звичайно індексується кожне слово. Коли дається із програми-клієнта WAIS запитання на пошук, ця програма встановлює контакт з серверами, що контролюють вказівки бібліотеки. Програма-клієнт запитує по черзі всі сервери і виконує пошук у їх індексах по заданій сукупності слів. Сервер посилає користувачеві список документів, які можливо для користувача будуть необхідні. Кожному із таких документів приписується цілком визначене число ”балів”. Таким чином, WAIS оцінює, наскільки даний документ, на її думку , підходить для відповіді на запит. Документ, який найбільш повніше задовольняє критерії пошуку, отримує, наприклад, 1000 балів.

Якщо користувач системи WAIS задав пошук документів, що вміщують слова “Clinton and Gore “, то система WAIS аналізує індекси та підраховує, скільки разів в кожному документі зустрічаються слова “Clinton”, ” and “, “Gore”. Потім кожне із цих чисел помножується на деякій коефіцієнт, яким визначається важливість даного слова - так званий ваговий коефіцієнт. Кількість балів для документу обчислюється як сума отриманих значень. По закінченні пошуку в усіх бібліотеках система WAIS видає заголовки документів, що отримали максимальну кількість балів.

Існує обмеження на розмір списку документів, що видаються. Як правило це від 15 до 50 заголовків документів. Із отриманого списку користувач системи зможе вибрати документи для перегляду.

Незважаючи на деякі недоліки системи WAIS: відсутність “контекстної фільтрації, відсутність альтернативних запитань при формуванні запиту, ця система – одна із самих корисних в мережі Internet.

Система WAIS окрім того, має ще одну унікальну властивість: подібний зворотній зв`язок (relevance feedback). Це означає, що деякі програми-клієнти дозволяють знаходити подібні документи.

14.3. Основні технологічні операції системи WAIS

1.Отримання доступу.

Для отримання доступу необхідний комп`ютер, що може виконувати програму-клієнт WAIS. Можна встановити цю програму-клієнт на своєму комп`ютері, робочій станції або звернутися до комп`ютера, де ця програма уже встановлена.

Існують багато програм-клієнтів системи WAIS для більшості стандартних операційних систем та комп`ютерів: MS DOS, Macintosh, X Window, UNIX і т.д.

Програми-клієнти розкладаються на дві групи:

стрічно-орієнтовані (MS DOS, Macintosh)

віконно-орієнтовані ( для X Window, UNIX).

2.Формування питань для пошуку.

На відміну від звичайних баз даних ( d BASE 3, Fox Pro) при роботі в системі WAIS необхідно з максимальною ефективністю покластися на саму систему і дозволити їй розглядати списки документів.

Після запуску системи (для X Window) в головному меню програми WAIS- клієнта ведуть дві бібліотеки: бібліотеку запитань та бібліотеку джерел інформації.

3.Аналіз результатів пошуку.

Результати пошуку виводяться на екран монітора в спеціальному вікні “Результуючі документи” або “Знайдені документи” з відповідними балами. З допомогою програми управління ( клавішею або “мишкою ) можна вибрати ту чи іншу статтю для детального перегляду на екрані або надрукувати на принтері.

Алгоритм процедури пошуку системи WAIS.

1. Виберить каталог-сервер, що зберігає список усіх WAIS-бібліотек.

Каталог-сервер називається directory-of-servers.

2. Задайте загальне запитання для пошуку усіх бібліотек, що мають відношення до вашої теми.

3. Виберіть бібліотеки, які на вашу думку, представляють інтерес.

4. Задайте конкретне запитання для пошуку статті (чи інших джерел інформації), які Вам потрібні.

5. Коли результати Вас не влаштовують, конкретизуйте пошук з допомогою подібного зворотного зв`язку для отримання нової множини питань та статей.

Із практики відомо, щоб сформувати добрий WAIS-пошук - досить складна задача, але з часом користувач набирає досвіду і успішно її вирішує.

14.4. Сервісні режими роботи Internet

Режим TELNET. Цей режим використовується для входу в інші комп’ютери, що підключені до мережі Internet. Також забезпечує доступ до великої кількості відкритих серверів, включаючи бібліотечні каталоги та інші види баз даних. Таким чином, TELNET - це протокол віддаленого доступу для Internet. Він дозволяє користувачу, що знаходиться за клавіатурою одного комп’ютера, входити по мережі у віддалену (іншу) систему. Зв’язок може встановлюватися з комп’ютером, що стоїть в цій же кімнаті, в цьому ж місті або у віддаленому куточку земної кулі. Коли зв’язок встановлений, можливо працювати так, ніби ваша клавіатура підключена безпосередньо до віддаленого комп’ютера.

Можливо користуватися усіма засобами, які віддалений комп’ютер виділяє своїм локальним терміналам:

проводити звичайний діалоговий сеанс;

отримувати доступ до множини спеціальних сервісних засобів;

продивлятися бібліотечні каталоги;

читати газети та журнали;

ознайомлюватися з репертуарами театрів та кінотеатрів тощо.

Користуватися режимом TELNET дуже просто. Необхідно тільки взнати ім’я хост-комп’ютера, з яким ви хочете встановити зв’язок (увійти до нього), а також його вхідне ім’я. Потім вводиться наступна команда:

telnet [host name]

Після з’єднання з комп’ютером може з’явитися вимога вводу вхідного імені. Необхідно ввести одне з імен, що розпізнаються, а не маючи вхідного імені, просто ввести своє власне ім’я. Інколи навіть не потрібно вводити вхідне ім’я, так як комп’ютер дозволяє працювати, не виконуючи ніякого контролю.

В Internet є проста система меню, що називається Gopher (піди - подай, бабак), яка допомагає знайти станції TELNET та з’єднатися з ними.

Система Gopher виконує пошук станції telnet у своєму величезному Gopher- просторі.

Інколи перед запуском сесії TELNET з’являється запит на введення типу терміналу. Найбільш розповсюдженим типом терміналу, з яким працюють практично всі системи, є термінал VT 100 або термінал VT102.

Розглянемо деякі основні команди системи TELNET:

open [hostname] - запуск системи telnet;

close - закриває з’єднання з системою telnet, коли виникло зависання системи;

? - виводить список команд TELNET;

Z - команда дає можливість призупинити сесію telnet, щоб потім повернутися назад;

q або quit - команда переходу в оболонку ОС UNIX та інші.

Режими переміщення файлів (file transfer protocol), або ще називають протокол передачі файлів FTP. Як видно із назви, цей режим виконує переміщення файлів із одного комп’ютера в інший. При цьому не має значення, де ці комп’ютери розташовані, як вони з’єднані між собою, чи вони працюють в одній операційній системі, чи ні. Коли обидва комп’ютери використовують мову протоколу FTP і мають доступ до Internet, існує можливість пересилати файли з допомогою команд FTP.

FTP - складна програма, оскільки існує багато різних способів обробки файлів та файлових структур. Способи зберігання файлів (в двійковому або байтовому форматі, в стисненому або нестисненому вигляді тощо) створюють нові проблеми, для рішення яких можуть знадобитися додаткові зусилля.

В деяких випадках існує можливість проникнути в інші системи без дозволу. Деякі системи відкриті для всіх, будь-який споживач може ввійти в них і взяти ті файли, які системний адміністратор зробить відкритими для всіх. Цей спосіб називається анонімним FTP, так як для входу в комп’ютер не потрібно вхідне ім’я і можна просто входити в комп’ютер як анонім (анонімно). В якості пароля як правило вводиться своя поштова адреса.

Для найбільш швидкого надходження файлів використовуватися програма Archie.

В багатьох системах не люблять користувачів, які хочуть зробити доступ в робочі години серверів. В них можна входити увечері або під час перерви. Тому деякі станції FTP виділяють для доступу визначений або виділений час.