Міжнародні інформаційні системи - Навчальний посібник ( Коломієць В.Ф.)

Розділ 1

Культурологічні міжнародні інформаційні системи

1.1. Лінгвістичні інформаційні системи

Не зупиняючись на відмінностях в інтерпретації поняття “лінгвістичне забезпечення” в сучасній проектній документації та класичній інформатиці, розглянемо його розробку для інформаційних, зокрема бібліотечних систем, як одну з прикладних задач комунікативної лінгвістики. При цьому процес роботи користувача з системою в режимі діалогу будемо інтерпретувати як вигляд мовного спілкування між двома комунікантами.

При дослідженні діалогу між двома комунікантами виділяються такі його аспекти, як комунікативна установка (інтенція, намір) розмовляючого, пресупозиціональна вимога спілкування, тобто "загальний фон знань" (база знань) користувача і системи, актуальне розчленовування тексту ( тобто співвідношення нового і старого, відомого в структурі його смислового змісту), а також способи знакового вираження значення, що передається, які в сукупності з "фоном знань" забезпечують адекватну передачу інформації, тобто узгодження передаючої та приймаючої частин системи комунікації. Справа в тому, що передаючому (розмовляючому) доводиться моделювати в своїй свідомості того, що приймає (адресата, що розуміє), настроюватися на свого співрозмовника, точніше - на його систему знань, способи вираження значення, комунікативну установку.

При розробці інформаційних систем створюються спеціальні засоби лінгвістичного забезпечення (ЛЗ) банків даних, які по можливості оптимальним образом формують умови для необхідного "розуміння" в комунікативній системі "людина - машина" і успішного вирішення інформаційно-пошукових задач. Засоби формування цих умов - формати представлення елементів машиночитаємих записів, інформаційно-пошукові мови (ІПМ) для тематичного або фактографічного пошуку і структура діалогу.

Якщо не звернути увагу на який-небудь аспект мовної комунікації користувача і системи, можуть виникати ситуації, коли відмінності в моделюванні ситуації спілкування, нерідко виникаючи і в розмові двох співрозмовників-людей, приведуть до істотних втрат інформації, до шуму при пошуку або іншого несприятливого результату.

Причина звертання в бібліотеку і зокрема до електронного каталогу (ЕК) - загальна комунікативна установка читача отримати документи (видання, рукописи), що володіють відомими йому характеристиками: належать певному автору, мають конкретні заголовки, опубліковані даним видавництвом, відповідають певній темі, трактують даний предмет і т.д., або відомості про наявність (місцезнаходження) таких документів.

"Установка" АІБС ЕК як комуніканта може бути лише одна - надати користувачеві максимально сприятливі умови для пошуку і забезпечити пошук необхідної інформації по довільному поєднанню пошукових ознак. Можливі "наміри" читачів розглядаються в ЕК як пошукові задачі. Розробник ЛЗ повинен в структурі ЛЗ передбачити засоби ідентифікації відповідних пошукових ознак і методи їх виявлення в записах бази даних. Природно, це виливається в розробку передмашинних форматів представлення елементів запису (наприклад, бібліографічних або авторитетних/нормативних) і засобів відображення смислового змісту документів.

Приступаючи до діалогу з ЕК, читач передбачає (можливо, несвідомо, аналогічно із зверненням до людини), в якості передумови, наявність у електронного каталогу деяких необхідних "знань" енциклопедичного характеру, зокрема, про ієрархічні або асоціативні зв’язки між поняттями. Крім того, читач в праві вимагати від ЕК "розуміння" (ідентифікації), що таке "автор", "рік видання" або "тема", інакше можуть виникнути непорозуміння, не кажучи про значне збільшення часу пошуку за кожною характеристикою шляхом суцільного перегляду машиною бібліографічних записів (БЗ) в базі даних ЕК.

Розумно вважати, що, насамперед, ЕК повинен пристосуватися до читача, у відповідності зі своєю "установкою", і в меншій мірі - читач до каталогу. У зв’язку з цим розробник забезпечує пресупозиціональні умови (попередню домовленість, попередні умови) комунікації, в цьому випадку - загальний фон знань комунікантів.

Знання бібліографічного характеру, як це прийнято в більшості систем, задаються машині у вигляді згаданого передмашинного формату. Так звані "енциклопедичні" знання про структуру предметних областей фіксуються в спеціальній базі даних ЕК, умовно званої "база знань", і що має вигляд словника -тезауруса або класифікації.

Як правило, в бібліотеках використовуються також такі допоміжні картотеки, або довідники, як "Картотека різночитань іноземних прізвищ", "Найменування організацій" (перейменування організацій, варіанти найменувань, абревіатури) і т.п. Їх введення в електронний каталог в формі нормативних записів означає формування цілого ряду довідкових баз даних, як додаткової пресупозиціональної умови успішного спілкування читача з ЕК. Дійсно, фіксація допустимих способів вираження одного і того ж поняття дає читачеві і ЕК шляхом звертання того або іншого з них в довідкові бази даних забезпечити однозначність вираження і сприйняття значення в діалозі. Таку ж роль узгодження лексики спілкування з системою виконують переліки допустимих значень окремих елементів БЗ. Хороші приклади - переліки кодів назв країн, видів носіїв, кодів мов і т.д. Тут необхідність взаємодії бібліотек безперечна.

Відносно підготовки форматів співпраця бібліотек в Україні і між бібліотеками різних країн досить розвинена. Прикладами можуть служити міжнародні конференції та семінари по форматах UNIMARC і USMARC, робочі групи по підготовці комунікативних форматів для бібліографічних і нормативних (авторитетних) записів на основі UNIMARC-форматів для відповідних записів.

Зараз, у відповідності зі спеціальною угодою, РДБ (Украіна) бере участь в спільних дослідженнях з фахівцями Бібліотеки Конгресу США, Національної бібліотеки Канади і Британської бібліотеки, направлених на зближення форматів з метою створення єдиного формату представлення елементів бібліографічних записів для вказаних бібліотек.

Що стосується забезпечення "взаєморозуміння" між читачем і ЕК на основі "баз знань", то, наприклад, РДБ пропонує в такій якості використати формалізовану і модернізовану Бібліотечно-бібліографічну класифікацію (ББК) в машиночитаємому вигляді з предметним входом до неї.

Користувач ЕК вводить гіпотетичний набір понять, висловлених звичайною мовою як пошуковий аргумент. Програмне забезпечення демонструє при виведенні на екран варіанти найменувань ділень класифікації, пов’язаних з цими словами, і показує семантичні відносини між найменуваннями. Потім користувач вибирає потрібну тему (предмет), і система показує на екрані бібліографічні записи. При цьому індекси він може не використати.

Цю відповідність між предметами (поняттями, термінами) і найменуваннями ми називаємо "предметним входом, або доступом" в ЕК або класифікації. Предметний доступ може служити засобом з’єднання лексичних одиниць різних природних мов з діленнями різних класифікацій і дескрипторів різних тезаурусів. Користувач зможе побачити найменування ділень з різних класифікацій, пов’язаних з пошуковим аргументом.

Як проект майбутнього, можна уявити собі банк даних, утримуючий багатомовний словник слів і словосполучень, які пов’язані з нормативними/ авторитетними записами для різних класифікацій і тезаурусів. Використання такого масиву даних корисне при пошуку в чужих базах даних. Бібліотеки не будуть залежати при цьому від відмінностей в мові та типі класифікації власного ЕК і придбаної бази даних або бази даних на чужому комп’ютері. Такий проект може сприяти організації тематичного пошуку в INTERNET.

Невеликим експериментом в даному напрямі можна вважати випуск в 1995р. декількома організаціями загального CD-ROM "Класифікаційні системи". Програмне забезпечення, що використовується на цьому диску, дозволяє шукати по слову відразу в різних класифікаціях і класифікаторах, отримуючи на екрані список відібраних ділень (рубрик).

Багато які бібліотеки в наш час вирішили використати в своїх автоматизованих системах тезауруси, але при цьому відчувається, що ними майже не використовується колишній досвід в цій області, накопичений при створенні інформаційно-пошукових систем.

Перші пропозиції про використання тезаурусів в інформаційно-пошукових системах з’явилися в 1957 р., а перші тезауруси для підвищення якості пошукових процесів створювалися на початку 60-х років. У 60-і - 70-і роки повністю розроблена теорія інформаційно-пошукових тезаурусів, опубліковані десятки, якщо не сотні, робіт зарубіжних і вітчизняних авторів. У публікаціях пропонуються методичні принципи збору і лексикографічної обробки ключових слів (КС), принципи встановлення семантичних відносин між ними, описується стандартна структура тезауруса.

Ми розглядаємо метод побудови тезаурусів за категоріальним принципом. Цей метод заснований на концептуальній моделі системи знань і використовувався в ряді ІПС.

Мова представлення знань розглядається в структурі людської діяльності, а формалізація семантики складається у вичлененні та формалізованому представленні деяких компонентів діяльності. Спосіб моделювання знань базується на гіпотезі про організацію знань в людській свідомості при пошуку інформації в масиві текстів.

Кожна область діяльності людини (галузь науки, техніки, господарства) виділяється, з ряду інших або за об’єктом діяльності, або за специфікою процесів, складаючих дану діяльність, або за засобами здійснення деякого класу процесів. Коротке визначення області діяльності можна дати, як правило, за допомогою пари вигляду < "предмети", "процеси">, < "процеси", "предмети"> або трійки < "предмет", "процес", "предмет">,, < "процес", "предмет", "процес">, в яких один з елементів виступає як ведучий.

У результаті виділяються наступні семантичні категорії елементів: процеси доцільної діяльності, або просто "процеси"; об’єкти діяльності і її засоби, тобто "предмети" як деякі матеріальні або ідеальні сутності (речі, особи, теорії, конструкти і т.д.); елементи, що характеризують "процеси" або "предмети" або що є слідством їх здійснення, існування, появи ( "супутні процеси, явища, стани)", "негативні явища", "характеристики" і "умови".

Подальший розподіл по більш вузьких категоріях виливається в процес побудови ієрархічних дерев по відношенню "рід-вигляд".

При цьому в одні і ті ж точки гілок цих дерев попадають ключові слова (КС), семантично умовно еквівалентні в даній області знання з точки зору інтересів інформаційного пошуку. Вони утворять дескриптори.

Вважаємо, що використання КС і тезаурусів доцільно лише в спеціальних бібліотеках, з каталогами по досить обмеженій тематиці. В універсальних бібліотеках це веде або до невиправданих витрат на непомірно трудомісткі розробки, або при їх відсутності - до дуже великих, спочатку непомітних, але непоправних втрат інформації при пошуку.

Аналогічно з теорією актуального розчленовування тексту в лінгвістиці, можна вважати, що, видаючи на екран меню і маски в якості повідомлення (реми), ЕК задає теми текстів - відповідей користувача. Тексти-відповіді виходять шляхом введення користувачем реми для запропонованої теми у вигляді тексту при заповненні екранних масок або номерів вибраних рядків меню.

Слід зауважити, що розробляємі для ЕК екранні тексти виявляються тим більше працездатними, чим, по-перше, повніше і точніше виражають майбутню тему тексту читача і, по-друге, чим менших знакових засобів вираження реми вимагають для формування повноцінного тексту-відповіді читача. Очевидно, що в людинно-машинній системі мовної комунікації однозначно зрозуміла тема (про що говориться на даному кроці діалогу) і максимально обмежені способи вираження реми стають однією із застав успіху роботи ЕК при пошуку. ЕК як би веде діалог за системою "підказка читачеві". Маска, меню, HELP і уточнення способів вираження по довідкових базах даних і являють собою не що інше, як 4 типи підказки. Саме в цьому і полягає значення вдосконалення структури діалогів в інформаційних системах.

1.2. Навчальні інформаційні системи

Одна з напрямів навчального процесу, де навчальні інформаційні системи набули найбільшого поширення є дистанційна освіта. Інтерес до дистанційної освіти в Україні підтримується повідомленнями про динамічне зростання системи дистанційної освіти за кордоном. Саме поняття дистанційної (чи дистантної) освіти позичено з англійської мови і практики освіти Великобританії, де не лише поняття Distance Education, але і абревіатура DE, що походить від цих слів, стали сталими і не потребують розшифровки. В зарубіжній практиці поняття дистанційної освіти охоплює найрізноманітніші моделі, методи і технології навчання, при яких викладач і студент просторово розділені, знаходяться в різних місцях (класах, школах, районах, містах і навіть країнах). При цьому стає необхідним певне середовище чи засоби, за допомогою яких відбувається спілкування викладача і студента. Такими засобами можуть бути:

друковані та письмові матеріали, що пересилаються звичайною поштою або факсом;

телефонна мережа;

аудіо- та відеозаписи, навчальне радіо і телебачення (а також кіно);

інтерактивні програмовані навчальні засоби, комп’ютерні навчальні програми.

Термін “дистанційна освіта” не означає якоїсь особливої технології, швидше, він описує спосіб навчання, що дозволяє викладачу і студентам вийти за вузькі межі навчання в класі. Розглянемо докладніше поняття дистанційної освіти, а також спектр його можливостей.

Дистанційна освіта (ДО) - це практика, яка поєднує викладача, студента, а також джерела, розміщені в різних географічних регіонах, за допомогою спеціальної технології, що дозволяє здійснювати взаємодію. Взаємодія забезпечується різними засобами, такими як обмін друкованими матеріалами через пошту і телефакс, аудіоконференція, комп’ютерна конференція, відеоконференція. Дистанційна освіта виявляється перспективним засобом отримання освіти ізольованими сільськими студентами, студентами із специфічними вимогами чи особами, що нездатні досягти мети іншими засобами.

Важливо відмітити, що користь від отримання інформації ззовні перетворює освіту на відстані більш привабливим для працюючих дорослих, тих, хто переконаний, що масовість і розклад навчання для нього непридатний.

Можна визначити дистанційну освіту як освіту, що характеризується п’ятьма основними моментами:

Існування викладача і студента і, як мінімум, наявність домовленості між ними;

Просторова роздільність викладача і студента;

Просторова роздільність студента і навчального закладу;

Двонапрямкова взаємодія викладачі і студента;

Підбір матеріалів, що передбачені спеціально для дистанційного вивчення.

Це визначення охоплює ряд форм навчання - від заснованих на друкованих матеріалах, коли спілкування здійснюється за допомогою пошти і телефону, до двосторонніх відеокурсів, коли викладач і студент “зустрічаються” на телевізійних екранах.

В основному, в дистанційній освіті існує два підходи в забезпеченні підтримки навчання - розширення і трансформація. Ці підходи можуть бути описані наступним чином.

Модель розширення має місце тоді, коли викладач проводить урок, що технологічно мало відрізняється від традиційного, розширюючи його до інших просторових і часових рамок. Діяльність викладача, сукупність учбових матеріалів, учбове середовище дозволяє імітувати ситуацію навчання в умовах класу, а також компенсувати втрачені канали спілкування і отримання учбової інформації. Дана модель навчання передбачає перетворення лекції і наступного обговорення в класі на індивідуальні навчальні матеріали.

Модель трансформації характеризує такі форми організації дистанційної освіти, які не імітують традиційну освіту, а являють собою дещо нове, специфічно пов’язане з технологіями відповідного зв’язку викладача і студентів.

Програми дистанційної освіти не обов’язково є прикладами точної відповідності тієї чи іншої моделі, проте знання відмінностей між моделями важливо для розуміння проблем психологічного і викладацького порядку, з якими зустрічається дистанційна освіта. Разом з новими методами і технологіями навчання дистанційна освіта привносить в теоретичну педагогіку та освітню практику нові поняття і терміни, в першу чергу до них відносять:

віртуальний клас (група);

підтримка освіти (підтримка студентів);

учбові телекомунікаційні проекти;

зворотній зв’язок;

діалогова технологія;

комп’ютерний зв’язок;

телеконференція;

координатор, модератор, фасілітатор телекомунікаційного проекту (телеконференції).

Під віртуальним класом (групою) в зарубіжній практиці дистанційної освіти розуміється спільнота студентів, взаємодія між якими при спільному виконанні ними учбових завдань відбувається через комп’ютерні мережі. Віртуальний клас - поняття, властиве трансформаційній моделі дистанційної освіти, так як можна допустити, що спілкування між студентами за допомогою комп’ютерної мережі досить суттєво відрізняється від звичайного. В умовах вітчизняної освіти є досвід, на основі якого правильніше говорити про квазівіртуальні класи, коли студенти, що не мають комп’ютерів вдома, при спільній груповій діяльності використовують комп’ютери своєї школи для спілкування з аналогічними групами з інших шкіл (інших міст).

Учбовий телекомунікаційний проект - одна з перспективних форм трансформаційної моделі дистанційної освіти, заснована на спільній (колективній) діяльності студентів, спрямованої на досягнення певної модельної мети. Мета, яка звичайно постає перед студентами, носить не учбовий характер і моделює мету будь-якої наукової чи виробничої діяльності (наприклад, ціль учбового проекту екологічної направленості - виявити джерела забруднення навколишнього середовища в деякому районі). Така модельна ціль придає дієвості учнів в проекті інтегрованого характеру, стимулює у них навички та вміння працювати в колективі, з використанням розподілу праці та ролей, а також активну соціальну направленість. Важливими рисами учбового телекомунікаційного проекту є такі:

його часова визначеність і обмеженість (від двох тижнів до трьох місяців);

використання комп’ютерних телекомунікаційних мереж і програмних засобів для обміну інформацією між всіма учасниками проекту, які часто утворюють віртуальну чи квазівіртуальну групу;

необхідність чіткої організації діяльності студентів, яка встановлюється координатором проекту.

Зворотній зв’язок в дистанційному навчанні - узагальнення відповідного кібернетичного поняття - потік інформації від педагога до дистанційного учня на стадії оцінювання педагогом діяльності студента, його просування та успіхів і такий, що несе реакцію педагога на успіхи студентів, оцінку його діяльності.

Діалогова технологія - конфігурація програмного забезпечення, обладнання, а також міжособистісної взаємодії та діяльності, що забезпечує вільне спілкування.

Телеконференція - спосіб обміну текстовими повідомленнями з певними спільнотами зацікавлених в цьому людей.

Комп’ютерний зв’язок - сукупність способів використання комп’ютерів і телекомунікаційних мереж в якості інструментів для організації зв’язку. Комп’ютерний зв’язок включає в себе:

електронну пошту, яка дозволяє направляти повідомлення в поштові скриньки користувачів мережі;

телеконференції, які дозволяють направляти повідомлення всім учасникам одночасно;

доступ до віддалених інформаційних джерел, наприклад, бібліотечних ресурсів, базам даних, серверів.

Дистанційна освіта за кордоном, особливо в Європі, зараз входить в нову, дуже важливу фазу свого розвитку. Після порівняно тривалого періоду відносної стабільності в розумінні незмінності основних технологій і методів навчання, і недавнього періоду кардинальних змін, внаслідок появи нових різноманітних середовищ (відео, комп’ютерних телекомунікацій ) ДО сьогодні входить в фазу інтегрування та зближення технологій. Цей період суттєво вплине на практику навчання. Серед ключових тенденцій в розвитку ДО необхідно вказати наступні:

одночасне розгортання (зростання різноманітності) та зближення технологій;

зміни в стосунках між викладачами і студентами;

зміни в стосунках між навчальними закладами;

поява стійких тенденцій.

В 80-х роках технології ДО, що використовувалися для створення учбових матеріалів, їх доставки і взаємодії між викладачами і студентами, були малочисельні і примітивні. В основному, це були друковані матеріали, відео і зрідка прямі телевізійні трансляції. Для доставки використовувалась звичайна пошта, кабельне і громадське телебачення. Взаємодія здійснювалась за рахунок письмових творів, прямих консультацій по телефону і інколи за допомогою аудіо- записів.

Починаючи з середини 80-х швидко зростають різноманітні інтерактивні телекомунікаційні середовища - супутникові, мікрохвильові, стисле відео, аудіо конференції тощо. Все це робить групове навчання центром уваги в ДО.

Нові середовища дозволяють розширити традиційну аудиторію до так званої “віртуальної”. В результаті контроль за часом, місцем і темпом навчання повертається учбовому закладу, але студенти отримують можливість спілкуватися один з одним.

В наш час з’явився новий тип учбової групи – “спільнота студентів” - дякуючи асинхронності таких телекомунікаційних середовищ як комп’ютерні конференції, електронна пошта і голосова пошта.

Оскільки ці середовища не передбачають одночасних питань та відповіді, студенти можуть знову самі обирати час, місце і темп, зберігаючи можливість спілкування з іншими студентами, які в цей час працюють з другою частиною учбового курсу або навіть проходять зовсім інші курси в рамках програми. Цілі спілкування в “співтоваристві студентів” не так дидактичні, як контекстуальні, маючи на увазі принципово новий рівень спілкування, окрім передбачуваної програмою учбової програми.

Можна очікувати появу нового типу стосунків в кінці цього чи на початку наступного тисячоліття. По мірі того, як студенти отримуватимуть доступ до великих баз даних, гіпермедійних комплексів, відео і тексту за допомогою комп’ютерних мереж, з’явиться новий тип студента - чудово обладнаного для навчання, а краще сказати, цілого “співтовариства молодих вчених”. Студенти самі управлятимуть часом, місцем та темпом, широтою охоплення і послідовністю учбового матеріалу і, більше того, матимуть можливість вільно спілкуватися із ровесниками та викладачами.

90-і роки принесли свої нововведення в стосунки між учбовими закладами. Найбільш видатний з них - мережевий відкритий університет. Передував йому Національний технологічний університет (США), який видавав дипломи, дякуючи спільній роботі багатьох великих ВУЗів. Зовсім свіжий приклад - це консорціум ступеня національних університетів, який об’єднує дев’ять солідних ВУЗів, що пропонують національну ступінь бакалавра в менеджменті. Цей консорціум був створений як результат діяльності університету Розвитку Розуму, який і досі просуває створення інших, більш спеціалізованих консорціумів в бібліотечній справі і в галузі розробок систем викладання з метою присудження національних ступенів з цих спеціальностей.

Більш того, вперше в історії американської освіти спостерігається поява нових національних університетів дистанційної освіти, а також нових спеціальностей і вчених ступенів, отримуваних за допомогою дистанційної освіти. Серед прикладів можна назвати ступінь магістра ділового адміністратора державного університету штату Колорадо, ступінь з інформатики державного університету Чикаго, ступінь з бібліотечної справи Арізонського державного університету, магістра управління освітою університету Джорджа Вашингтона, магістра акустики Пенсільванського державного університету і, нарешті, ступінь бакалавра з ядерної фізики університету Меріленда.

Термін “дистанційна освіта" означає різні освітні моделі, для яких спільним є те, що деякі або всі викладачі та студенти просторово розділені. Як і всі типи освіти, різні моделі дистанційної освіти будуються на основі головних компонент процесу навчання:

виклад предметного змісту;

взаємодія з викладачами;

виконання практичних завдань.

Кожна модель дистанційної освіти використовує технології, які тим або іншим чином впливають на ці компоненти.

Різні моделі дистанційного навчання відрізняються не тільки технологіями, що ними використовуються, але і мірою управління та відповідальності викладача і учнів. У деяких моделях викладачі та учбовий заклад зберігають свої функції повного управління процесом навчання як у випадку традиційної системи класного навчання. В інших випадках управління навчанням переходить до тих, що навчаються.

Нижче представлені три моделі дистанційної освіти. Звичайно, вони не відображають всіх можливих підходів до дистанційної освіти. Однак, вони відображають два крайніх випадки і середину на континум від управління навчанням викладачем до управління самим учнем.

А. МОДЕЛЬ РОЗПОДІЛЕНОГО КЛАСУ має місце в тих випадках, коли інтерактивні телекомунікаційниі технології розповсюджують курс, розрахований на один клас, на групи студентів, що знаходяться в різних місцях. Типовий результат - змішаний клас, який об’єднує традиційно і дистанційних студентів, що навчаються. Учбовий заклад і деканат контролюють успішність.

Б. МОДЕЛЬ САМОСТІЙНОГО НАВЧАННЯ звільняє студентів від необхідності знаходитися в певному місці в певний час. Студенти забезпечуються набором матеріалів, що включає виклад курсу та докладну програму, і отримують можливість звертатися до співробітника факультету, який здійснює керівництво, відповідає на питання і оцінює роботу. Контакт між студентом і методистом досягається шляхом використання телефону, комп’ютерних конференцій, електронної і звичайної пошти.

В. МОДЕЛЬ ВІДКРИТЕ НАВЧАННЯ + КЛАС включає в себе використання друкарського викладу курсу і інших засобів (наприклад, відеозаписів або комп’ютерних дисків), які дозволяють студенту вивчати курс з найбільш прийнятною швидкістю в поєднанні з інтерактивними телекомунікаційними технологіями для організації спілкування студентів всередині дистанційної групи.

1.3. Бібліотечно-архівні інформаційні системи

В наш час заміни паперових технологій безпаперовими всі архіви, які фактично є найбільшими накопичувачами інформації на паперових носіях, повинні бути як найшвидше переведені на безпаперову основу.

Головною проблемою при переході на таку основу є стандартизація форматів програмних продуктів, що мають забезпечувати всі сервіси сучасного архіву.

Термін MARC являє собою акронім назви системи Machine- Readable Catalogue or Cataloguing (Каталог або каталогізація, що читається машиною.) Однак ця назва не є зовсім точною, оскільки MARC не є ні яким-небудь виглядом каталогу, ні методом каталогізації. Фактично MARC - це короткий та зручний термін для позначення процесу маркування будь-якої частини каталогізаційного запису так, щоб вона могла бути оброблена за допомогою комп’ютера.

У загальних словах, комунікативний формат MARC повинен забезпечувати:

можливість його застосування для всіх видів бібліотечних та архівних документів;

достатню гнучкість для рішення різноманітних задач в доповнення до каталогізації;

зручність застосування в різних автоматизованих системах.

Застосування стандарту MARC в архіві, який до цього працював з каталожними картками, помітно збільшить швидкість роботи, тобто не буде необхідності стояти "бог знає скільки часу" біля каталогу, щоб знайти потрібну картку. Стандарт MARC дозволяє знайти будь-який документ, який є в архіві, в лічені секунди. Наприклад, якщо читач забув або не знає якого-небудь потрібного опису документу (автор, назва і т.п.), то MARC дає можливість знайти цей документ за ключовими словами. До переваг MARC-а потрібно віднести і те, що він вимагає мінімум одного комп’ютеру, тобто всі ті каталоги з картками стають непотрібними.

Використання стандарту MARC запобігає дублюванню роботи та допомагає архівам і бібліотекам краще розпорядиться їх ресурсами.

Застосування стандарту MARC при управлінні архівними операціями дозволяє архіваріусам використовувати існуючі автоматизовані архівні системи. Багато систем, доступні архівам різного рівня, спроектовані для роботи з форматом MARC. Вони технічно обслуговуються і удосконалюються, так що архіви можуть користуватися перевагами останніх досягнень в комп’ютерній технології. Стандарт MARC дозволяє також архівам замінити одну систему на іншу з упевненістю, що їх дані будуть сумісні.

Незважаючи на співпрацю країн в цій області з’явилося, декілька версій формату MARC таких, як UKMARC, INTERMARC, USMARC, розходження в яких були викликані відмінностями в національних правилах і практиці каталогізації.

Архів Конгресу є офіційним депозитарієм публікацій Сполучених Штатів і первинним джерелом каталогізаційних записів для міжнародних публікацій та публікацій США. У 1960-і рр. архів Конгресу розробив формат MARC Бібліотеки Конгресу (формат LC MARC), систему, що використовує в каталогізаційному записі цифри, букви та інші символи для позначення різних типів інформації. У процесі розвитку формат LC MARC став форматом USMARC (форматом MARC США). Ведення архівного формату USMARC, також як і офіційної документації USMARC, здійснюється Бібліотекою Конгресу.

Терміни USMARC та їх визначення.

Покажчики даних (Signposts): Щоб прочитувати та інтерпретувати архівний запис, комп’ютеру необхідна допомога. Таблиця 1 ілюструє інформацію, для позначення якої потрібні "signposts".

Таблиця 1

Запис з текстовими "signposts": Той же запис з мітками MARC:

"SIGNPOSTS"

ДАНІ

"SIGNPOSTS"

ДАНІ

Заголовок основного

архівного запису:

Ім’я:

King,

Stephen

1

King, Stephen

Заголовок та дані про відповідальність:

Основний заголовок:

Дані про відповідальність :

 

Misery

Jim Arnosky

10

Misery

 

Jim Arnosky

Галузь видання:

Інформація про видання:

1 st ed.

250 $а

1 st ed.

Порівняння одного і того ж запису з текстовими "signposts" і з мітками USMARC ілюструє компактність формату USMARC, тобто економне витрачання об’єму комп’ютерної пам’яті.

Таблиця 1 ілюструє запис MARC, розмічений "signposts". Найменуваннями цих "signposts" є: ПОЛЕ, МІТКА, ІНДИКАТОР, ПІДПОЛЕ, КОД ПІДПОЛЯ і ВИЗНАЧНИК ЗМІСТУ. Розглянемо ці терміни окремо.

Поле: Кожний архівний запис логічно ділиться на поля. Є поле для автора, поле для інформації про заголовок і т.д. Ці поля поділяються на одне або декілька "підполій".

Як було відмічено раніше, текстові найменування полів дуже довгі, щоб їх приводити в кожному записі USMARC. Замість цього, поля представляються 3-х цифровими мітками.

Мітка: Кожне поле асоціюється з трьохцифровим числом, яке називається міткою. Мітка ідентифікує поле (тип даних), яке слідує після неї. Навіть якщо на екрані дисплею, відразу після мітки виведені ще і індикатори (таким чином, може з’явитися число з 4 або 5 цифр), мітка завжди являє собою перші три цифри.

Індикатори: За кожною міткою поля слідують дві позиції символів (за винятком полів 001 - 009). Одна або обидві ці позиції символів можуть використовуватися для індикаторів. У деяких полях застосовується тільки перша або друга позиція; в інших полях використовуються обидві позиції; а в таких полях, як 020 або 300, позиції не використовуються зовсім. Якщо позиція індикатора не використовується, індикатор характеризується як "невизначений", позиція залишається незаповненою. У даному роботі, в прикладах, незаповнені або невизначені позиції індикатора означаються символом " # ".

Значенням кожного індикатора є цифра від 0 до 9. (Хоч правилами допускаються букви, вони використовуються рідко). Навіть, якщо два індикатори разом можуть здаватися 2-х значним числом, насправді вони є двома окремими цифрами. У приведеному нижче прикладі перші 3 цифри є міткою (245 визначає поле заголовка), 2 наступні цифри (1 і 4) є значеннями індикаторів. "1 - "перший індикатор; "4 - "другий індикатор.

 

24514 $a The waste lands / $c adapted from Stephen King.

 

Значення 1 першого індикатора в полі заголовка вказує, що в даному каталозі повинен бути окремий архівний запис на заголовок. У картковому каталозі це означає, що для одиниці опису повинна розпечатуватися картка з додатковим архівним записом на заголовок, а в довідці про додаткові записи повинно бути вказано "Заголовок".

За допомогою другого індикатора на екрані дисплея вказується кількість символів на початку поля (включаючи пропуски (spaces)), які не повинні враховуватися комп’ютером в процесі сортування і розставлення. Для заголовка The waste lands другий індикатор встановлюється на цифрі "4", щоб перші чотири символи ("T, "h, "e, "пропуск) не враховувалися при сортуванні і заголовок сортувався в файлі на слово "waste".

Підполе: Більшість полів містить декілька окремих взаємопов’язаних даних. Кожний тип даних в полі називається підполем, і кожному підполю передує код підполя. Поля від 001 до 009 не мають підполей.

Наприклад, поле фізичного опису для документів включає підполе для об’єму (кількість сторінок), підполе для інших фізичних характеристик (інформація про ілюстрації), а також підполе для розмірів (сантиметри):

 

300 ## $a 675 p.; $b ill.; $c 24 см.

 

Код підполя: Код підполя являє собою одну букву нижнього регістра (в окремих випадках цифру), якою передує роздільник підполя. Кожний код підполя вказує, який тип даних слідує після нього.

Роздільник: Різні програми математичного забезпечення для уявлення роздільника на екрані використовують різні символи. Прикладами можуть служити подвійні дужки ((), знак "ет" (@), знак долара ($), лінія підкреслення (_) і інші. У даному випадку як частина коду підполя, що є роздільником, використовується знак долара ($).

У приведеному вище прикладі кодами підполей є: $а для позначення об’єму, $b для інших фізичних характеристик і $с для розміру.

Цілі створення формату UNIMARC.

З початку 70-х років сімейство MARC збільшилося більш ніж на 20 форматів. Відмінності в змісті даних цих форматів викликають необхідність редагування запису до обміну ними.

Для подолання несумісності форматів було прийняте рішення розробити міжнародний формат MARC (UNIMARC), який дозволив би приймати записи, складені в будь-якому форматі MARC так, щоб вони могли конвертуватися в UNIMARC, а з нього в будь-який інший формат MARC. Для цього кожній національній службі досить буде становити тільки дві програми (одну для конвертування в UNIMARC, іншу з формату UNIMARC) замість спеціальних програм конвертування в кожний з форматів MARC, наприклад, INTERMARC в UKMARC, USMARC в UKMARC і т.д. Таким чином, основною метою створення формату UNIMARC є сприяння міжнародному обміну даними в машиночитаємій формі між національними архівними службами, а також більш простого і зручного складання опису архівних одиниць, їх пошук і контроль. Останнє досягається за допомогою розроблених методів запису архівної інформації, здійснюваною відповідно до міжнародних стандартів.

Відмінність формату UNIMARC від формату USMARC.

Передусім треба відмітити, що ті визначення, які приводилися для формату USMARC підходять (або правильніше сказати застосовуються) в форматі UNIMARC (тобто поняття поля, влучні, індикатора, маркера, довідника та інше зберігаються). Таким чином, не має значення описувати так же детально формат UNIMARC, як був описаний формат USMARC. Тому варто зупинитися на тих фрагментах, які відрізняють ці два формати.

Основною відмінністю форматів UNIMARC і USMARC є передусім невідповідності полів, підполій, індикаторів і т.п. (тобто правильніше буде сказати невідповідності міток полів, підполій, індикаторів і т.д. До відмінностей можна віднести також і те, що кількість полів в форматі UNIMARC не співпадає з кількістю полів в форматі USMARC, причому в UNIMARC полів більше ніж в USMARC. Це пов’язано з тим, що сам формат UNIMARC, як було сказано раніше, створювався значно пізніше, ніж формат USMARC і, відповідно, при створенні UNIMARC враховувалося все, щоб цей формат був кращим і замінив всі інші формати.

Подальші відмінності між форматами UNIMARC і USMARC є більш дрібними і пов’язані знову таки з тим, що формат UNIMARC "молодше" формату USMARC (наприклад, кількість підполій в полях, довжини полів, відмінності в позначеннях індикаторів та інше).

Конвертування даних по структурі USMARC -UNIMARC.

При створенні конверторів USMARC-UNIMARC необхідно скласти певні алгоритми програм.

Розглянемо алгоритм програми-конвертора UNIMARC -USMARC.

Програма-конвертор може складатися з 3 блоків.

У першому блоці програма-конвертор повинна прочитувати ті дані з файла, які необхідно конвертувати.

Другий блок є основним і самим складним. У ньому, власне, і відбувається конвертування даних. Це конвертування також можна розділити на декілька складових частин. Спочатку необхідно перебудувати маркер. Після має бути конвертування довідника. Тут буде важливим перевести всі мітки полів, підполій і індикаторів, які не співпадають. Цю задачу можна вирішити за допомогою додаткового файлу, в якому вказані всі мітки полів, підполів і індикаторів одного з форматів. Також треба враховувати і те, що довжини полів формату, який конвертується можуть не співпадати з довжинами полів нового формату (тобто треба перерахувати ці довжини).

У третьому блоці новий запис необхідно записати в новий файл, який і буде відображати форму запису нового формату.

Алгоритм конвертора USMARC-UNIMARC будується аналогічним чином.

Отже, ми провели невеликий огляд по форматах автоматизованих архівних і бібліотечних систем USMARC та UNIMARC (оскільки саме ці два формати мають найбільше поширення і довір’я в світі).

Основна мета даного розділу полягала не в детальному розгляді форматів USMARC і UNIMARC, а в тому, щоб підкреслити факт переходу архівів на ці автоматизовані системи.

<p ALIGN="JU