Интернет-журналистика - Учебник (Калмыков А.А., Коханова Л.А.)

Глава 3. инструменты поиска

 

Инструменты поиска и обработки информации могут существо­вать как отдельно от источников (например, общедоступные по­исковые машины или специальные программы), так и внутри баз данных. Встроенные инструменты позволяют работать только с содержимым базы, но зато результат этой работы отличается, как пра­вило, высокой четкостью.

Инструменты линейного поиска

Значительная группа поисковых инструментов предназначена для линейного поиска информации, т.е. для обнаружения в текстах (а именно с текстами работают поисковые машины, даже если поиск идет по базе видеосюжетов или фотографий) фрагментов, аналогич­ных заданному.

К таким инструментам относятся прежде всего общедоступные поисковые машины.

Среди поисковиков наибольшей популярностью в рунете поль­зуются Яндекс, Google и Рамблер. Мировой лидер Google в среднем дает больше ссылок на запрос, так как у него шире охват индекси­руемых страниц, но у Яндекса в целом выше релевантность. Рамблер превосходит конкурентов по ценности как рейтинговая система, по­зволяющая осуществлять не только поиск информации, но и поиск источников с одновременной их оценкой — по тематике и степени их авторитетности, популярности.

Выбор поисковой машины — дело субъективное и определяется по результатам поиска опытным путем. При выборе следует внимательно изучить возможности расширенного поиска, который предлагают гло­бальные поисковые системы. Именно условия составления поисково­го запроса определяют степень «зашумленности» результата.

Составление запросов для систем линейного поиска

Работа с линейными поисковыми системами подразумевает оп­ределенные навыки в составлении запроса. Традиционные языки запросов подразумевают выбор ключевых слов, указание на их обяза­тельное наличие или отсутствие в текстах, положение ключевых слов относительно структуры текста (например, в заголовке или в самом теле документа) и относительно друг друга (расстояние между слова­ми, последовательность употребления, жесткость словосочетаний, нахождение внутри одного предложения, одного документа и пр.).

В профессиональных системах линейного, или универсального, поиска возможности дополнительных параметров значительно расши­рены. Например, в системе «Гарант» реализована уникальная техноло­гия поиска через «Энциклопедию ситуаций». Пользователь формули­рует запрос, используя привычные ему термины, система «переводит» запрос и в течение нескольких минут предоставляет ответ. В «Интег-руме» реализованы следующие уникальные возможности — поиск с опечатками или вариантами написания, поиск по фамилии, имени, отчеству, когда умная система находит в текстах все формы употребле­ния фамилии, имени, отчества, которые могут соответствовать задан­ному, даже уменьшительные. Например, если вы ищете человека с фамилией Александров и инициалами А.Ю., то, задав эти параметры при поиске с включением нужной функции, получите документы, где упоминается Шурик Александров, Алексей Юрьевич Александров, Антон Александров, Александров Автандил Юлианович, А. Александ­ров и т.д.

В материалах проекта «Гардарика» поисковикам рекомендуется составлять тезаурусы в зависимости от конкретных интересов и по­полнять их постоянно, по мере выявления новых терминов в ходе ра­боты. Более адекватной представляется структура тезауруса в виде се­мантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике). Это весьма актуально для журнали­стов, работающих по одной теме, но прежде всего этот совет относится к пользователям общедоступных поисковых систем. Профессиональ­ные системы более специализированы и поэтому могут предложить пользователю готовые тезаурусы и типовые запросы.

Инструменты нелинейного поиска и построение связей

Особую ценность для профессиональных журналистов и поиско­виков представляют системы, позволяющие выбирать данные о свя­зях между объектами. Именно построение связей, систематизация фактов и является конечной задачей поисковика. В некоторой степе­ни эту задачу можно автоматизировать.

Так, например, в «Интегруме» разработан инструмент, позво­ляющий выбирать из текстов отдельных документов информацию вида человек — должность — организация (ФДО).

Фактически ФДО — это база данных, в которой хранятся объекты «человек» и «организация», связанные отношением «занимать долж­ность». Другими словами, это база, из которой можно узнать, в каких организациях (и на каких должностях) работал определенный чело­век и какие люди (и на каких должностях) работали в определенной организации. База позволяет также получить все документы, из кото­рых была почерпнута соответствующая информация.

Производными от ФДО являются сервисы «Коллеги?» (поиск общих мест работы для двух человек) и «Связанные организации?» (поиск общих сотрудников для двух компаний).

Сходные функции имеет разработанный компанией Xanalys инст­румент анализа связей Quenza. Он позволяет получать и накапливать данные из текстов о людях, событиях и организациях и идентифици­ровать связи в пределах этих данных. Quenza работает с информацией, сохраненной в MS Word, PDF, электронной почте и формате HTML.

Безусловный интерес для профессионалов представляет инстру­мент визуализации анализа информации Watson, разработанный той же компанией Xanalys. Watson позволяет в графической форме выяв­лять связи между внешне не связанными наборами данных.

Например, Watson дает возможность накладывать информацию о транзакциях из одного файла на информацию о телефонных перего­ворах из другого файла. Полученная в результате база данных позво­ляет запрашивать информацию о соответствующих связях.

Развитие технологий и объемы информации, которую приходит­ся перерабатывать журналистам и профессиональным поисковикам, требуют появления новых и новых инструментов для ее оптимальной обработки, поэтому здесь мы приводим лишь отдельные примеры наиболее оригинальных инструментов.

К средствам нелинейного поиска также можно отнести инстру­менты рейтингов и статистики. Так, например, «Медиалогия» пре­доставляет клиентам инструмент расчета индексов отношения прес­сы к персонам, компаниям или торговым маркам, «Интегрум» позво­ляет автоматически определять персон, лидирующих в информаци­онном поле дня, не по заранее заданному списку, а выбирая из СМИ все упоминания о физических лицах.

Самые продуктивные результаты, как уже говорилось в начале данного раздела, дает совмещение онлайновых и офлайновых мето­дов и инструментов работы с информацией.

Онлайновый и офлайновый режимы — едины и неделимы

Приведем несколько примеров.

Например, одна из PR-структур решила привлечь к обсуждению налогового законодательства средних и мелких предпринимателей, когда-либо компетентно выступавших на эту тему. В качестве источ­ников берутся материалы соответствующих круглых столов, конфе­ренций, а также публикации в СМИ, поиск по которым ведется по текстовой базе данных. По этим источникам определяется круг лю­дей, чьи критика и предложения, а также практический опыт могут оказаться полезными организаторам обсуждения. В этот круг через статью в районной газете попадает хозяйка небольшого заводика по переработке молочных продуктов из малоизвестного села в Цен­тральном федеральном округе. Далее перед поисковиком ставится задача в течение нескольких часов связаться с хозяйкой предприятия и пригласить ее участвовать в дискуссии. Маленькое хозяйство не фигурирует в общедоступных каталогах и справочниках, но по теле­фону удается связаться с районной газетой, опубликовавшей статью. Однако журналист, готовивший материал, отсутствует, а контактная информация в редакции не сохранилась. Тогда поисковик просит в редакции телефон любого продуктового магазина в районе и, дозво­нившись, узнает, что упомянутый молочный заводик действительно поставляет туда свою продукцию. Но директора, у которого имеются координаты поставщиков, на месте нет. Поисковик просит продавца взять в руки пачку творога, произведенного на этом заводике, и про­диктовать ему адрес производителя.

Безусловно, можно было выбрать и другие пути поиска нужной информации, не выходя из сети, например, оформив доступ к плат­ным базам, содержащим детальную адресную информацию о пред­приятиях региона или соответствующего профиля. Однако в тот мо­мент выбранный поисковиком путь оказался оптимальным — исходя из имеющихся в наличии средств.

Еще один случай из журналистской практики. 16 января 1996 го­да в черноморском порту Трабзон группа террористов захватила па­ром «Аврасия». Как получить информацию с захваченного судна? Сотрудники сетевого информационного агентства «Национальная служба новостей (НСН)» по крупицам собирают в сети информацию о ситуации — с лент многочисленных информационных агентств, по картам и морским справочникам. Однако удалось найти только ин­формацию справочного характера, оперативных данных в сети нет. Но при этом удалось получить телефон порта приписки парома, а также турецкой полиции, ведущей переговоры с террористами, и в результате в руках журналистов оказывается номер телефона на кораб­ле, по которому устанавливается связь с террористами. Журналистка НСН вступает с ними в переговоры. В тот момент это оказался первый и единственный канал получения прессой прямой информации о про­исходящем на теплоходе. Центральные каналы ТВ вели съемку перего­воров непосредственно в здании НСН и использовали предоставлен­ные агентством записи переговоров.

И еще одна иллюстрация к тому, как дополняют друг друга ин­формационные источники различной природы. Когда чеченские тер­рористы захватили больницу в Буденновске, журналисты стали угова­ривать бандитов взять их в обмен на заложников. Колонна автобусов с журналистами-заложниками должна была выйти из Буденновска в неизвестном направлении. Передать информацию журналисты не могли. Тем временем журналист НСН по карте вычисляет возможные пути транспорта из Буденновска. Сеть российских дорог не предостав­ляет террористам большого выбора. Далее выясняются отдельные те­лефоны в населенных пунктах вдоль линий возможного следования колонны — от частных квартир до телефонных станций и постов ГАИ. Связь позволяет оперативно следить за движением колонны — або­ненты отвечают, не появилась ли она в пределах видимости, прошла ли она мимо, в котором часу и куда повернула, если был поворот. Информация оперативно поступает во властные структуры.

Эти случаи показывают, что сеть — универсальный, но не всегда единственный и кратчайший путь к информации; в поисках ее не стоит ограничивать себя онлайновыми возможностями. События происходят в реальной жизни, комментарии и аналитика также при­надлежат реальности. Эксперты и очевидцы являются прежде всего реальными людьми.

Но интернет — среда не только поиска, но и коммуникации. По данным зарубежных исследователей, половина журналистов прово­дит интервью с помощью электронной почты, а треть из них прини­мает участие в интерактивных пресс-конференциях.