Данные и методы интеллектуального анализа данных для исследования окружающей природной среды - Родригес Залепинос Р.А.

Проблематика

Представьте  себе  шар  радиусом  более

6000 км,  с желобами до 11 км и пиками до 9 км,

площадью 510 ൈ 106  км2, 3/4 поверхности кото-

рого занимает среда, в глубинах которой побы-

вало меньше человек, чем в космосе, заполнен-

ная наименее химически изученным веществом на планете. Оставшаяся территория крайне не-

равномерно устлана почти 300 000 видами рас-

тений,  льдом,  асфальтом,  песком  и  населена

более 1.2 ൈ 106  видами животных. Представьте

также, что шар окутывает слой толщиной 3000

км и массой 5,27 ൈ 105 тонн разных газов, кото-

рые вместе вращаются вокруг оси шара со ско-

ростью более 1500 км/час. Все это неравномер-

но нагревается ядерным реактором (Солнце) на

расстоянии 150 ൈ 106  км.

Задача  исследования  климата  состоит  в

том, чтобы как можно больше узнать обо всех описанных компонентах и процессах, их взаи- модействии,  особенностях  и  закономерностях,

понять все это и описать математическими за-

висимостями.

Задача прогноза климата и погоды состо- ит в том, чтобы используя полученные законо- мерности и всю доступную на текущий момент информацию предсказать состояние атмосферы на месяц, сезон, год и 100 лет вперед.

Погода – это совокупность значений ме- теорологических параметров и явлений, кото- рые характеризуют состояние атмосферы в кон- кретном регионе планеты в определенный мо- мент времени [1].

Климат – «средняя» погода: средние зна-

чения метеорологических величин и степень их изменчивости за определенный период времени (обычно от месяца до миллионов лет) [6, стр.

96].

Интеллектуальный анализ данных (data mining) – «статистика в масштабе, скорости и простоте» [2, слайд 4] – процесс автоматическо-

го извлечения интересных, скрытых, неявных и

потенциально полезных закономерностей из больших объемов данных [3]. Если данные опи- сывают процессы и объекты, имеющие геогра- фические и временные размеры, то для них раз- рабатывают методы пространственно- временного интеллектуального анализа данных [52, стр. 240].

Современный мир испытывает взрывооб- разный рост количества данных, генерируемых быстрее, чем их успевают проанализировать. Науки о Земле не являются исключением.

Более чем за сто лет (1901–2008 гг.) На-

циональный климатический центр данных США

накопил 1.7 ൈ 109 измерений от 30 ൈ 106  прибо-

ров [4, слайд 21].

Спутники НАСА  наблюдения  за землей

(Earth Observing Satellites, EOS) собирают около

1-го терабайта данных ежедневно [52, стр. 237].

Несколько терабайт данных – типичный выход модели прогноза климата на 100 лет с 6- ти часовым шагом для более 100 переменных

глобальной решетки 1.4° ൈ 1.4°. Для получения

правдоподобного    прогноза    необходимо    не-

сколько сотен прогонов модели [5, стр. 2].

Ценность имеющейся информации на по-

рядок ниже без эффективных методов ее анали-

за. Обширные базы климатических данных пре- доставляют беспрецедентные возможности для поиска интересных и полезных закономерно- стей, однако в этой области традиционный руч- ной подход «гипотеза–проверка» существенно ограничен в силу своей трудоемкости.

Методы интеллектуального анализа дан- ных   предоставляют   автоматические,   но   при этом осмысленные подходы к генерации гипо- тез и их проверке, а также эффективные средст- ва работы с массивами данных, которые не по- мещаются в оперативную память вычислитель- ных систем.

Применение методов интеллектуального анализа данных позволяет получить известные закономерности, подтверждая тем самым адек- ватность разработанных подходов, а также ра- нее неизвестные закономерности, которые мо- гут быть потенциально новыми природными феноменами.