ПроблематикаПредставьте себе шар радиусом более 6000 км, с желобами до 11 км и пиками до 9 км, площадью 510 ൈ 106 км2, 3/4 поверхности кото- рого занимает среда, в глубинах которой побы- вало меньше человек, чем в космосе, заполнен- ная наименее химически изученным веществом на планете. Оставшаяся территория крайне не- равномерно устлана почти 300 000 видами рас- тений, льдом, асфальтом, песком и населена более 1.2 ൈ 106 видами животных. Представьте также, что шар окутывает слой толщиной 3000 км и массой 5,27 ൈ 105 тонн разных газов, кото- рые вместе вращаются вокруг оси шара со ско- ростью более 1500 км/час. Все это неравномер- но нагревается ядерным реактором (Солнце) на расстоянии 150 ൈ 106 км. Задача исследования климата состоит в том, чтобы как можно больше узнать обо всех описанных компонентах и процессах, их взаи- модействии, особенностях и закономерностях, понять все это и описать математическими за- висимостями. Задача прогноза климата и погоды состо- ит в том, чтобы используя полученные законо- мерности и всю доступную на текущий момент информацию предсказать состояние атмосферы на месяц, сезон, год и 100 лет вперед. Погода – это совокупность значений ме- теорологических параметров и явлений, кото- рые характеризуют состояние атмосферы в кон- кретном регионе планеты в определенный мо- мент времени [1]. Климат – «средняя» погода: средние зна- чения метеорологических величин и степень их изменчивости за определенный период времени (обычно от месяца до миллионов лет) [6, стр. 96]. Интеллектуальный анализ данных (data mining) – «статистика в масштабе, скорости и простоте» [2, слайд 4] – процесс автоматическо- го извлечения интересных, скрытых, неявных и потенциально полезных закономерностей из больших объемов данных [3]. Если данные опи- сывают процессы и объекты, имеющие геогра- фические и временные размеры, то для них раз- рабатывают методы пространственно- временного интеллектуального анализа данных [52, стр. 240]. Современный мир испытывает взрывооб- разный рост количества данных, генерируемых быстрее, чем их успевают проанализировать. Науки о Земле не являются исключением. Более чем за сто лет (1901–2008 гг.) На- циональный климатический центр данных США накопил 1.7 ൈ 109 измерений от 30 ൈ 106 прибо- ров [4, слайд 21]. Спутники НАСА наблюдения за землей (Earth Observing Satellites, EOS) собирают около 1-го терабайта данных ежедневно [52, стр. 237]. Несколько терабайт данных – типичный выход модели прогноза климата на 100 лет с 6- ти часовым шагом для более 100 переменных глобальной решетки 1.4° ൈ 1.4°. Для получения правдоподобного прогноза необходимо не- сколько сотен прогонов модели [5, стр. 2]. Ценность имеющейся информации на по- рядок ниже без эффективных методов ее анали- за. Обширные базы климатических данных пре- доставляют беспрецедентные возможности для поиска интересных и полезных закономерно- стей, однако в этой области традиционный руч- ной подход «гипотеза–проверка» существенно ограничен в силу своей трудоемкости. Методы интеллектуального анализа дан- ных предоставляют автоматические, но при этом осмысленные подходы к генерации гипо- тез и их проверке, а также эффективные средст- ва работы с массивами данных, которые не по- мещаются в оперативную память вычислитель- ных систем. Применение методов интеллектуального анализа данных позволяет получить известные закономерности, подтверждая тем самым адек- ватность разработанных подходов, а также ра- нее неизвестные закономерности, которые мо- гут быть потенциально новыми природными феноменами. |
| Оглавление| |