По данным университета Беркли ежегодный прирост информации в мире составляет
1 миллион терабайт (1 экзобайт).
Причём большая часть информации представлена
в цифровом виде. Это означает, что за последующие три года прирост информации
превысит объём информации, накопленный за всю историю человечества до этого
момента.
Откуда же берётся такое большое число данных?
Различные электронные датчики постоянно регистрируют такие процессы как использование кредитной карты, разговор по телефону и т.п. Причём многие данные сохраняются с большой степенью детализации. Делается это потому, что для людей представляет ценность эта информация. Она может содержать в себе скрытые знания, закономерности и потому, при соответствующем анализе, способна оказать влияние при принятии решений в различных областях человеческой деятельности.
Существует множество способов поиска скрытых закономерностей в данных машиной, алгоритмами, но также не стоит упускать из вида возможности человека по анализу данных. Полезно сочетать огромные вычислительные ресурсы современных компьютеров с творческим и гибким человеческим мышлением. Визуальный анализ данных призван вовлечь человека в процесс отыскания знаний в данных. Основная идея заключается в том, чтобы представить большие объёмы данных в такой форме, где человек мог бы увидеть то, что трудно выделить алгоритмически. Чтобы человек смог погрузиться в данные, работать с их визуальным представлением, понять их суть, сделать выводы и напрямую взаимодействовать с данными. Из-за сложности информации это не всегда возможно и в простейших графических видах представления знаний, таких как деревья решений, дейтаграммы, двумерные графики и т.п.
В связи с этим возникает необходимость в более сложных средствах отображения информации и
результатов анализа. С помощью новых технологий пользователи способны
оценивать: большие объекты и маленькие, далеко они находятся или
близко. Пользователь в реальном времени может двигаться вокруг объектов или
кластеров объектов и рассматривать их со всех сторон.
Это позволяет
использовать для анализа естественные человеческие перцепционные навыки в
обнаружении неопределённых образцов в визуальном трёхмерном представлении
данных.
Визуальный анализ данных особенно полезен, когда о самих данных
мало что известно и цели исследования до конца не понятны.
За счёт того, что
пользователь напрямую работает с данными, представленными в виде визуальных
образов, которые он может рассматривать с разных сторон и под любыми углами
зрения, в прямом смысле этого слова, он может получить дополнительную
информацию, которая поможет ему более чётко сформулировать цели
исследования.
Таким образом, визуальный анализ данных можно представить
как процесс генерации гипотез. При этом сгенерированные гипотезы можно проверить
или автоматическими средствами (методами статистического анализа
или методами Data Mining), или средствами визуального анализа.
Кроме того, прямое
вовлечение пользователя в визуальный анализ имеет два основных преимущества
перед автоматическими методами:
Визуальный анализ данных обычно выполняется в три этапа:
Существует достаточно большое количество средств визуализации данных,
предоставляющих различные возможности.
Для выбора таких средств рассмотрим
более подробно три основные характеристики средств визуализации данных:
Выделяют следующие виды данных, с которыми могут работать средства визуализации:
Для визуализации перечисленных типов данных используются различные визуальные
образы и методы их создания.
Очевидно, что количество визуальных образов,
которыми могут представляться данные, ограничиваются только человеческой
фантазией. Основное требование к ним - это наглядность и удобство анализа
данных, которые они представляют. Методы визуализации могут быть как самые
простые (линейные графики, диаграммы, гистограммы и т.п.), так и более сложные,
основанные на сложном математическом аппарате. Кроме того, при визуализации
могут использоваться комбинации различных методов. Выделяют следующие типы
методов визуализации:
К простейшим методам визуализации относятся графики, диаграммы,
гистограммы и т.п. Основным их недостатком является невозможность приемлемой
визуализации сложных данных и большого количества данных.
Методы
геометрических преобразований визуальных образов направлены на трансформацию
многомерных наборов данных с целью отображения их в декартовом и в недекартовом
геометрических пространствах. Данный класс методов включает в себя
математический аппарат статистики.
Другим классом методов визуализации данных
являются методы отображения иконок. Их основной идеей является отображение
значений элементов многомерных данных в свойства образов. такие образы могут
представлять собой: человеческие лица, стрелки, звёзды и т.п. Визуализация
генерируется отображением атрибутов элементов данных в свойства образов. Такие
образы можно группировать для целостного анализа данных. Результирующая
визуализация представляет собой шаблоны текстур, которые имеют различия,
соответствующие характеристикам данных.
Основной идеей методов,
ориентированных на пикселы, является отображение каждого измерения значения в
цветной пиксел и из группировка по по принадлежности к измерению. Так как один
пиксел используется для отображения одного значения, то, следовательно, данный
метод позволяет визуализировать большое количество данных (свыше одного миллиона
значений).
Методы иерархических образов предназначены для представления
данных, имеющих иерархическую структуру. В случае многомерных данных должны быть
правильно выбраны измерения, которые используются для построения
иерархии.
К методам геометрических преобразований относятся:
В результате применения методов визуализации будут построены визуальные образы, отражающие данные. Однако этого не всегда бывает достаточно для полного анализа. Пользователь должен иметь возможность работать с образами: видеть их с разных сторон, в разном масштабе и т.п. Для этого у него должны быть соответствующие возможности взаимодействия с образами:
Основная идея динамического проецирования заключается в динамическом
изменении проекций при проведении исследования многомерных наборов данных.
Примером может служить проецирование в двумерную плоскость всех интересующих
проекций многомерных данных в виде диаграмм разброса (scatter plots). Необходимо
обратить внимание, что количество возможных проекций экспоненциально
увеличивается с ростом числа измерений, и, следовательно, при большом количестве
измерений проекции будут тяжело воспринимаемы.
При исследовании большого
количества данных важно иметь возможность разделять наборы данных и выделять
интересующие поднаборы - фильтровать образы. при этом важно, чтобы данная
возможность предоставлялась в режиме реального времени работы с визуальными
образами (т.е. интерактивно). Выбор поднабора может осуществляться или напрямую
из списка, или с помощью определения свойств интересующего
поднабора.
Примером масштабирования образов является "магическая линза"
(Magic Lenses). Её основная идея состоит в использовании инструмента, похожего
на увеличительное стекло, чтобы выполнять фильтрацию непосредственно при
визуализации. Данные, попадающие под увеличительное стекло, обрабатываются
фильтром, и результат отображается отдельно от основных данных. Линза показывает
модифицированное изображение выбранного региона, тогда как остальные
визуализированные данные не детализируются.
Масштабирование - это хорошо известный метод взаимодействия, используемый во многих приложениях. При работе с большим объёмом данных этот метод хорош тем для представления данных в общем сжатом виде, и, в то же время, он предоставляет возможность отображения любой их
части в более детальном виде. Масштабирование может заключаться не только в
простом увеличении объектов, но в изменении их представления на разных уровнях.
Так, например, на нижнем уровне объект может быть представлен пикселом, на более
высоком уровне - неким визуальным образом, а на следующем - текстовой
меткой.
Метод интерактивного искажения поддерживает процесс исследования
данных с помощью искажения масштаба данных при частичной детализации. Основная
идея этого метода заключается в том, что часть данных отображается с высокой
степенью детализации, а одновременно с этим остальные данные показываются с
низким уровнем детализации. Наиболее популярные методы - это гиперболическиое и
сферическое искажения.
Существует достаточно много методов визуализации, но все они имеют как достоинства, так и недостатки. Основная идея комбинирования заключается в объединении различных методов визуализации для преодоления недостатков одного из них. Различные проекции рассеивания точек, например, могут быть скомбинированы с методами окрашивания и компоновки точек во всех проекциях.
Любое средство визуализации может быть классифицировано по всем трём параметрам, т.е. по виду данных, с которым оно работает, по визуальным образам, которые оно может предоставлять, и по возможностям взаимодействия с этими визуальными образами. Очевидно, что одно средство визуализации может поддерживать разные виды данных, разные визуальные образы и разные способы взаимодействия с образами.
Выплавка стали по странам мира
Производство электроэнергии в странах мира
Официальные мировые запасы золота на октябрь 2012
Международные накопления в иностранных валютах