DataDeep

Sapere aude

Многообразие визуализаций

| Комментарии

Визуализация является важной частью Data Science, представляя собой удобный интерфейс между данными и человеком. Но различные ее виды встречаются не только в науке о данных. Чтобы обозначить контекст, в котором существует визуализация данных, я покажу разнообразие жанров визуализации вообще, забираясь в миры естественных наук и даже искусства.

Иллюстрации из книги Эрнста Геккеля "Красота форм в морских глубинах"

В пайплайне науки о данных визуализация встречается преимущественно в двух ситуациях: для первичного анализа данных и для представления полученных результатов после окончания работы.

В связи с этим существует условное деление графики на исследовательскую (exploratory) и презентационую (explanatory). Первая должна помогать в работе, вторая – нести внятное сообщение.

Такое деление достаточно грубое и в жизни чаще встречаются промежуточные варианты. Для нас важно то, что у этих видов графики различные цели. От целей мы и будем отталкиваться в разговоре о многообразии. Я рассмотрю следующие жанры:

  • Научная визуализация
  • Исследовательская графика
  • Аналитическая графика
  • Презентационная графика
  • Инфографика
  • Скетч
  • Data art.

Научная визуализация

Визуализация в науке нужна для иллюстрации и интерпретации научных результатов. Она помогает показать то, что иначе невозможно, либо очень сложно увидеть.

Это может быть что-то слишком большое (карта мира) или что-то слишком маленькое (модель атома), то, что невозможно увидеть (инфракрасное излучение, биополе:))) или что сложно достать (человеческие органы). Визуализироваться могут этапы временного развития (развитие эмбриона) или коллекция образцов, собранная в разных точках Земли. С помощью графического отображения можно упорядочить элементы реального мира или изобразить что-то, в природе не встречающееся (результаты компьютерного моделирования, математические объекты).

Стоит заметить, что картинки сильно различаются в зависимости от специфики научной области и задачи. Посмотрим на некоторые примеры из различных наук.

Медицина

География

Астрономия

Химия

Физика

Математика

Как видно из этих иллюстраций, с течением времени меняются методы и возможности графического отображения. Этот вид визуализации появился одним из первых и всегда находится на переднем краю технологического прогресса.

Подробнее об актуальных направлениях можно почитать в статье на Википедии (русскоязычная версия отсутствует). На русском можно почитать материалы конференции Графикон и журнал “Научная визуализация”.

Исследовательская (разведочная) графика

Если до этого мы говорили о естественных науках и чистой математике, то теперь вернемся к тематике нашего блога и обратимся к науке о данных. Для начала рассмотрим примеры визуализаций, создаваемых на этапе исследования данных. Они делаются для персонального использования и нужны в первую очередь для анализа.

Этот этап по английски называется exploratory data analysis, в русскоязычной литературе встречаются термины “описательная статистка” и “разведочный анализ данных”. Понятие ввел Дж. Тьюки в своей книге “Анализ результатов наблюдений”, в основу которой положен принцип:

“Важно понять, что́ вы можете делать, прежде чем вы научитесь измерять, насколько хорошо вы это сделали.”

Книга написана в 1977 году и изложенные в ней методы уже не актуальны. Основными инструментами ему служили математические таблицы, логарифмическая линейка, миллиметровка и калька. Но принципы построения полезных графиков с тех пор не изменились. Вот еще одна важная цитата из книги:

“Графики, подчеркивающие лишь то, что нам уже известно, нередко не стоят места, которое они занимают. Графики, которые надо рассматривать с лупой, чтобы увидеть в них главное, заставляют нас тратить понапрасну время и мало полезны. График имеет наибольшую ценность тогда, когда он вынуждает нас заметить то, что мы совсем не ожидали увидеть.”

Разведочный анализ — фундамент исследования данных. Графики на этом этапе позволяют решать следующие задачи:

  • понять свойства данных;
  • выявить ошибки;
  • определить взаимосвязи между переменными;
  • обнаружить закономерности;
  • предложить стратегии моделирования.

Такие графики делаются быстро и в большом количестве. При этом не уделяется внимание легенде, осям, цветам и прочим элементам оформления. Рассмотрим несколько примеров.

Пример 1: иногда визуальная оценка позволяет найти ошибки кластеризации и помогает подобрать правильный алгоритм.

Пример 2: визуализация при исследовании регрессии – иллюстрация парадокса Симпсона.

Пример 3: построение гистограмм для различных признаков – один из шагов в первичном исследовании данных.

Пример 4: график поведения функции потерь помогает выбрать оптимальное значение параметра алгоритма обучения с учителем

В следующих статьях мы подробнее рассмотрим инструменты, которые позволяют быстро проводить подобный визуальный анализ.

Как уже отмечалось ранее, графики из этой категории могут быть понятны только самому автору, так как не содержат необходимых пояснений и не предназначены для широкой аудитории. Подобные диаграммы - инструмент ученого или аналитика. Их место на рабочем компьютере. Стоит публиковать такие изображения только после некоторой доработки.

Аналитическая графика

Это промежуточный этап между исследованием и презентацией. А если точнее, то это презентация, которая не дает готовых выводов, но предоставляет читателю возможность исследовать данные и делать выводы самостоятельно.

Это, возможно, самый сложный для создания, но и самый интересный тип визуализации. Он объединяет в себе строгость в отношении к исходным данным и визуальную привлекательность. Много интересного можно почерпнуть из книг Эдварда Тафти. Он является ведущим современным специалистом в области визуализации, написал несколько книг по отображению информации.

Приведу здесь список принципов для аналитической графики по его книге Beautiful Evidence (глава The Fundamental Principles of Analytical Design)

  1. Показывать сравнения;
  2. Показывать механизм, объяснение, структуру (причинно-следственные связи);
  3. Показывать многомерные данные;
  4. Объединять типы представления (разные графики, текст) в единое представление;
  5. Документация: пояснять данные с помощью легенды, масштабов, указания на источники;
  6. Содержание превыше всего.

Рассмотрим несколько классических примеров. Основателем графических методов в статистике считается шотландский инженер и политэконом Уильям Плейфер. Его работы относятся к концу 18 - началу 19 века. На рисунке ниже представлены линейчатый график и гистограмма из работы “Коммерческий и политический атлас” 1786 года.

Диаграмма французского инженера Шарля Минара (Charles Minard) о походе Наполеона в Россию — отличная иллюстрация изложенных выше принципов. На схеме мы видим изменение численности французской армии по мере наступления на Москву (бежевый цвет) и последующего отступления (черный цвет). Для отступления прилагается график изменения температуры. Диаграмма снабжена пояснениями, подписями населенных пунктов и рек.

Диаграмма Флоренс Найтингейл — одна из первых круговых диаграмам. С ее помощью сестра милосердия продемонстрировала, что в британской армии от антисанитарии умирает больше людей, чем от ранений.

Графика этого типа отлично подходит для научной статьи, сайта в интернете или раздаточного материала.

На современные примеры аналитической графики повлияло развитие браузеров, поддерживающих анимацию и интерактивность. Более того, такая визуализация доступна любому пользователю сети. С помощью интерактива можно группировать и фильтровать данные, рассматривать их в разном масштабе — от общей картины до частностей. Много примеров такой графики создано с помощью Javascript библиотеки D3.js. Хорошей иллюстрацией является визуализация марафона “Белые ночи” от Лаборатории данных.

Cоздающий подобную графику человек должен разбираться не только в данных и предметной области, но и в особенностях восприятия человеком визуальных образов, а еще в человеко-компьютерном взаимодействии.

Распространенным применением аналитической визуализации являются дэшборды — информационные панели, содержащие графики основных показателей. Они часто используются в бизнесе для мониторинга, создания отчетности и при принятии решений. Приведенный на картинке пример сделан с помощью сервиса Tableu.

Еще один замечательный пример интерактивного исследования данных — приложение Gapminder. Пузырьковая диаграмма, демонстрирующая изменения экономических и социальных показателей для стран мира за последние десятилетия.

Стоит посмотреть шикарную первую презентацию этой программы ее автором — шведским профессором Хансом Рослингом на конференции TED. Это тот редкий случай, когда сложная графика на экране становится понятной благодаря анимации и сильному выступлению докладчика. Последующие выступления Рослинга также заслуживают внимания, в том числе с точки зрения наглядного изображения информации.

Самое время перейти к презентационной графике.

Презентационная графика

Здесь мы говорим о презентации в чистом виде, когда график несет в себе одну идею, недвусмысленное сообщение автора. Отличие от аналитической графики заключается в том, что читатель не должен расшифровывать ваше послание, так как условия просмотра подобных изображений не предполагают длительного изучения. Такую графику можно увидеть на слайдах презентации или по телевизору. Иногда простые графики встречаются в печатных изданиях.

При внешней простоте создать эффективную презентационную графику бывает непросто.

Для начала, важно подобрать подходящий тип диаграммы, который донесет нашу мысль наиболее наглядно. Много полезных советов о выборе типа графика можно найти в книге Джина Желязны “Говори на языке диаграмм”. Книга построена как учебник со множеством примеров и упражнений.

Далее, надо учесть контекст восприятия и не перегрузить диаграмму данными. Обычно у зрителя нет возможности внимательно исследовать график. Очень часто люди показывают на слайдах непонятные, перегруженные текстом и данными графики, которые практически невозможно объяснить.

В качестве примера приведу иллюстрацию из замечательной книги Алексея Каптерева “Мастерство презентации”. Так он представляет типичный слайд с графиком из корпоративной презентации:

Научные презентации тоже часто изобилуют сложными диаграммами, как будто это повышает доверие к автору. Но опять же, стоит учитывать ожидания аудитории — на научной конференции люди больше настроены думать и вникать, так что могут просто не доверять слишком простой диаграмме. При этом не забывайте, что способности к восприятию ограничены даже у ученых. Не стоит превращать свои слайды в склад всех имеющихся данных. Алексей пишет:

“Данные — это всего лишь способ доказать свою идею. Хорошая новость состоит в том, что если у вас есть идея, если вы знаете, что именно вы хотите сказать, то существует множество способов представить свои данные красиво и при этом не перегрузить аудиторию.”

Для того, чтобы презентационная диаграмма удалась, надо убрать все лишнее, оставив только то, что подтверждает основную идею. Саму идею стоит вынести в заголовок графика.

Рассмотрим приведенное в той же книге преобразование диаграммы Минара. Превращаем аналитическую графику в картинку, которая будет убедительно смотреться на слайде презентации. “Нижняя диаграмма выглядит сильно упрощенной, но она способна донести вложенное в нее послание. Дело в том, что на самом деле необязательно видеть каждую российскую речушку, чтобы понять: Наполеон не был побежден в какой-то крупной битве.”

Из-за своей презентационной специфики этот тип визуализации наиболее подвержен графическим манипуляциям. Смещение оси ординат, игры с относительным масштабом и перспективой, все прелести круговой диаграммы и “крутые” 3D эффекты — все это встречается здесь очень часто. Иногда умышленно, иногда по незнанию. Те же трехмерные эффекты встроены в PowerPoint и к сожалению все еще пользуются популярностью.

На слайде старины Стива сектор 19.5% выглядит больше, чем 21.2% за счет добавления объема. С круговой диаграммой на второй картинке тоже что-то не так. Подробнее про подобные манипуляции можно почитать здесь.

Инфографика

Слово инфографика в последнее время стало очень популярно. Из-за отсутствия точного определения его часто путают с другими видами визуализации или называют инфографикой любую красивую картинку с цифрами.

Я бы выделил следующие особенности, присущие именно инфографике. Во-первых, цель инфографики — просвещение и развлечение. Во-вторых, инфографика создается дизайнерами и журналистами. Существует даже специальный термин — журналистика данных. В-третьих, большое внимание уделяется привлекательности картинки.

Хорошая инфографика похожа на аналитическую визуализацию. Но она не нацелена на поиск закономерностей или принятие решений, ее роль скорее просветительская. Рассмотрим несколько примеров.

Визуализация нобелевских лауреатов

Красивая инфографика о китах

На картинке ниже мы видим хорошее применение сильной метафоры. В аналитической графике перевернутая ось ординат только сбивала бы с толку, но в инфографике для усиления эмоционального воздействия такой прием допустим.

Примеры на русском можно посмотреть здесь: журнал “Инфографика”, инфографика РИА Новости.

Скетчи (рисунки на салфетке)

Иногда нужно визуализировать не данные, а идеи, концепции и взаимосвязи. Тут на помощь приходят простые рисунки от руки. Применяются они на брейнштормах или при объяснении. Как и исследовательская графика, являются подручным инструментом, но основаны не на данных, а на идеях. Картинка отсюда.

Важный поджанр — mind maps (интеллект-карты, диаграммы связей). Они используются при обучении или мозговом штурме, для запоминания или решения проблем с помощью визуального мышления. Часто назначение этого вида рисунков — выплеснуть на бумагу содержимое головы. Поэтому иногда понять смысл рисунка может только автор.

В мире скетчей существует свое разнообразие жанров и различные методики их использования, но в этой статье мы на них останавливаться не будем. Подробнее про визуальное мышление можно почитать в книге Дэна Роэма “Практика визуального мышления”.

Арт

Художники, работающие в жанре генеративного искусства (не путать с дегенеративным) используют те же методы, что и исследователи данных, но стремятся достичь эстетической привлекательности результата. С помощью данных, полученных из интернета или каких-либо датчиков, он создают картины, видеоролики и интерактивные инсталляции. Очень часто в качестве инструмента используют язык Processing.

Ярким представителем является берлинская студия Onformative. Ниже представлены примеры их работ: визуализация фейсбучной страницы и интерактивная витрина для магазина Nike.

Большинство работ подобного жанра, хоть и основаны на числовых данных, располагают только к эстетическому восприятию получившейся картины. Ниже изображена визуализация числа Пи.

Заключение

Итак, мы достаточно поверхностно рассмотрели применение визуализации в различных областях человеческой деятельности от науки до искусства. Про каждую из этих областей можно писать гораздо подробнее, ведь мир визуализаций невероятно разнообразен. К тому же он подвижен, живет и развивается. Новые технологические изобретения, такие как дополненная и виртуальная реальности, голография и пр. привнесут свой вклад в развитие этой области.

В следующих статьях этого раздела мы рассмотрим инструменты для создания различных визуализаций. Начнем с разведочной графики, грамотное применение которой может существенно упростить работу датолога. Но вне зависимости от области применения при создании графики мы всегда должны помнить о цели нашей работы и задавать себе важнейшие вопросы:

  • что за данные мы визуализируем;
  • что мы хотим сказать своей визуализацией;
  • кто будет работать с этой графикой;
  • и в каком контексте.

Элементы компьютетной графики для фильма "Трон: Наследие"

Комментарии