Visualizing compositional data on the Lexis surface

Schöley, J., & Willekens, F. (2017). Visualizing compositional data on the Lexis surface. Demographic Research, 36(21), 627–658. https://doi.org/10.4054/DemRes.2017.36.21

Весьма нестандартную статью опубликовали недавно Йонас Щёлай и Франс Виллекенс в престижном Demographic Research. Работа полностью посвящена тонкостям визуализации демографических данных. Используя математически выверенные и теоретически обоснованные цветовые схемы, авторы надеются расшить стандартный арсенал демографических способов визуализации данных, имеющих три классические временные компоненты: возраст, календарный период и когорта. В статье предложены четыре типа визуализации демографических данных, в основе которых лежит сетка Лексиса. Каждый из предложенных методов имеет свои ограничения и достоинства. Статья помогает понять, каким образом лучше отобразить демографические данные в каждом конкретном случае.

Четыре предложенных способа используют цвет для обогащения отраженной на графике информации. В зависимости от характера отображаемых данных и задач визуализации на выбор цвета накладываются ограничения: например, необходимость сохранения смысловой нагрузки при черно-белой печати или доступность графика для людей с искаженным восприятием цвета. Четыре предложенные способа - это: Ternary-balance scheme (рис 1.); Qualitative-sequential scheme (рис. 2); Agewise-area plot (рис. 3); Small multiples (рис. 4). Все примеры иллюстрируют характеристики повозрастных коэффициентов смертности во Франции с 1925 по 1999 г.

Первый из способов - Ternary-balance scheme (рис 1.) - использует подход, когда с помощью сочетания значений трех переменных кодируется цвет. Этот подход принципиально возможен благодаря тому, что любой цвет однозначно задается сочетанием трех базовых (красный, зеленый, синий) или трех дополнительных (желтый, голубой, розовый) цветов. К достоинствам метода стоит отнести феноменальную плотность отображенной информации при относительной простоте чтения и интерпретации графика. Объективные недостатки метода: потеря смысла при черно-белой печати и проблемах с восприятием цвета. Также некоторое неудобство может доставлять необходимость использования именно трех категорий/переменных отображаемых данных.

fig1
Рисунок 1. Ternary-balance scheme в применении к повозрастным данным о смертности во Франции, 1925-1999 гг. Цвет отражает структуру смертности по причинам, разделенным на три категории: новообразования, внешние и прочие

Второй способ - Qualitative-sequential scheme (рис. 2) - позволяет отображать большее число категорий данных, однако в данном случае цвет обозначает лишь долю лидирующей причины смертности.

fig2
Рисунок 2. Qualitative-sequential scheme в применении к повозрастным данным о смертности во Франции, 1925-1999 гг. Цвет отражает долю смертей в определённом возрасте от лидирующей группы причин смерти

Третий способ - Agewise-area plot (рис. 3) - отображает распределение смертей по причинам для пятилетних возрастных групп в виде состыкованных столбиковых диаграмм с накоплением. Графики данного типа вполне могут быть print & colorblind friendly.

fig3
Рисунок 3. Agewise-area plot в применении к повозрастным данным о смертности во Франции, 1925-1999 гг.

Наконец, четвертый способ - Small multiples (рис. 4) - позволяет отобразить конкретные значения данных каждой из категорий - отдельные графики для каждой из групп причин смерти располагаются рядом друг с другом для удобства сравнения.

fig4
Рисунок 4. Small multiples в применении к повозрастным данным о смертности во Франции, 1925-1999 гг. Доминирующая группа причин смерти обведена темно-серой линией

В завершающей части работы авторы рассуждают о сравнительных достоинствах и недостатках каждого из четырех предложенных методов, приводя как объективные данные (объем отображенной информации), так и субъективные данные о восприятии типов визуализации, подкрепленные ссылками на эксперименты.

Помимо эстетического совершенства графиков, необходимо отметить, что все примеры созданы с помощью принципиально бесплатного программного обеспечения с открытым кодом - скриптового языка программирования R. К опубликованной статье прилагается архив скриптов и данных для полного воспроизведения всех примеров. Таким образом, данная статья не только соответствует принципам воспроизводимости результатов, но и представляет собой небольшой учебник по визуализации демографических данных.

Йонас Щелай автор великолепного Human Mortality Database Explorer.


Публикация в жунрале Демоскоп Weekly, #731-732