|
Понравилась статья? Поделитесь с друзьями:
|
|
|
|
|
|
Микроданные Всероссийских переписей населения
в Интернете.
Заседание секции статистики Центрального Дома ученых
28
февраля 2013 года состоялось заседание Секции статистики Центрального
дома ученых РАН. На нем был заслушал доклад начальника отдела методологии
и анализа итогов переписи населения Управления статистики населения
и здравоохранения Федеральной службы государственной статистики
Владимира Михайловича Воронина на тему "О возможностях использования
пользователями сети Интернет неперсонифицированной базы микроданных
Всероссийских переписей населения 2002 и 2010 годов". Эта система
открывает принципиально новую страницу российской демографической
статистики. Используя предоставляемые ею возможности, любой пользователь
- исследователь, губернатор, студент может сделать запрос к микроданным
и всего за несколько минут сформировать любую, в том числе и не
предусмотренную программой переписи, таблицу по признакам, полученным
в ходе переписи населения, как для России, так и для любой территории
или населенного пункта.
Более подробно информация об этом революционном подходе
изложена в представляемых ниже тезисах доклада В.М.Воронина, любезно
присланных организаторами Секции статистики ЦДУ РАН.
О возможностях использования представленной в сети Интернет
неперсонифицированной базы микроданных Всероссийских переписей населения
2002 и 2010 годов
Тезисы доклада на заседании секции статистики ЦДУ РАН 28 февраля
2013 года
В настоящее время потребность в статистической информации
о населении возрастает как у учреждений науки и образования, так
и среди учреждений государственного управления и бизнеса. Несмотря
на значительное увеличение объема статистических данных, размещаемых
Росстатом в открытом доступе, зачастую этой информации бывает недостаточно
для проведения прогнозов и анализа социально-демографического положения
страны и отдельных ее регионов.
Для решения этой проблемы статистическими агентствами
многих стран организуется доступ к базам микроданных статистической
информации. Так как наиболее полная информация о жителях страны
собирается при проведении переписей населения, в большинстве случаев
доступ предоставляется к информационным массивам, содержащим именно
эти сведения.
В 2012 году Росстат для пользователей сети Интернет
предоставил полный и неограниченный доступ к базе микроданных Всероссийской
переписи населения 2002 года, содержащей информацию о частных домохозяйствах.
Для этих целей используется разработанный австралийской компанией
Space-TimeResearch программный комплекс SuperSTAR. Выбор именно
этого ПК обусловлен тем, что он разработан специально для целей
обеспечения доступа к анонимизированным микроданным больших объемов
с высокой скоростью. Этот продукт используется статслужбами многих
стран мира при организации веб-доступа к данным переписей и обследований
населения, и ежегодно совершенствуется разработчиком по предложениям
пользователей. Таким образом, SuperSTAR позволяет пользователю:
- конструировать произвольный макет таблицы, используя любые
показатели, предусмотренные программой Всероссийской переписи
населения 2002 года, и территориальные разрезы всех уровней, вплоть
до населенного пункта;
Рисунок 1. Окно конструктора построения произвольной
таблицы
Рисунок 2. Иерархия территориальных единиц
- на основе созданных макетов формировать таблицы с агрегированными
данными Всероссийской переписи населения 2002 года по показателям,
характеризующих население, помещения и домохозяйства;
- формировать запросы с пересечением в них признаков различных
объектов (например, домохозяйств и жилых помещений, или лиц и
домохозяйств. При построении такого запроса как "домохозяйства,
в которых проживают лица в возрасте 15 лет и старше по типу занимаемых
жилых помещений" происходит пересечение признаков, относящихся
к помещениям, лицам и домохозяйствам, что не поддерживается большинством
средств управления базами данных);
- представлять полученные данные в виде таблиц и графиков;
- экспортировать сформированные таблицы в формат MSExcel, xml
или csv, а диаграммы - в формат png или pdf.
Для создания произвольных таблиц с итогами Всероссийской
переписи населения 2002 года пользователь должен знать ее Программу
и методологию, с которыми можно ознакомиться на официальном сайте
Росстата. Кроме того, при построении таблицы пользователю доступны
метаданные, описывающие выбранный показатель. В противном случае
велика вероятность получения некорректной информации. Например,
данные об образовании, полученные для всего населения, а не для
лиц в возрасте 10 лет и более, будут иметь неправильную структуру
за счет лиц в возрасте до 10 лет, уровень образования которых не
указывался.
Рисунок 3. Пример метаданных для показателя "Образование"
Благодаря специальному формату хранения данных, являющемуся
разработкой компании Space-TimeResearch, формирование таблиц с итогами
переписи происходит оперативно в течение нескольких минут.
При предоставлении он-лайн доступа к микроданным переписи
Росстат обязан обеспечить конфиденциальность персональных данных.
Несмотря на то, что информация в базе данных обезличена, имеется
возможность идентификации конкретного респондента по уникальным
признакам, характерным для обследуемой группы лиц. Таким признаком
может быть дата рождения, не характерная для жителей населенного
пункта национальность, и т.д. Прежде всего, риск раскрытия персональных
данных высок для жителей населенных пунктов с небольшой численностью
населения.
Для защиты персональных данных Росстатом используется
алгоритм искажения (пертурбации) данных, который вносит незначительные
искажения в значения таблицы, что делает невозможным раскрытие конфиденциальной
информации. При этом обеспечивается представительность данных и
пользователю не ограничивается доступ к итогам переписи путем агрегирования
значений показателей или территориальных единиц. В таблицах, в которые
внесены изменения для сокрытия конфиденциальных данных, выдается
предупреждение о внесенных искажениях.
Таблица 1. Пример таблицы, сформированной без применения
алгоритмов защиты персональных данных (данные условные)
|
Все население
|
0-9
|
10 - 19
|
20 - 29
|
30 - 39
|
40 - 49
|
50 - 59
|
60 - 69
|
70 и более
|
Возраст не указан
|
г. Бронницы
|
191
|
6
|
12
|
67
|
38
|
48
|
10
|
6
|
4
|
-
|
г. Дзержинский
|
81
|
4
|
10
|
18
|
22
|
10
|
13
|
-
|
1
|
3
|
г. Долгопрудный
|
796
|
23
|
47
|
256
|
260
|
141
|
31
|
6
|
6
|
26
|
г. Дубна
|
71
|
3
|
10
|
9
|
6
|
17
|
9
|
5
|
7
|
5
|
г. Железнодорожный
|
86
|
4
|
12
|
16
|
13
|
16
|
8
|
4
|
3
|
10
|
г. Жуковский
|
3712
|
35
|
105
|
985
|
1053
|
884
|
304
|
105
|
162
|
79
|
г. Ивантеевка
|
242
|
5
|
6
|
91
|
91
|
29
|
6
|
2
|
-
|
12
|
г. Климовск
|
93
|
7
|
2
|
15
|
37
|
23
|
2
|
4
|
2
|
1
|
г. Коломна
|
115
|
10
|
6
|
35
|
32
|
12
|
8
|
6
|
-
|
6
|
г. Красноармейск
|
19
|
-
|
1
|
8
|
6
|
4
|
-
|
-
|
-
|
-
|
Таблица 2. Пример таблицы, сформированной с применением
алгоритмов защиты персональных данных (данные условные)
|
Все население
|
0-9
|
10 - 19
|
20 - 29
|
30 - 39
|
40 - 49
|
50 - 59
|
60 - 69
|
70 и более
|
Возраст не указан
|
г. Бронницы
|
188
|
4
|
12
|
67
|
36
|
47
|
9
|
9
|
4
|
-
|
г. Дзержинский
|
81
|
5
|
9
|
15
|
20
|
10
|
14
|
-
|
-
|
-
|
г. Долгопрудный
|
797
|
21
|
47
|
260
|
257
|
139
|
33
|
5
|
7
|
30
|
г. Дубна
|
71
|
3
|
10
|
8
|
7
|
15
|
11
|
7
|
5
|
3
|
г. Железнодорожный
|
84
|
9
|
13
|
15
|
15
|
13
|
6
|
5
|
4
|
10
|
г. Жуковский
|
3713
|
36
|
108
|
988
|
1052
|
886
|
300
|
104
|
160
|
81
|
г. Ивантеевка
|
242
|
4
|
4
|
91
|
90
|
27
|
3
|
-
|
-
|
8
|
г. Климовск
|
92
|
9
|
6
|
13
|
38
|
22
|
3
|
3
|
-
|
-
|
г. Коломна
|
112
|
11
|
9
|
32
|
37
|
13
|
9
|
7
|
-
|
7
|
г. Красноармейск
|
20
|
-
|
3
|
8
|
5
|
6
|
-
|
-
|
-
|
-
|
Получить доступ к базе микроданных Всероссийской переписи
населения 2002 года может любой пользователь сети Интернет по адресу
www.perepis-2010.ru.
При этом регистрация не требуется.
В конце текущего года Росстатом планируется аналогичным
образом предоставить доступ к базе микроданных Всероссийской переписи
населения 2010 года, а также к базе микроданных Всероссийских переписей
2002 и 2010 года, содержащую переписную информацию по сопоставимым
показателям.
|