Rambler's Top100

№ 545 - 546
4 - 17 марта 2013

О проекте

Институт демографии Национального исследовательского университета "Высшая школа экономики"

первая полоса

содержание номера

читальный зал

приложения

обратная связь

доска объявлений

поиск

архив

перевод    translation

Оглавление
Профессия - исследователь 

Микроданные Всероссийских переписей населения в Интернете. Заседание Секции статистики Центрального Дома ученых

130 лет со дня смерти Луи-Адольфа Бертильона


Понравилась статья? Поделитесь с друзьями:


Google
Web demoscope.ru

Микроданные Всероссийских переписей населения в Интернете.
Заседание секции статистики Центрального Дома ученых

28 февраля 2013 года состоялось заседание Секции статистики Центрального дома ученых РАН. На нем был заслушал доклад начальника отдела методологии и анализа итогов переписи населения Управления статистики населения и здравоохранения Федеральной службы государственной статистики Владимира Михайловича Воронина на тему "О возможностях использования пользователями сети Интернет неперсонифицированной базы микроданных Всероссийских переписей населения 2002 и 2010 годов". Эта система открывает принципиально новую страницу российской демографической статистики. Используя предоставляемые ею возможности, любой пользователь - исследователь, губернатор, студент может сделать запрос к микроданным и всего за несколько минут сформировать любую, в том числе и не предусмотренную программой переписи, таблицу по признакам, полученным в ходе переписи населения, как для России, так и для любой территории или населенного пункта.

Более подробно информация об этом революционном подходе изложена в представляемых ниже тезисах доклада В.М.Воронина, любезно присланных организаторами Секции статистики ЦДУ РАН.

О возможностях использования представленной в сети Интернет неперсонифицированной базы микроданных Всероссийских переписей населения 2002 и 2010 годов
Тезисы доклада на заседании секции статистики ЦДУ РАН 28 февраля 2013 года

В настоящее время потребность в статистической информации о населении возрастает как у учреждений науки и образования, так и среди учреждений государственного управления и бизнеса. Несмотря на значительное увеличение объема статистических данных, размещаемых Росстатом в открытом доступе, зачастую этой информации бывает недостаточно для проведения прогнозов и анализа социально-демографического положения страны и отдельных ее регионов.

Для решения этой проблемы статистическими агентствами многих стран организуется доступ к базам микроданных статистической информации. Так как наиболее полная информация о жителях страны собирается при проведении переписей населения, в большинстве случаев доступ предоставляется к информационным массивам, содержащим именно эти сведения.

В 2012 году Росстат для пользователей сети Интернет предоставил полный и неограниченный доступ к базе микроданных Всероссийской переписи населения 2002 года, содержащей информацию о частных домохозяйствах. Для этих целей используется разработанный австралийской компанией Space-TimeResearch программный комплекс SuperSTAR. Выбор именно этого ПК обусловлен тем, что он разработан специально для целей обеспечения доступа к анонимизированным микроданным больших объемов с высокой скоростью. Этот продукт используется статслужбами многих стран мира при организации веб-доступа к данным переписей и обследований населения, и ежегодно совершенствуется разработчиком по предложениям пользователей. Таким образом, SuperSTAR позволяет пользователю:

  • конструировать произвольный макет таблицы, используя любые показатели, предусмотренные программой Всероссийской переписи населения 2002 года, и территориальные разрезы всех уровней, вплоть до населенного пункта;

Рисунок 1. Окно конструктора построения произвольной таблицы

Рисунок 2. Иерархия территориальных единиц

  • на основе созданных макетов формировать таблицы с агрегированными данными Всероссийской переписи населения 2002 года по показателям, характеризующих население, помещения и домохозяйства;
  • формировать запросы с пересечением в них признаков различных объектов (например, домохозяйств и жилых помещений, или лиц и домохозяйств. При построении такого запроса как "домохозяйства, в которых проживают лица в возрасте 15 лет и старше по типу занимаемых жилых помещений" происходит пересечение признаков, относящихся к помещениям, лицам и домохозяйствам, что не поддерживается большинством средств управления базами данных);
  • представлять полученные данные в виде таблиц и графиков;
  • экспортировать сформированные таблицы в формат MSExcel, xml или csv, а диаграммы - в формат png или pdf.

Для создания произвольных таблиц с итогами Всероссийской переписи населения 2002 года пользователь должен знать ее Программу и методологию, с которыми можно ознакомиться на официальном сайте Росстата. Кроме того, при построении таблицы пользователю доступны метаданные, описывающие выбранный показатель. В противном случае велика вероятность получения некорректной информации. Например, данные об образовании, полученные для всего населения, а не для лиц в возрасте 10 лет и более, будут иметь неправильную структуру за счет лиц в возрасте до 10 лет, уровень образования которых не указывался.

Рисунок 3. Пример метаданных для показателя "Образование"

Благодаря специальному формату хранения данных, являющемуся разработкой компании Space-TimeResearch, формирование таблиц с итогами переписи происходит оперативно в течение нескольких минут.

При предоставлении он-лайн доступа к микроданным переписи Росстат обязан обеспечить конфиденциальность персональных данных. Несмотря на то, что информация в базе данных обезличена, имеется возможность идентификации конкретного респондента по уникальным признакам, характерным для обследуемой группы лиц. Таким признаком может быть дата рождения, не характерная для жителей населенного пункта национальность, и т.д. Прежде всего, риск раскрытия персональных данных высок для жителей населенных пунктов с небольшой численностью населения.

Для защиты персональных данных Росстатом используется алгоритм искажения (пертурбации) данных, который вносит незначительные искажения в значения таблицы, что делает невозможным раскрытие конфиденциальной информации. При этом обеспечивается представительность данных и пользователю не ограничивается доступ к итогам переписи путем агрегирования значений показателей или территориальных единиц. В таблицах, в которые внесены изменения для сокрытия конфиденциальных данных, выдается предупреждение о внесенных искажениях.

Таблица 1. Пример таблицы, сформированной без применения алгоритмов защиты персональных данных (данные условные)

 

Все население

0-9

10 - 19

20 - 29

30 - 39

40 - 49

50 - 59

60 - 69

70 и более

Возраст не указан

г. Бронницы

191

6

12

67

38

48

10

6

4

-

г. Дзержинский

81

4

10

18

22

10

13

-

1

3

г. Долгопрудный

796

23

47

256

260

141

31

6

6

26

г. Дубна

71

3

10

9

6

17

9

5

7

5

г. Железнодорожный

86

4

12

16

13

16

8

4

3

10

г. Жуковский

3712

35

105

985

1053

884

304

105

162

79

г. Ивантеевка

242

5

6

91

91

29

6

2

-

12

г. Климовск

93

7

2

15

37

23

2

4

2

1

г. Коломна

115

10

6

35

32

12

8

6

-

6

г. Красноармейск

19

-

1

8

6

4

-

-

-

-

Таблица 2. Пример таблицы, сформированной с применением алгоритмов защиты персональных данных (данные условные)

 

Все население

0-9

10 - 19

20 - 29

30 - 39

40 - 49

50 - 59

60 - 69

70 и более

Возраст не указан

г. Бронницы

188

4

12

67

36

47

9

9

4

-

г. Дзержинский

81

5

9

15

20

10

14

-

-

-

г. Долгопрудный

797

21

47

260

257

139

33

5

7

30

г. Дубна

71

3

10

8

7

15

11

7

5

3

г. Железнодорожный

84

9

13

15

15

13

6

5

4

10

г. Жуковский

3713

36

108

988

1052

886

300

104

160

81

г. Ивантеевка

242

4

4

91

90

27

3

-

-

8

г. Климовск

92

9

6

13

38

22

3

3

-

-

г. Коломна

112

11

9

32

37

13

9

7

-

7

г. Красноармейск

20

-

3

8

5

6

-

-

-

-

Получить доступ к базе микроданных Всероссийской переписи населения 2002 года может любой пользователь сети Интернет по адресу www.perepis-2010.ru. При этом регистрация не требуется.

В конце текущего года Росстатом планируется аналогичным образом предоставить доступ к базе микроданных Всероссийской переписи населения 2010 года, а также к базе микроданных Всероссийских переписей 2002 и 2010 года, содержащую переписную информацию по сопоставимым показателям.

Вернуться назад
Версия для печати Версия для печати
Вернуться в начало

Свидетельство о регистрации СМИ
Эл № ФС77-39707 от 07.05.2010г.
demoscope@demoscope.ru  
© Демоскоп Weekly
ISSN 1726-2887

Демоскоп Weekly издается при поддержке:
Фонда ООН по народонаселению (UNFPA) - www.unfpa.org (c 2001 г.)
Фонда Джона Д. и Кэтрин Т. Макартуров - www.macfound.ru (с 2004 г.)
Фонда некоммерческих программ "Династия" - www.dynastyfdn.com (с 2008 г.)
Российского гуманитарного научного фонда - www.rfh.ru (2004-2007)
Национального института демографических исследований (INED) - www.ined.fr (с 2004 г.)
ЮНЕСКО - portal.unesco.org (2001), Бюро ЮНЕСКО в Москве - www.unesco.ru (2005)
Института "Открытое общество" (Фонд Сороса) - www.osi.ru (2001-2002)


Russian America Top. Рейтинг ресурсов Русской Америки.