Методи об`єднання статистичних даних

Вступ

На сучасному етапі розвитку суспільства в більшості розвинених країн світу загострюється проблема формування якісного інформаційного забезпечення соціальної, соціально-економічної та демографічної політики [1; 2].Спостерігається експоненційне зростання обсягів статистичної інформації, що використовується при прийнятті рішень, удосконалюються й узгоджуються з міжнародними стандартами системи показників і методи їх вимірювання, критерії якості інформаційного забезпечення, принципи моніторингу соціальних процесів тощо. Все більшого значення для користувачів набувають дані на найнижчих рівнях агрегації [3].Значна увага приділяється вдосконаленню методів збирання, обробки та аналізу інформації [1]. Загострюється проблема ефективності використання існуючої інформації.Основними джерелами статистичних даних у соціальній сфері є результати обстежень населення, статистична звітність та інформація з адміністративних джерел. У різних країнах світу, залежно від існуючих статистичних систем, роль цих джерел даних може суттєво різнитися. В окремих країнах основним джерелом поточної статистичної інформації щодо багатьох характеристик на-

селення є розвинена система реєстрів населення [2]. Наприклад, у Нідерландах з 1971 року замість традиційних переписів населення використовують інтегровану статистичну систему, що комбінує дві групи джерел статистичних даних: реєстри (населення, соціального забезпечення, податковий, власників нерухомості, освіти, поштових адрес) та вибіркові обстеження (домогосподарств, робочої сили, міграції населення та ін.). Центральним бюро статистики Ізраїлю та Федеральною статистичною службою Німеччини останнім часом запроваджено проведення так званого “інтегрованого перепису населення” – комбінації індивідуальних даних, отриманих з реєстру фізичних осіб, з даними, зібраними шляхом проведення вибіркового обстеження населення. Таким способом одночасно досягається декілька позитивних результатів: уточнюються дані адміністративного

реєстру, отримуються додаткові характеристики щодо населення, а також суттєво зменшується навантаження на респондентів і на бюджет [2].

1.Сучасні методологічні підходи до статистичного об’єднання даних

Комбінація даних вибіркових обстежень та реєстрів на мікрорівні або даних різних вибіркових обстежень у окремих випадках дозволяє отримати дані на регіональному рівні приблизно такої самої надійності, як і при проведенні суцільного обстеження.При цьому інтегрована система збирання інформації має такі переваги, як менший процент відсутніх даних та вища загальна якість інформації.Слід зазначити, що система реєстрів, як і більшість державних вибіркових обстежень, орієнтована на забезпечення користувачів інформацією на постійній (періодичній) основі. Це зумовлено необхідністю не лише вимірювання значень соціальних показників на певний момент часу або середніх за певний період, а й оцінювання зміни показників у часі, аналізу панельних даних, забезпечення безперервності динамічних рядів тощо. Водночас наявність даних у динаміці надає можливість ефективного використання кумулятивних(об’єднаних, накопичених у часі) масивів інформації з метою підвищення надійності оцінювання показників на різних рівнях агрегації даних, побудови та використання динамічних моделей соціальних процесів та ін.Протягом останнього десятиліття на міжнародному та національних рівнях виконано значний обсяг досліджень проблеми комплексного використання даних з різних джерел. За результатами цих досліджень встановлено ефективність реалізації комплексних програм збирання та використання інформації [2–4]. Особливо це є актуальним для офіційної (державної) статистики. Зазначене вимагає відповідного реформування національних та міжнародних систем офіційної статистики,зокрема гармонізації сучасних систем соціальних даних, методів спостережень, обробки та збереження даних, принципів забезпечення якості даних та надання інформації користувачам. З’являється багато наукових публікацій, розробляються відповідні методологічні та методичні матеріали, найефективніші методи впроваджуються у практику.Найбільш вагомими у цьому напрямі є роботи К. Бейкера, П. Ван де Лана, С. Ресслер, Д. Рубіна, М. Д’Оразіо, М. Ді Зіо та М. Сану, Г. Сапорти та ін. Не лише науковці, а й фахівці, які працюють в офіційній статистиці, та користувачі все частіше використовують терміни “об’єднання даних”, “злиття даних”, “узгодження даних”, “з’єднання даних”, “інтеграція даних”, “комбінування даних”, “акумуляція даних” та ін. При цьому зазначені терміни часто використовуються як синоніми для позначення одних і тих самих методів або характеризують різні методи комплексного використання інформації. Це свідчить, зокрема, про багатоаспектність проблеми об’єднання даних та про недостатню розвиненість відповідних методологічних підходів.Метою доповіді є висвітлення особливостей сучасних методологічних підходів до статистичного об’єднання даних, принципів класифікації методів об’єднання даних з різних джерел. Особливу увагу приділено підходам до об’єднання даних вибіркових обстежень, які широко використовуються для вимірювання актуальних соціально-економічних показників. Як свідчить аналіз науково-методологічних публікацій, для загального позначення процесів, які забезпечують можливість комплексного використання статистичних даних з різних джерел, доцільно використовувати термін “статистичне об’єднання даних” (цьому терміну в англомовних публікаціях найбільше відповідає термін “statistical matching”) [5].

1.1 Поняття про «Статистичне об`єднання даних»

Статистичне об’єднання даних доцільно визначити як сукупність процесів інтеграції результатів спостережень на основі спеціальних методологічних принципів з метою формування об’єднаного масиву інформації для ефективного вимірювання цільових явищ і процесів за результатами різних (за видами, часом проведення, рівнем агрегації тощо) спостережень [6].Слід зазначити, що статистичне об’єднання даних характеризується такими основними перевагами: суттєве зростання ефективності використання статистичної інформації; підвищення надійності вимірювання показників; забезпечення можливості вимірювання показників на місцевому рівні; узгодження результатів спостережень з інформацією з зовнішніх джерел; забезпечення порівнянності даних; забезпечення можливості об’єднання результатів спостережень з результатами моделювання на мікро- та макрорівні; отримання комплексної інформації щодо процесів та явищ,які досліджувались окремо та ін.Доцільно виділити два основні напрями об’єднання даних: об’єднання даних, отриманих з різних джерел інформації; об’єднання даних з одного джерела інформації у часі (найбільш поширеним прикладом об’єднання такого типу є створення кумулятивних масивів інформації за результатами спостережень, що проводяться на періодичній основі – щомісячно, щоквартально, щорічно).

Методи об`єднання статистичних даних

Методи об’єднання інформації з різних джерел почали інтенсивно розвиватися лише в останні часи,хоча окремі роботи з’являлися ще в 70-х роках ХХстоліття. Це пов’язано з необхідністю задоволення потреб насамперед офіційної статистики. Методи об’єднання за другим із зазначених напрямів використовуються, починаючи з 60-х років минулого століття. Вони вже є традиційними у таких галузях статистики, як обстеження робочої сили, моніторинг бідності та ін. [2].

Поряд із зазначеними основними напрямами доцільно виділити два базові методологічні підходи до об’єднання даних [5]:

• мікропідхід – об’єднання даних із декількох файлів (масивів) в один файл (масив) для подальшої обробки та аналізу;

• макропідхід – об’єднання даних із декількох джерел шляхом побудови загальної оцінки показника на основі оцінок показників, отриманих за різними файлами.

Виділяють такі основні методи об’єднання даних з різних джерел (рис. 1, за даними [5–7]):

– приєднання даних (data merging);

– зв’язування даних (record linkage);

– злиття даних (data fusion – назва, що поширена у Європі, або ж synthetical matching – синтетичне злиття).

Методи об`єднання статистичних даних - student2.ru

Рис. 1. Методи статистичного об’єднання даних

Перший метод застосовується за умов, коли з різних джерел отримують дані за однаковими ознаками, тобто до певного масиву даних необхідно приєднати додаткові одиниці спостережень (рис. 2, за даними [5–7]). При цьому із різних джерел отримують дані за одиницями однакового рівня (наприклад, за членами домогосподарств) та за однаковими ознаками (за ідентичними анкетами).Як видно з рис. 2, приєднання даних є достатньо простим методом – до масиву даних обстеження А приєднується масив даних обстеження В.У результаті отримуємо об’єднаний масив даних, де представлені всі спостереження з обох масивів даних. Серед методів приєднання даних найбільш широкого застосування при обробці даних вибіркових обстежень знайшли такі:

1) пряме приєднання даних; застосовується за умов, коли за результатами одного спостереження необхідно отримати загальний масив даних шляхом об’єднання масивів даних по різних групах одиниць. Прикладом такого підходу є формування загального масиву даних спостереження на національному рівні на основі регіональних масивів даних;

2) приєднання даних різних обстежень; використовується за умов, коли дані по одиницях однакового рівня та за однаковими ознаками отримані за результатами різних обстежень. Цей метод застосовується, наприклад, коли необхідно об’єднати дані, отримані при вимірюванні однакових ознак у різних обстеженнях;

3) приєднання даних, отриманих у різні проміжки часу; застосовується у випадку, коли об’єднуються дані по одиницях однакового рівня (тих самих або різних) та за однаковими ознаками, що отримані у різні проміжки часу за результатами одного або різних обстежень. Цей метод є ефективним, зокрема, при оцінюванні показників на основі кумулятивних масивів інформації, сформованих на основі масивів за декілька проміжків часу.

На основі аналізу принципів гармонізації та результатів виконаних досліджень у роботі сформульовано узагальнюючі методологічні положення, що необхідно враховувати при розробці підходів до статистичного об’єднання даних.

По-перше, для забезпечення уможливлення використання методів об’єднання даних з різних джерел інформація повинна відповідати одиницям одного рівня (особи, домогосподарства, адміністративні райони тощо).

По-друге, об’єднання даних здійснюється лише за подібними (або однаковими) групами одиниць. Наприклад, дані перепису населення містять інформацію про все населення, а дані обстеження економічної активності населення містять інформацію лише щодо осіб працездатного віку (тобто за методологією МОП – 15–70 років).

По-третє, необхідно враховувати період спостереження. Скажімо, дані перепису населення відображають ситуацію на конкретну дату, а дані вибіркових обстежень домогосподарств – за певний період часу (місяць, квартал, рік). При об’єднанні даних, що відповідають різним періодам часу, необхідними є перерахунки для забезпечення узгодженості даних.

По-четверте, при об’єднанні даних суттєво зростають вимоги до якості інформації, насамперед її надійності та узгодженості. Об’єднання даних зі значною кількістю пропусків, неузгодженістю тощо може призвести до неприйнятно низької якості об’єднаного масиву інформації.

Зазначені положення є загальними для всіх методів об’єднання даних. Практична їх реалізація здійснюється через систему конкретних правил та рекомендацій залежно від обраного підходу до об’єднання даних.

Методи об`єднання статистичних даних - student2.ru

Рис. 2. Схема об’єднання даних на основі методу приєднання даних

Необхідно зауважити, що при використанні методу приєднання даних з метою об’єднання результатів вибіркових обстежень населення, як правило, виникає серйозна методологічна проблема, пов’язана з різними рівнями надійності результатів. Це зумовлено розбіжностями у дизайнах вибірок, різною якістю організації обстеження та

обробки їх результатів тощо. Для ефективного оцінювання показників на основі об’єднаного масиву даних доцільно надавати перевагу більш надійним даним. Зрозуміло, що отримати та використати інформацію щодо якості організації обстежень проблематично і вирішення цього питання потребує спеціальних досліджень, які виходять за межі цієї

роботи. Водночас урахування розбіжностей дизайну вибірок, які безпосередньо впливають на величину похибки вибірки оцінювання показників,може бути здійснено на базі статистично обґрунтованих підходів.Зв’язування даних застосовується, коли за одними й тими самими одиницями отримують дані з різних джерел, тобто до певного масиву даних необхідно приєднати додаткові змінні (рис. 3, за даними [4–7]). При об’єднанні даних за схемою, що наведена на рис. 3, до одиниць масиву обстеження А приєднуються додаткові змінні з масиву обстеження В. Слід особливо підкреслити, що додаткові змінні приєднуються тільки для тих одиниць,за якими є дані в обох масивах. Для забезпечення можливості об’єднання даних із масивів обстеження А та В необхідно передбачити спеціальні ознаки – ключі, за якими потім зв’язуються записи за

одиницями обстежень.

Методи об`єднання статистичних даних - student2.ru

Рис. 3. Схема зв’язування масивів даних двох обстежень

Серед методів зв’язування даних основними є такі:

1) пряме зв’язування даних; застосовується за умов, коли за одними і тими самими одиницями отримують дані з декількох обстежень. Цей метод часто використовується у практиці вибіркових обстежень у випадку, коли до основного масиву обстеження необхідно приєднати додаткові змінні з масиву модульного обстеження, що охоплює всі або частину одиниць основного обстеження;

2) зв’язування даних з підбором ключових змінних; використовується, коли за одними й тими самими одиницями отримують дані з декількох обстежень, але при організації цих обстежень не було передбачено можливість зв’язування інформації, тобто не були сформовані спеціальні гармонізовані ознаки – ключі, або ці ознаки містять пропуски.

Два розглянуті методи об’єднання даних часто застосовуються при обробці даних вибіркових обстежень домогосподарств.Методи злиття даних дозволяють об’єднати дані, отримані з різних джерел за різними блоками обстежених одиниць та різними блоками ознак, у єдиний масив (рис. 4, за даними [5–8]). Злиття даних є методологічно і технологічно доволі складним прийомом, що спирається на аналіз та врахування статистичних властивостей масивів даних. Застосування цих методів забезпечує отримання

єдиних масивів даних на основі результатів різних обстежень. Методи злиття даних дозволяють оцінювати соціально-економічні показники на основі більших за об’ємом масивів даних, ніж масиви,отримані за даними конкретних обстежень.

Висновки

Таким чином, на основі виконаних досліджень та досвіду практичного використання встановлено, що застосування об’єднаних даних при вимірюванні соціально-економічних процесів забезпечує суттєве зростання ефективності використання статистичної інформації. За сучасних умов методологію об’єднання даних доцільно розробляти та

впроваджувати в Україні насамперед для потреб державної статистики у сфері вибіркових обстежень. Це пояснюється доступністю та прозорістю методологічних засад і методичного забезпечення обстежень, а також достатньо високим рівнем організації вибіркових обстежень населення в Україні, зокрема ефективною системою надання їх результатів користувачам.Методи статистичного об’єднання даних доцільно розрізняти за кількістю джерел, дані з яких об’єднуються (з різних джерел інформації та з одного джерела) та за підходом: мікропідхід – об’єднання даних із декількох масивів в один для подальшої обробки та аналізу; макропідхід – об’єднання даних із декількох джерел шляхом розрахунку загальної оцінки показника на основі

оцінок за різними джерелами. Узагальнювальними методологічними положеннями, які необхідно враховувати при розробці підходів до статистичного об’єднання даних, є такі: для забезпечення можливості застосування методів об’єднання даних з різних джерел інформація, що використовується, повинна відповідати одиницям одного рівня (особи, домогосподарства,фермерські господарства, адміністративні райони тощо); припустимим є об’єднання даних лише за однаковими групами одиниць; при об’єднанні даних слід враховувати період спостереження (для забезпечення узгодженості даних, що відповідають різним періодам часу, необхідно застосовувати спеціальні перерахунки); при об’єднані даних суттєво зростають вимоги до якості інформації, насамперед її надійності та узгодженості.

Наши рекомендации