4.7. Общие подходы к восстановлению данных других типов организаций
Для восстановления отсутствующих данных используются средние значения показателей. Неответившей организации присваивается среднее значение показателей СОНКО, ответивших в данном слое. Если не удается восстановить значения показателей по среднему в слое (например, когда в слое не окажется ни одной ответившей организации), тогда значениям показателей приписываются средние значения, рассчитанные по ответившим организациям в последующем слое, принадлежащему данному виду экономической деятельности.
Если известны отдельные значения показателей по другим источникам, то для восстановления всех данных используется метод ближайшего соседа.
Метод ближайшего соседа и восстановление недостающих данных
Для каждой ответившей k-й организации g-го вида экономической деятельности по ОКВЭД2 рассчитывается величина нормированного индекса для двух показателей - "всего поступило средств" и "средняя численность работников":
для "всего поступило средств":
;
для "средняя численность работников":
;
где
|
iQgk
|
-
|
нормированный индекс показателя "всего поступило средств" для k-й организации g-го вида экономической деятельности;
|
iTgk
|
-
|
нормированный индекс показателя "средняя численность работников" для k-й организации g-го вида экономической деятельности;
|
|
Qgk, Tgk
|
-
|
значения соответствующего показателя "всего поступило средств", "средняя численность работников") в k-й организации g-го вида экономической деятельности;
|
|
Qgmin, Qgmax, Tgmin, Tgmax
|
-
|
соответственно, минимальное и максимальное значение показателя "всего поступило средств", "средняя численность работников" g-го вида экономической деятельности.
|
Для организаций g-го вида экономической деятельности рассчитываются средние значения показателей:
для "всего поступило средств":
;
для "средняя численность работников":
,
где ng - количество организаций g-го вида экономической деятельности.
Для средних значений показателей СОНКО рассчитываются аналогичные нормированные индексы для показателей "всего поступило средств" и "средняя численность работников":
для "всего поступило средств":
;
для "средняя численность работников":
,
где
|
-
|
нормированный индекс среднего значения показателя "всего поступило средств" для соответствующего вида экономической деятельности;
|
|
-
|
нормированный индекс среднего значения "средняя численность работников" для соответствующего вида экономической деятельности.
|
Для каждой k-й организации рассчитывается величина "евклидова расстояния" по формуле:
Организации ранжируются в порядке возрастания значений евклидова расстояния. Ближайшим соседом для k-й организации g-го вида деятельности является организация с номером (k + 1) или (k - 1), для которой получены данные о величине показателей "всего поступило средств" и "средняя численность работников", и которая имеет "евклидово расстояние" равное или наиболее близкое к "евклидовому расстоянию" k-й организации.
Если по k-й организации g-го вида деятельности отсутствуют данные о величине какого-либо показателя Zgk, а у его ближайшего соседа значение соответствующего показателя равно Zg(k+1), вмененное значение этого показателя для k-й организации Zgk рассчитывается по формуле: