4.7. Общие подходы к восстановлению данных других типов организаций

4.7. Общие подходы к восстановлению данных
других типов организаций

Для восстановления отсутствующих данных используются средние значения показателей. Неответившей организации присваивается среднее значение показателей СОНКО, ответивших в данном слое. Если не удается восстановить значения показателей по среднему в слое (например, когда в слое не окажется ни одной ответившей организации), тогда значениям показателей приписываются средние значения, рассчитанные по ответившим организациям в последующем слое, принадлежащему данному виду экономической деятельности.

Если известны отдельные значения показателей по другим источникам, то для восстановления всех данных используется метод ближайшего соседа.

Метод ближайшего соседа и восстановление недостающих данных

Для каждой ответившей k-й организации g-го вида экономической деятельности по ОКВЭД2 рассчитывается величина нормированного индекса для двух показателей - "всего поступило средств" и "средняя численность работников":

для "всего поступило средств":

;

для "средняя численность работников":

;

где
iQgk
-
нормированный индекс показателя "всего поступило средств" для k-й организации g-го вида экономической деятельности;
iTgk
-
нормированный индекс показателя "средняя численность работников" для k-й организации g-го вида экономической деятельности;
Qgk, Tgk
-
значения соответствующего показателя "всего поступило средств", "средняя численность работников") в k-й организации g-го вида экономической деятельности;
Qgmin, Qgmax, Tgmin, Tgmax
-
соответственно, минимальное и максимальное значение показателя "всего поступило средств", "средняя численность работников" g-го вида экономической деятельности.

Для организаций g-го вида экономической деятельности рассчитываются средние значения показателей:

для "всего поступило средств":

;

для "средняя численность работников":

,

где ng - количество организаций g-го вида экономической деятельности.

Для средних значений показателей СОНКО рассчитываются аналогичные нормированные индексы для показателей "всего поступило средств" и "средняя численность работников":

для "всего поступило средств":

;

для "средняя численность работников":

,

где
-
нормированный индекс среднего значения показателя "всего поступило средств" для соответствующего вида экономической деятельности;
-
нормированный индекс среднего значения "средняя численность работников" для соответствующего вида экономической деятельности.

Для каждой k-й организации рассчитывается величина "евклидова расстояния" по формуле:

Организации ранжируются в порядке возрастания значений евклидова расстояния. Ближайшим соседом для k-й организации g-го вида деятельности является организация с номером (k + 1) или (k - 1), для которой получены данные о величине показателей "всего поступило средств" и "средняя численность работников", и которая имеет "евклидово расстояние" равное или наиболее близкое к "евклидовому расстоянию" k-й организации.

Если по k-й организации g-го вида деятельности отсутствуют данные о величине какого-либо показателя Zgk, а у его ближайшего соседа значение соответствующего показателя равно Zg(k+1), вмененное значение этого показателя для k-й организации Zgk рассчитывается по формуле: