Выявление причинно-следственной связи между государственными расходами и общественно желаемыми результатами

Белев С.Г.1, Тищенко Т.В.1
1 Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации, Институт экономической политики им. Е.Т. Гайдара

Статья в журнале

Российское предпринимательство *
Том 16, Номер 24 (Декабрь 2015)
* Этот журнал не выпускается в Первом экономическом издательстве

Цитировать:
Белев С.Г., Тищенко Т.В. Выявление причинно-следственной связи между государственными расходами и общественно желаемыми результатами // Российское предпринимательство. – 2015. – Том 16. – № 24. – С. 4355-4366. – doi: 10.18334/rp.16.23.2153.

Аннотация:

Данная статья посвящена проблеме выявления причинно-следственной связи между государственными расходами и общественно желаемыми результатами (эффектами). В рамках этой работы представлен анализ преимуществ и недостатков экспериментальных и псевдоэкспериментальных методов количественной оценки эффективности государственных расходов (поиск паро-соответствия, разность-разностей, разрывный дизайн). Кроме того, представлены примеры внедрения данных методов в практику государственного управления в США и Великобритании при оценке эффективности государственных расходов.

Ключевые слова: оценка эффективности, общественное благосостояние, эффективность государственного сектора

В издательстве открыта вакансия ответственного редактора научного журнала с возможностью удаленной работы
Подробнее...



Введение

В связи с ухудшающейся макроэкономической ситуацией в стране возникают все большие сложности с балансированием государственного бюджета. Поэтому неизбежно встает вопрос об оценке эффективности осуществляемых и осуществленных государственных расходов. Одной из существенных методологических проблем, связанных с оценкой эффективности, является выявление причинно-следственной связи между общественно желаемыми результатами (эффектами) и государственными расходами. Решение данной проблемы даже стало предметом общественной дискуссии, прежде всего, в США и Великобритании. Неслучайно именно в этих странах получило развитие практическое применение так называемых экспериментальных и псевдо-экспериментальных методов выявления и количественной оценки причинно-следственной связи между общественно желаемыми результатами (эффектами) и государственными расходами. В рамках данной статьи, во-первых, будет проведен обзор такого рода методов с указанием на преимущества и ограничения в их практическом применении. Во-вторых, будут приведены примеры их реализации в практике оценки эффективности расходов государственными органами.

Преимущества и ограничения экспериментальных и псевдоэкспериментальных оценок эффективности государственных расходов

Выявление причинно-следственной связи и ее количественная оценка в экономике прошли определенную эволюцию (Heckman, Vytlacil, 2007; Imbens, Wooldridge, 2009). На первом этапе практически монопольное положение занимал структурный подход (structural approach). Согласно нему, для количественной оценки нужно было определить теоретическую модель поведения экономических агентов, наиболее соответствующую реальным данным. Соответствие данным определялось исходя из качества подгонки модельных значений реальным. При этом предполагалось, что значения переменных остаются неизменными при различных шоках внешней среды. Структурный подход тем самым позволял экстраполировать модельные прогнозы за счет предположения о стабильности поведенческих констант. Однако он требовал четко проработанной поведенческой модели и учета всех факторов, способных повлиять на анализируемые переменные, а следовательно, и на расчетные значения поведенческих констант.

Именно риски ошибок в моделировании и наличие пропущенных переменных являются главными недостатками структурного подхода в выявлении причинно-следственной связи и ее количественной оценке. Неудивительно, что на втором этапе возникла конкурирующая парадигма – подход приведенной формы (reduced-form approach) (Angrist, Pischke, 2010). Его последователи предлагают не выписывать сложные математические модели, воспроизводящие поведение экономических агентов, а лишь оценивать статистическую связь между параметрами воздействия и переменными эффектов с минимальным числом предпосылок о поведении экономических агентов. Правда, стоит отметить, что снижение риска ошибки в спецификации теоретической модели в приведенном подходе порождает большие риски ложной корреляции между воздействием и эффектом. Однако последняя проблема существенна и для структурного подхода. Тем не менее, большой толчок для исследований в рамках приведенного подхода дало развитие псевдоэкспериментальных [1] и экспериментальных оценок в экономической теории. Методология последних обеспечивает большую гарантию того, что оценка частной корреляции между воздействием и эффектом будет состоятельной и несмещенной.

Случайное распределение получателей бюджетных средств

Идея экспериментальной и псевдоэкспериментальной оценок состоит в том, что экономические агенты делятся на группы, которые отличаются между собой только статусом по отношению к воздействию (испытал/не испытал воздействия). Главная проблема для оценивания эффектов воздействия как таковых заключается в том, что невозможно наблюдать одного и того же экономического агента в случаях, когда он испытал и не испытал какое-либо воздействие (проблема «нельзя прожить две жизни») (Там же). Методы экспериментальной и псевдоэкспериментальной оценок предлагают различные варианты решения данной проблемы на основе ряда допущений.

Первый вариант решения – постулирование однородности объектов по отношению к воздействию, т.е. для ситуации оценки эффективности государственных расходов, это будет предположение о том, что эффекты для экономических агентов, которые не получили бюджетных средств или благ, произведенных за счет этих средств, были бы такими же, как если бы получившие и не получившие поменялись местами. Однако данное предположение имеет существенную слабость в виде своей практической непроверяемости (неопровержимости). По этой причине чаще на практике прибегают к другим предположениям.

Вторым способом «прожить две жизни», обычно реализуемым сторонниками экспериментального подхода к оценке эффективности (в том числе и бюджетных расходов) и воспринимаемым ими как золотой стандарт оценки воздействия (gold standard of treatment’s evaluation), является случайное распределение участников в подопытную [2] и отслеживаемую [3] группы (random assignment of participants) (Imbens, Wooldridge, 2009). В этом случае при достаточно большой выборке в обеих группах по закону больших чисел расчетный средний эффект воздействия (average treatment effect) будет стремиться с ростом числа агентов в обеих группах к истинному значению эффекта воздействия. Типичным способом организации случайного распределения участников в подопытную и отслеживаемую группы является проведение лотереи. Например, эксперимент со случайным распределением участников в подопытную и отслеживаемую группы в сфере здравоохранения в штате Орегон стартовал в 2008 г., когда по причине недостатка бюджетных средств для обеспечения всех жителей штата, подпадающих под программу, было решено обеспечить хотя бы часть целевой группы путем отбора реципиентов через лотерею (Finkelstein, Hendren, Luttmer, 2015). Или эксперимент, когда в рамках программы дошкольного образования Head Start в США было решено провести случайное распределение детей на основе лотереи. Прежние исследования показывали наличие положительного влияния программы на результаты школьного тестирования, однако последние исследования на основе случайного распределения детей показало, что дошкольное образование имеет исключительно краткосрочный эффект на результаты обучения в школе (Kline, Walters, 2015).

В случае же, когда случайное распределение экономических агентов на подопытную и отслеживаемую группы невозможно по каким-либо причинам, используют менее точные решения в виде сужения рассматриваемой популяции экономических агентов, потенциально подпадающих под воздействие.

Поиск паро-соответствия среди получателей бюджетных средств

Основной способ сужения популяции предполагает нахождение среди испытавших и не испытавших воздействие экономических агентов, «похожих» с точки зрения эффектов воздействия («поиск близнецов») (Imbens, 2010). При таком подходе следует оговорить, что нельзя экстраполировать выводы о том, что воздействие будет иметь такой же эффект в среднем для всех экономических агентов, что и рассчитанный только для «похожих» экономических агентов. Несмотря на ограниченность возможности экстраполяции, именно поиск и сопоставление «похожих» экономических агентов наиболее часто используется в прикладных исследованиях благодаря большей доступности данных и возможностей реализации.

Реализация описанного выше способа требует поиска паро-соответствия (matching) (Abadie, Imbens, 2006) между экономическими агентами из подопытной и отслеживаемой групп. Для этого определяется набор переменных, которые могли бы количественно повлиять на эффект воздействия, а затем проводится оценка среднего эффекта только для «похожих» наблюдений. Поиск «близнеца» обычно крайне тяжело реализуем, поэтому говорят о степени «достаточной схожести». Например, чаще всего реализуется эта идея через расчет меры склонности агента к отнесению к той или иной группе (propensity score). Главная методологическая сложность при реализации поиска паро-соответствия состоит в определении контрольных переменных, значимых для эффекта воздействия. Пропуск существенных значимых переменных при отборе паро-соответствия может привести к смещенным и несостоятельным оценкам эффектов воздействия. Поэтому на практике очень популярны два специальных варианта решения того, как обойти проблему пропущенных переменных, а именно применение «разности разностей» и «разрывного дизайна».

Способ «разность разностей» (difference-in-difference) (Abadie, 2005; Bertrand, Duflo, Mullainathan, 2004) предполагает оценку эффектов воздействия путем сравнения временной динамики. Метод применим, если есть информация об обеих группах до и после момента воздействия. При этом до воздействия обе группы не должны различаться с точки зрения эффекта воздействия. Наконец, воздействие должна испытать только одна группа. Тогда разница между показателями эффектов у подопытной и отслеживаемой групп после воздействия за вычетом разницы между показателями эффектов у подопытной и отслеживаемой групп до воздействия будет средним эффектом воздействия. Таким образом, предполагается, что изменение показателя эффекта у отслеживаемой группы при наличии воздействия было бы таким же, как и у подопытной группы. На практике метод «разности разностей» реализуется, как правило, на «соседствующих» объектах (например, экономические агенты из регионов, где произошло изменение, войдут в подопытную группу, а из регионов, где не имело место воздействие, в отслеживаемую группу).

Другой не менее популярный способ оценки эффектов воздействия на основе поиска паро-сочетания – «разрывный дизайн» (regression discontinuity design) (Lee, Lemieux, 2010). Довольно часто какие-либо государственные расходы предполагают использование критериев допуска при условии удовлетворения пороговым значениям каких-либо показателей. Например, субсидии для низкодоходных групп. Тогда можно в качестве подопытной группы рассмотреть тех экономических агентов, которые оказались «у границы» пороговых значений, а в качестве отслеживаемой группы – тех экономических агентов, которым не хватило «немного» до достижения этой «границы».

Разрывный дизайн применим, если, во-первых, отсутствует манипулируемость значениями показателей. Типичным примером, когда оценка, полученная разрывным дизайном, не заслуживает доверия, является ситуация, когда очень много экономических агентов, которые оказываются у самой границы порогового значения. Это косвенно свидетельствует о том, что агенты могут эффективно скрывать информацию по критериям с выгодой для себя. Также необходимо достаточное число агентов по обе стороны пороговых значений. Здесь возникает вопрос о ширине окна (степени близости к порогу для отбора в отслеживаемую и подопытную группы). На сегодняшний день основная методическая рекомендация состоит в оценке средних эффектов для выборок с различной шириной окна. Если полученная оценка устойчива к выбору ширины окна, то она «заслуживает доверия».

Подводя итог, отметим, что на сегодняшний день гораздо большее внимание уделяется именно характеристикам проведения исследования, как происходило разделение на подопытную и отслеживаемую группы, имело ли место случайное распределение участников воздействия на группы и т.д. Такого рода характеристики призваны обеспечить выявление причинно-следственной связи и большую достоверность величины этой оценки. Однако возможности использования экспериментов и псевдо-экспериментов весьма ограничена разного рода этическими и техническими аспектам в их реализации. По этим причинам можно говорить практически об отсутствии такого рода оценок в макроэкономике. Так Хассан и Фухс-Шюндельн (Fuchs-Schuendeln, Hassan, 2015) нашли всего 5 примеров экспериментальных и псевдоэкспериментальных оценок в макроэкономике.

Применение экспериментальных и псевдоэкспериментальных оценок эффективности государственных расходов в практике государственной политики

В 2014 году президент США Барак Обама выступил с экономическим докладом, где глава 7 «Evaluation As A Tool For Improving Federal Programs» [4] (htt33) была посвящена углублению использования экспериментальной и псевдоэкспериментальной оценок. При этом доклад прямо ссылался на научные работы по этой тематике, представленные в первом параграфе этой статьи. Например, в октябре 2015 году сотрудники бюджетного управления Конгресса (CBO) Габриель Эрлих и Джеффри Перри [5] провели оценку программ рефинансирования ипотеки с точки зрения снижения риска дефолта. В рамках данного исследования применялся разрывный дизайн.

Стоит отметить, что по ряду государственных программ такая практика была предусмотрена еще раньше. Так, в государственных программах, указанных ниже, прямо предполагалась оценка на основе экспериментальных или псевдоэкспериментальных методов:

- Negative Income Tax Experiments (1968–1978);

- National Health Insurance (1972–1982);

- Supported Work (1974–1980);

- MDRC Welfare to Work (1985–2001);

- National Job Training Partnership Act (1986–1993);

- Even Start (1991–1994);

- Upward Bound (1992–2004);

- Job Corps (1993–2003);

- Early Head Start (1996–present);

- Abstinence Education (1997–2007);

- Employment Retention and Advancement (2000–2007);

- Head Start (2002–2008);

- Building Strong Families (2002–2011).

Другой страной, активно взявшейся за внедрение экспериментальных или псевдо-экспериментальных методов оценки эффективности государственных расходов, является Великобритания. В частности, в 2011 году по заказу Счетной палаты Великобритании (NAO) Лондонская школа экономики провела анализ 33 ведомственных отчетов по эффективности бюджетных расходов [6]. По итогам этой работы Казначейство и Счетная палата Великобритании настоятельно рекомендовали использовать методы оценки эффективности, ранжируя их по предпочтительности на основе т.н. Мэрилендской шкалы исследовательских методов (табл.).

Таблица

Мэрилендская шкала исследовательских методов (предпочтительность методов растет вместе с номером уровня)

Уровень
Характеристика проведения исследования
Пятый
Случайное распределение участников в отслеживаемую и подопытную группы
Четвертый
Поиск паро-соответствия
Третий
Разность разностей
Второй
Сопоставление общественно желаемых результатов до и после осуществления государственных расходов без поиска паро-соответствия (сравнение факта с планом)
Первый
Оценка изменений только внутри подопытной группы
Источник: Gibbons, S., McNally, S., Overman, H. (2011). Review of Government Evaluations: A report for the NAO. LSE, London.

В отчете Лондонской школы экономики не рекомендовалось использовать методы уровня ниже третьего. Хотя анализ практики в Великобритании показал, что все ведомства преимущественно проводили оценки, соответствующие второму (13 отчетов) и первому (6 отчетов) уровням, тем не менее несколько ведомств использовали за счет привлечения экспертов оценки на основе методов третьего (3 отчета), четвертого (8 отчётов) и пятого (3 отчета) уровня. Например, программа Департамента предпринимательства, инноваций и навыков (Business, Innovations & Skills) использует случайный отбор участников для оценки эффективности программы поддержки малого и среднего бизнеса (Growth Vouchers programme).

Заключение

Достоверная оценка эффективности государственных расходов требует, чтобы был выявлен эффект в виде (не)достижения некоторых общественно желаемых результатов именно от осуществления государственных расходов, а не по причине воздействия прочих факторов. В последние двадцать лет в академической литературе повышаются требования к эмпирическим оценкам в части выявления причинно-следственной связи между государственными расходами и эффектами от их осуществления. Можно констатировать, что экспериментальные и псевдо-экспериментальные методы оценки завоевали себе лидирующие позиции за счет возможностей контроля влияния прочих факторов.

«Золотым стандартом» считается проведение экспериментов со случайным распределением участников. В этом случае при большой численности участников эксперимента сопоставление средних значений в подопытной и отслеживаемой группах дает несмещенную и состоятельную оценку эффективности государственных расходов. Однако в том числе по этическим соображениям (проведение экспериментов происходит все-таки на людях) случайное распределение участников по отслеживаемой и подопытной группе не всегда реализуемо. В связи с этим на практике также пытаются проводить разделение на подопытную и отслеживаемые группы через поиск паро-соответствия на основе расчета меры склонности, методов разности-разностей и разрывного дизайна. Однако существенным недостатком этих методов является то, что они дают количественную оценку эффективности государственных расходов только по части подвергшихся воздействию в виде осуществления мер государственной политики. Однако при отсутствии иных доступных способов контроля влияния прочих факторов, по выражению Гвидо Имбенса, лучше оценка местного эффекта воздействия, чем оценка эффекта без контроля вообще (Imbens, 2010).

Использование всех перечисленных выше методов постепенно начинает входить в практику государственного управления как правило хорошего тона при оценке эффективности государственных расходов (требования бюджетного управления Конгресса США, рекомендации Счетной Палаты и Казначейства в Великобритании). Однако на сегодняшний день можно констатировать, что этот процесс еще только запускается, даже в США и Великобритании.

[1] Псевдоэксперименты (quasi-experiments) – воздействия, когда у экономических агентов есть право выбора своего статуса относительно этого воздействия. Если имеет место достаточное число схожих объектов из испытавших и не испытавших воздействия групп по существенным для оценки воздействия характеристикам (кроме самого воздействия), то корректное оценивание эффекта от воздействия реализуемо.

[2]Подопытная группа (treatment group) здесь и далее – те экономические агенты, которые испытали воздействия.

[3]Отслеживаемая группа (control group) здесь и далее – те экономические агенты, которые не испытали воздействия.

[4]http://www.gpo.gov/fdsys/granule/ERP-2014/ERP-2014-chapter7/content-detail.html.

[5] Ehrlich, G., Perry, J. (2015). Do Large-Scale Refinancing Programs Reduce Mortgage Defaults? Evidence from a Regression Discontinuity Design. Congressional Budget Office Working Paper, Washington.

[6] Gibbons, S., McNally, S., Overman, H. (2011). Review of Government Evaluations: A report for the NAO. LSE, London.


Страница обновлена: 19.04.2024 в 13:32:10