Отбор факторов-аргументов
Осн.задача, стоящая при выборе фак-ров, включаемых в корреляционную модель, закл.в том, чтобы ввести в анализ все осн.фак-ры, влияющие на уровень изучаемого явл-я, а колеблемость этих фак-ров объясняла подавляющую часть колеблемости рез-тативного признака. Однако введение в модель большого числа фак-ров нецелесообразно, правильнее отобрать только сравнительно небольшое число осн.фак-ров, находящихся предположительно в корреляционной связи с выбранным функциональным показ-лем.
Чрезмерное увел-е числа фак-ров может не прояснить, а, наоб., затушевать картину множественных связей. Непосредственный отбор фак-ров-аргументов для включения их в корреляционую модель должен осуществляться на основе качественного теоретико-эк-кого анализа, исходя из целей и задач исслед-я. Наряду с фак-рами в анализ необх.вводить и так наз.глубинные фак-ры, действующие опосредованно. При помощи априорного теоретического анализа, часто нельзя выявить не только меру, но даже направление влияния того или иного фак-ра для изучаемых эк-ких показ-лей. Нпр., показ-ли структуры затрат.
Качественный теоретич.анализ при 1ом приближении не позволяет ответить на вопр.о существенности влияния отобранных фак-ров. Поэт.в практике корреляционного анализа широкое распространение получил так наз.двухстадийный отбор. В соотв.с ним в модель вкл-ся все предварительно отобранные фак-ры. Затем среди них, на основе специальной количественной оценки и дополнительно кач-ного анализа выявляются несущественно влияющие фак-ры, кот.постепенно отбрасываются пока не останутся те, относительно которых можно утверждать, что имеющийся стат.материал согласуется с гипотезой об их совместном существенном влиянии на зависимую переменную при выбранной форме связи.
Своё наиболее законченное, выражение двухстадийный отбор получил в методике так наз.многошагового регрессионного анализа, при кот.отсев несущественных фак-ров происх.на основе показ-лей их значимости, в частности, на основе величины taj - расчетном значении критерия Стьюдента.
При предварительном отборе фак-ров, включаемых в анализ, к ним предъявляются специфич.требования. Прежде всего, показа сети, выражающие эти фак-ры должны быть колич-но измеримы. В некот.случаях, используя соврем.матем.аппарат, можно учесть и кач-ные показ-ли. Однако такой учет требует доп.процедур формализации этих показ-лей.
Фак-ры, вкл-мые в модель, не должны находиться м/у собой и функциональной или близкой к ней связи. Наличие таких связей носит название мультиколлинеарности. Мультиколлинеарность свидет-ет о том, что некот.фак-ры характеризуют одну и ту же сторону изучаемого явления. Поэт.их одновременноевключение в модель нецелесообразно, т.к.они в определенной степени дублируют др.друга. Если нет особых предположений, говорящих в пользу одного из этих фак-ров, следует отдавать предпочтение тому из них, кот.хар-ется большим коэфф-том парной (или частной) корреляции или вносит в ур-е регрессии наибольший вклад, т.е.дает меньшую остаточную дисперсию.
Использ-е для отбора включаемых в модель фак-ров коэфф-тов парной корреляции оправдано тем, что они служат фактически концентрированным выражением влияния на изучаемый показ-ль всей функциональной связанной группы фак-ров. С этой т.зрения коэфф-т парной корреляции более предпочтителен, чем коэфф-т частной корреляции. С др.стороны, мультиколлинеарность приводит к весьма нежелательным последствиям. В этом случае матрица системы нормальных ур-ний оказывается плохо обусловленной, что ведёт за собой невозм-ть получения (или неустойчивость) рез-татов реш-я.
Выбор фак-ров, включаемых в модель, зачастую предопределяется возм-тью получ-я исходной статистической инф-ции. По многим важным для анализа хоз.деят-ти фак-рам в годовых отчётах предприятий нет соответствующих данных, и их получают в рез-тате спец.обследований.
Выбор формы связи
Определ-е формы связи изучаемого эк-кого показ-ля с выбранными фак-рами-аргументами, т.е. спецификация - один из наиболее сложных и ответственных этапов корреляционного анализа.
От правильности выбора зависит, наск-ко построенная модель будет адекватна изучаемому явл-ю, а это в значительной степени предопределяет практическую ценность получаемых рез-татов. Запас кривых для выравнивания стат.данных бесконечно разнообразен. Для выбора той из них, кот.наиболее адекватна не только имеющемуся эмпирическому материалу, но и истинному отнош-ю завис-ти м/у изучаемым эк-ким показ-лем и обуславливающими его фак-рами, исходят из соображений логич., графич.и статистич. хар-ра.
Как и при отборе фак-ров-аргументов, решающая роль принадлежит (логическому) теоретич.обоснов-ю формы завис-ти. Существенную помощь при выборе формы связи, особенно при парной корреляции, оказыв.графич.анализ м/у ф-цией и ее предполагаемыми аргументами. О типе теоретич.кривой в этом случае судят по внешнему виду эмпирического графика регрессии, устраняя мысленно те зигзаги, кот.можно предположить случайными.
С увел-ем числа фак-ров-аргументов надежность этого метода существенно сниж-ся, тем не менее, графич.анализ завис-ти м/у ф-цией и каждым ее аргументом в отдельности мож.оказать помощь при определении формы множественной связи. Нпр., если все парные связи имеют линейный характер, то большая вероятность того, что в кач-ве формы связи мож.быть применена линейная форма ур-я множеств.регрессии.
Зачастую при выборе формы связи целесообразно исп.уже известные модели, описывающие процессы, аналогичные исследуемому. Однако ни один из этих способов не позволяет однозначно выбрать ф-цию, наилучшим образом описывающую изучаемое явл-е. Поэт.на практике приходится определять искомый вид связи эмпирическим путем сравнения ряда моделей и выбора наилучшей из них с т.зрения принятого критерия сравнения.
При прочих равных усл-ях предпочтение отдается модели, зависящей от меньшего числа парам-ров. Изучаемая совок-ть должна обладать достаточно большим числом степеней свободы вариации, определяемым соотнош-ем м/у численностью этой совок-ти и числом парам-ров ур-я множеств.регрессии.
В крайнем вырожденном случае, когда число парам-ров ур-я регрессии = числу наблюдений или сравнимо с ним, даже если все критерии адекватности принимают свои предельные знач-я, а нормированная ошибка = нулю, полученная модель не имеет практического смысла.
Во всех остальных случаях высокий коэфф-т множеств.корреляции и соответствующий ему коэфф-т детерминации свидет-ют не только о том, что в окончательно отобранную модель включены все осн.фак-ры, но также о справедливости гипотезы о линейной форме связи.
Если выбранная линейная форма связи сильно искажает действительный нелинейный хар-тер завис-ти, то величина коэфф-та множеств.корреляции, вычисленная через парам-ры ур-я регрессии будет значительно ниже индекса множеств.корреляции, определяемого через отнош-е дисперсии. В том случае, если полученная в рез-тате реш-я линейная модель оказывается неадекватной, с т.зрения F-критерия Фишера или других критериев целесообразно переходить к параболической кривой, добавляя в ур-е значения неизвестных в квадрате и парные их произведения:
у = а0 + ах1 +а-х2
у = а0 + а1х1 + а2х2 + а3х21 + а4х22 + а5х1х2
Действуя, таким обр., и повышая порядок ур-я, можно подобрать модель, соотв-щую любому статистич.материалу. Однако практическая ценность такой модели будет резко снижаться по мере увел-я числа ее парам-ров.
Счит-ся, что число наблюдений должно быть > числа парам-ров ур-я регрессии, по крайней мере, в 6-7 раз.
Поэт., если дальнейшее повыш-е степени полиномов наталкивается на эту границу, следует расс.др.нелинейные модели, нпр., модели мультипликативного типа:
y=Axa11*xa22…xapp
Данную завис-ть простым логарифмированием можно свести к завис-ти аддитивного типа:
ln у = ln А + а1 ln x1 + а 2 ln x2
Тем или иным способом найденную модель можно упростить, отсеяв статистически незначимые или, так наз.лишние фак-ры, кот.незначительно влияют на целевую ф-цию, и, в то же время, сильно коррелируют с остальными фак-рами. Для отсева статистически незначимых фак-ров все включенные в модель фак-ры следует проранжировать по величине их значимости, т.е. по величине коэфф-та tai. Фактор, для кот.tai имеет наименьшее знач-е, признается незначимым. После этого заново решается новая модель, зависящая от (р-1) фак-ра, и вся процедура повторяется. Этот процесс продолжается до тех пор, пока оставшиеся в модели фак-ры не окажутся статистически значимыми.
Эта процедура - метод многошагового регрессионного анализа. Его недостаток - чисто формальный характер процедуры, по причине которого из модели мог.быть исключены наиболее существенные фак-ры. Для преодоления этого недостатка необх.использ.для ранжирования фак-ров, наряду с показ-лем t,j, более содержательный критерий. Одним из таких критериев мож.быть показ-ль суммы рангов.
Этот показ-ль вычисляется по рез-татам анкетного опроса широкого круга спец-тов. Каждому специалисту предлагается заполнить анкету, в кот.перечисляются фак-ры, отобранные для корреляционного анализа изучаемого показ-ля. Опрашиваемый должен проранжировать эти фак-ры по степени их важности, при этом фак-ру, оказывающему наибольшее влияние на данный показ-ль, присваивается ранг 1 и т. д.
На основании данных анкетного опроса составляется сводная анкета, т.н. матрица рангов. Наименьшую сумму рангов будет иметь фактор, кот., с т.зрения экспертов, оказывает в среднем наибольшее влияние на изучаемый показ-ль. Соответственно наибольшую сумму рангов имеет фактор, оказывающий в среднем наименьшее влияние.
В отличие от показателей t-критерия Стьюдента, коэфф-тов парной и частной корреляции, показ-ль суммы рангов не зависит ни от объема и характера выборки, ни от вида модели, ни от числа включенных в нее фак-ров. Это делает данные показ-ли не только наиболее содержательными, но и наиболее объективными показ-лями сравнительной сущности фак-ров.
Несущественные фак-ры следует исключить из модели, с учетом величины t-критерия Стьюдента и коэфф-та, определяемого суммой рангов. Исключение из модели некоторых фак-ров не означает полного исключения их влияния. В той или иной степени (в меру своей связи с фак-рами, оставшимися в модели) они продолжают влиять на целевую ф-цию, но не явно.
Получаемая в рез-тате описываемого процесса конечная модель не явл.единственно возможной. Можно получить неск-ко моделей с несущественно отличающимися коэфф-тами множеств.корреляции или показателями относительной ошибки. Окончат.выбор той или иной модели зависит от опыта исследователя и назначения модели.
Отбор исходных данных.
Отбор исх.данных для корреляционного анализа необх.производить с определенной степенью осторожности, т.к.от кач-ва и кол-ва этих данных зависит ценность практических рез-татов. Отобранная для расчетов статистическая совок-ть должна быть одновременно и достаточно мощной по объему и достаточно однородной по своему составу.
С одной стор., надежность корреляционных формул непосредственно завис.от кол-ва данных, использ.при расчете, т.к. случайные ошибки статистич.оценок определ-ся не только величиной их колеблемости, но и размером совок-ти. Нпр., ср.квадратическая ошибка коэфф-та множеств.корреляции: si=(1-R2)/(n-p-1)1/2, где п – кол-во наблюдений; р - число фак-ров; R – коэфф-т множеств.корреляции; R2 – коэфф-т множеств.детерм-ции.
С др.стороны, включение в расчет дополнительных данных мож.нарушить однородность изучаемой совок-ти, что, в свою очередь, лишает получаемые статистические показ-ли реального эк-кого смысла. Поэт.исходный статистический материал должен тщательно проверяться на однородность состава.
Нпр., нецелесообразно объединять в одну совок-ть предприятия существенно различных отраслей. Из анализа следует исключить предприятия, резко отличающиеся по своим осн.показ-лям от всей массы предприятий рассматриваемой отрасли.
При отборе исх.данных для корреляц.анализа хоз.деят-ти предприятий той или иной отрасли возможно 2 принципиально разл.подхода: 1)сравнение работы предприятий в рассматриваемой отрасли за какой-то один период времени (год); 2)сравнение работы предприятий этой отрасли за неск-ко смежных лет.
В 1ом случае получаем так наз.пространственную выборку - выборку по множеству. Построенная на ее основе модель будет иметь статический хар-тер.
Во 2ом случае применяется так наз.метод «заводо-лет». Сущность его закл.в том, что данные разл.лет объединяются в единую совок-ть. Это значительно увел-ет объем наблюдения. Однако каждый завод фигурирует в получаемой таким обр.совок-ти несколько раз, и м/у его показ-лями, относящимися к разным годам, следует ожидать определенной корреляции. Таким обр., исходный статистич.материал не предст.собой совок-ти независимых испытаний, что лежит в оспине применения теории корреляции. Это неск-ко снижает дополнительный усредняющий эффект, возн-щий в рез-тате увел-я объема совок-ти, но не мож.устранить его полностью, т.к. эк-кие показ-ли колеблются не только от предприятия к предприятию, но и от года к году внутри каждого предприятия. Достоинство этого подхода - модель, построенная на основе такой выборки, будет иметь определенный динамический хар-тер, т.к. в ней фактически учитываются изм-я эк-ких показ-лей во времени. Осн.источник получения необх.исх.данных - официальная статистическая отчетность.
Для корреляц.анализа хоз.деят-ти основным видом отчетности явл.годовые бухг.отчеты предприятий, а также разрабатываемые и издаваемые на базе этих отчетов ежегодные сборники технико-эк-ких показ-лей работы предприятий соотв-щей отрасли. Однако зачастую ни сами годовые отчеты, ни издаваемые сборники не содержат многих необходимых для корреляционного анализа показ-лей, кот.приходится рассчитывать дополнительно на базе имеющейся в отчетах и сборниках инф-ции.
Кр.того, не сущ-ет методики оценки точности показ-лей в самих годовых отчетах. В отдельных случаях прибегают к спец.обследов-ям и опросам.