А. Горчаков. Задача статистического прогноза
Re: Технический (статистический) анализ. Механистические торговые системы -- admin3   Ответить Форум
Отправлено:
06/29/2002, 16:50:08

Author Profile e-mail автора
Задача статистического прогноза

Этот материал побудила меня написать критика статистического (технического в широком смысле) анализа цен, точнее основной тезис критиков: «прогнозировать цены по их предыдущей динамике нельзя». Мне кажется, что данное мнение складывается в первую очередь под влиянием непонимания его приверженцами самого понятия «прогноз». Потому, что если быть последовательным в этом тезисе, то его приверженцам надо вообще отказаться в своих обзорах от анализа предыдущей динамики и сосредоточиться на совершенно других факторах. Ниже мы покажем это с точки зрения современного понятия статистического прогноза. Но мы видим, что в подавляющем большинстве случаев это не так и критики раз за разом обращаются к графикам и ценовым рядам, а, значит, сами являются наглядным отрицанием своего же тезиса.

С целью сделать материал понятным не только знакомым с курсом теории вероятностей уровня математического ВУЗа, но и просто знакомым с теорией вероятностей, я постараюсь не уходить «далеко» от понятий среднее, дисперсия, случайные величины и плотность распределения. Поэтому некоторые определения будут даны не как в учебниках (в терминах сигма-алгебр, порождаемых вероятностными мерами), а в виде их простых и эквивалентных следствий.

Итак, начнем с самого главного определения. Предположим, что мы имеем некоторый наблюдаемый случайный вектор Х и некоторый ненаблюдаемый (возможно пока) случайный вектор Y. Сразу хочу подчеркнуть, что сами случайные величины на этом этапе не обязательно должны быть числовыми, да и вообще могут быть самыми экзотическими. Тогда вектор Y называется непрогнозируемым по вектору Х, если для любых ограниченных измеримых (добавлено для корректности, для понимания это слово можно пропустить) действительнозначных функций f и g дисперсия f(X)-g(Х,Y) больше либо равна дисперсии g(Х,Y).

После столь важного определения я позволю себе несколько комментариев.

Комментарий 1 (самый простой). Как следует из определения, если Y непрогнозируемая по вектору Х величина, то для любой функции g(Х,Y) ее лучшим в среднеквадратичном смысле прогнозом будет ее среднее, т. е. некоторая константа. Однако в жизни часто так бывает, что и среднее нам неизвестно. Что ж, тогда дело совсем плохо – оценить среднее g(Х,Y) по Х лучше, чем, взяв «с потолка» любое число, мы не сможем и лучше вообще не смотреть на Х (см. выше про «отказаться в своих обзорах от анализа предыдущей динамики»).

Комментарий 2. Предвижу возмущение первое: «Как же так?! Вы же обещали прогноз будущих цен (Y), а сами ввели какие-то функции от них. Ну и что, что найдется функция f(Х), у которой дисперсия f(X)-g(Y,Х) меньше дисперсии g(Y,Х)? Ведь Y мы по функции g(Y,Х) можем и не вычислить». Все верно. Но подумайте сначала, нужна ли Вам для успешной игры на бирже цена в какой-то будущий момент? Нет, конечно я понимаю, что неплохо было бы иметь такие прогнозы, но для успешной биржевой стратегии, по-моему, совершенно достаточно прогнозировать, что при каких-то будущих условиях цены будут выше или ниже определенного возможно пока неизвестного уровня. О последнем прогнозе чуть подробнее в следующем комментарии.

Комментарий 3. "Но ведь это же не действительнозначная функция (прогноз "при каких-то будущих условиях цены будут выше или ниже определенного возможно пока неизвестного уровня" - прим. мое)" - может возникнуть возражение у читателя. Ничего подобного. Ведь на функцию g мы не наложили никаких условий, кроме ограниченности. Возьмите в качестве функции g индикатор прогнозируемых событий и Вы приходите к задаче прогноза ограниченной действительнозначной функции. Причем я привел только один пример событий, которые, на первый взгляд, кажутся не действительнозначными функциями. А с помощью индикаторных функций можно свести к задаче прогноза действительнозначных функций задачу прогноза любого конечного числа событий. Если функции модифицировать, то можно рассматривать и прогнозы бесконечного числа событий вплоть до континуума (мощность множества действительных чисел, а большая мощность пока и не изучается в мире науки).

Комментарий 4. Особо хочу подчеркнуть, что прогнозируемость вовсе не означает точное угадывание какого-либо события. Ведь речь идет только о том, что дисперсия ошибки прогноза функции g(Х,Y) при известных величинах X меньше, чем дисперсия функции g(Х,Y) без использования информации, заключенной в Х. Равенство дисперсии нулю (точное угадывание) статистический прогноз Вам не обещает. Это частный случай, по-моему, совершенно не встречающийся на практике. В этом смысле заклинания "рынок не прогнозируем" имеют под собой основания. Но, по-моему, требование не ошибаться в прогнозах к профессиональным трейдерам и аналитикам идет от людей, которые просто не понимают, что такое статистический прогноз и даже не хотят в этом разбираться. Мой опыт показывает, что такие "трейдеры" первые кандидаты на проигрыш. Причем это имеет совершенно четкое психологическое объяснение: причины своих неудач они уже нашли.

Данное выше определение показывает, что гораздо легче доказать прогнозируемость рынка, чем непрогнозируемость. Действительно, достаточно найти такие функции f и g, что дисперсия f(X)-g(Х,Y) меньше либо равна дисперсии g(Х,Y). Не буду приводить примеры таких функций - их и без меня приводилось немало во многих книгах по статистическому анализу цен. А вот доказательства непрогнозируемости рынка, я не видел. Даже апологеты теории эффективного рынка говорят о ней, как о модели, основанной только на слабых корреляциях в ряде изменений цен, т. е. "первом приближении" на уровне вторых моментов.

Однако в теории вероятностей давно известно необходимое и достаточное условие непрогнозируемости действительнозначной дискретной или непрерывной случайной величины g(Y,X) (достаточно легкое на вид, но трудно поверяемое практически), в случае, если распределение вектора Х тоже дискретно или непрерывно.

Рассмотрим случай дискретных величин Y и X (напоминаем, что Х в общем случае вектор). Тогда дискретное распределение Р(g(Y,X)=y(1), X=x(1))/P(X=x(1)) называют условным распределением g(Y,X) при условии X=x(1). С помощью теоремы Байеса легко видеть, что это распределение, правда, зависящее от x(1).

Отметим, что:
1. Если Х имеет непрерывное распределение, g(Y,X) - дискретное то, заменяя, в определении вероятность на плотность (вектор (g(Y,X), X) в этом случае тоже имеет непрерывное распределение) мы получим вероятности условного распределения g(Y,X),
2. Если Х имеет дискретное распределение, g(Y,X) - непрерывное, то надо заменить вероятность на плотность только числителе, но получим уже плотность условного распределения и,
3. Наконец в случае Х и g(Y,X) имеют непрерывное распределение, то заменяя вероятности на плотности, мы получим плотность распределения.

Таким образом, для всех случаев, когда распределения Х и g(Y,X) дискретны или непрерывны, мы однозначно определили условное распределение g(Y,X) при условии X=x(1). Теперь у нас все готово, чтобы дать строгое определение условного среднего.

Условным средним g(Y,X) при X=x(1) называется среднее g(Y,X) по условному распределению g(Y,X) при условии X=x(1).

Отметим важный факт, что в наших условиях это есть ни что иное, как некоторая ограниченная действительнозначная измеримая (это слово можете, если непонятно, пропустить) функция F от x(1).

Казалось бы мы сильно огрубили информацию о g(Y,X) при условии X=x(1), но тем не менее с точки зрения прогнозируемости это оказывается не важным. А именно верно утверждение (без доказательства).

Для любой ограниченной действительнозначной измеримой функции f(X) дисперсия g(Y,X)-f(X) больше, либо равна дисперсии g(Y,X)-F(X).

Отсюда сразу следует

g(Y,X) непрогнозируема тогда и только тогда, когда дисперсия g(Y,X)-F(X) равна дисперсии g(Y,X).

Отметим также факт, что среднее F(X) равно среднему g(Y,X), поэтому среднее g(Y,X)-F(X) равно нулю.

Таким образом, для любой функции g(Y,X) задача проверки ее прогнозируемости сводится к оценке дисперсии g(Y,X)-F(X) для одной функции F, а не для всевозможных ограниченных действительнозначных измеримых функций f(X). Правда, от проверки этих дисперсий для всех действительнозначных измеримых функций g(Y,X) уйти не удается. А нужно ли это? Ведь, в конце концов, наша задача построить успешную торговую стратегию, а круг функций g(Y,X), необходимых для этого, как правило, ограничен нашим же взглядом на стратегию, как на некий алгоритм.

Однако столь простой на вид критерий прогнозируемости, очень часто невозможно применить на практике. Действительно, для точного расчета условного среднего F(X) нам нужны и распределение Х и совместное распределение (g(Y,X),Х). А вот знаем мы их в реальности далеко не всегда, точнее, практически всегда не знаем. Хорошо, если мы имеем достаточно длинную стационарную выборку вектора (g(Y,X),Х) в прошлом и можем оценить эти распределения (например, методами непараметрических оценок плотностей и вероятностей), но ведь в том то и дело, что достаточно длинные (а точность оценки зависит от длины) стационарные ряды экономических данных, это, по-моему, утопия.

"Так значит все-таки нельзя прогнозировать!" - восхищенно воскликнет апологет теории непрогнозируемости. Почему нельзя? А разве "метод тыка" (взятие некоторой функции f(X), у которой дисперсия g(Y,X)-f(X) меньше дисперсии g(Y,X)) не доказывает непрогнозируемость? Да, мы не можем доказать оптимальность взятого прогноза, но это с практической точки зрения и не важно - важно, чтобы нас он удовлетворял.

"Как же так - ряды то нестационарны, а Вы можете найти такую функцию. Какими методами, их нет в теории статистики? А "тыкать" можно всю жизнь и ничего не найти." - возразит просвещенный читатель. Конечно, это так. Но абсолютно не стационарных рядов в природе не бывает и зачастую нестационарный ряд имеет стационарные составляющие, причем не обязательно числовые.

Рассмотрим простой пример такого ряда. Пусть ненаблюдаемая последовательность натуральных чисел t(1),…,t(m) - последовательность независимых случайных величин, таких, что t(n)-1 имеет пуассоновское распределение с параметром L. А наблюдаем мы нестационарную последовательность Х(i), такую что
Х(i)=a+N(i), если t(0)+…t(j-1) "<"=i"<" если t(0)+…t(j)-1 и j -четно и Х(i)=-a+N(i), в противном случае. Здесь а - некоторая константа, N(i) - гауссовская последовательность (необязательно независимая и стационарная) со средним нуль, t(0)=0.

По всем определениям теории вероятностей - эта последовательность полностью нестационарна. Однако в ней есть стационарный параметр - случайная (под влиянием ненаблюдаемой стационарной последовательности t(1),…,t(m)) смена знаков среднего. Не правда ли, это так похоже на фондовый рынок? Теперь если Вы построите достаточно хорошие критерии "разладки" для среднего (это зависит от ковариационной матрицы процесса N(i), соотношения a и sigma (иначе называемого сигнал/шум) и параметра L), то сможете и построить прогноз X(i), у которого при L больше 2 дисперсия будет заведомо лучше дисперсии X(i).

И наконец в заключение рассмотрим один уж совсем частный случай из учебников по статистике. А именно случай, когда Y - одномерная действительнозначная случайная величина, X=(X(1),…X(T)) - многомерный действительнозначный вектор и вектор (Y,X) имеет многомерное нормальное распределение.

"Ну это же тривиально, это классическая задача регрессии" - опять скажет просвещенный читатель. Да, и опять Вы правы. Но вот о ее результатах почему то забыли под влиянием новомодных нейросетей и теории хаоса. И дело даже не в теориях, которые безусловно являются огромным вкладом в науку, а в существующих программных пакетах, применяющихся для построения нейросетевых прогнозов и выявления фракталов. Все дело в том, что в подавляющем большинстве пакетов при обработке данных, в основном, используется, метод наименьших квадратов. А когда корректно его применение? Когда ошибка стационарна и распределена нормально. А значит, в них завуалировано используется модель многомерной нормальности. А между тем вид оптимального прогноза в рамках этой модели известен и давно:

F(X)=EY+a(S^-1)X,

где EY - среднее Y, a=(Cov (Y,X(1)),…, Cov (Y,X(T))), Cov-ковариация, S - матрица ковариаций вектора Х.

А что такое F(X) в выше приведенной формуле? Ни что иное, как линейная функция от Х. Есть еще один случай, когда опять получается в качестве оптимальной линейная функция. Это если Х - то же, а Y - бинарно (а что такое наши механистические торговые системы, как не бинарные функции от ценового ряда с двумя исходами - "купить-продать"?). Поэтому я часто задаю вопрос, тем, кто применяет сложные нелинейные методы и критикует линейные из классического ТА: а Вы сравнивали Ваши результаты на out of sample c линейной регрессией в Вашей же постановке задачи? Увы, но ни в одной работе по применению фракталов и нейросетей в финансах этого сравнения я не нашел. Почему? На этот вопрос могут ответить только авторы работ.

С уважением

Ответить   Назад |Вперед |Текущая страница
Rambler's Top100