Форум трейдеров :: Конференции :: А. Горчаков. Примеры применения статистических методов при построении торговых алгоритмов

Навигация: Список форумов•Список тем•Новая тема•Искать•Войти

А. Горчаков. Примеры применения статистических методов при построении торговых алгоритмов

Пользователь: Инфо (IP-адрес скрыт)

Дата: 02.12.2010 16:55

Доклад на семинаре ЭВОЛЮЦИОННЫЕ ПРОЦЕССЫ В ЭКОНОМИКЕ в Финансовом университете при Правительстве РФ 1.12.10

Идеальная «торговая система»

Пусть

O _t - цена открытия в день t;
С _t - цена закрытия в день t;
H _t - максимальная цена в день t;
L _t - минимальная цена в день t.

Идеальная торговая система «только лонг»

Если позиция на конец дня t-1 аут и С _t>O _t и (H _t+L _t)>(H _t-1+L _t-1), то входим в лонг по максимуму из двух цен: O _t и (H _t+L _t)/2;
Если позиция на конец дня t-1 лонг и С _t<O _t, то выходим из лонга по минимуму из двух цен: O _t и (H _t+L _t)/2.

Сейчас я уже не вспомню, каким образом нашел эту «систему» весной 1998-го, когда начинал построение своих первых систем, но точно помню, что она меня поразила тем, что была достаточно устойчивой, как на акциях индексного фонда SPRD (тикер SPY^*) с 1990-го года, так и на акциях РАО ЕС России (тикер EESR) и Газпрома (тикер GAZP) с 1996-го года. И при этом соотношение «доходность-риск» на всех трех эмитентах было примерно одинаково, а риск пропорционален стандартному отклонению первых разностей логарифмов цен закрытия.

Готовясь к этому семинару, я решил проверить результаты этой «системы» в кризис 2008-го года на данных SPY с 09.10.2007 (локальный максимум после «кризиса доткомов» 2000-го года) по 09.03.2009 (минимум SPY на «ипотечном кризисе» 2008-го года)

http://www.howtotrade.ru/image/agimage/doklad/image000.gif

Удивительно, но мое управление в этот период показало максимальную просадку 22.10.08 (-18,8% (=-22,6%/1,2)), а новый максимум счета был достигнут на закрытии дня 29.10.08 (напомним, что 27.10.08 в России, в отличие от США, торги не проводились)

^*акции фонда взяты потому, что в данных по индексу S&P500 открытие обычно устанавливается равным закрытию предыдущего дня, что исключает из данных междневные гепы и де-факто предполагает в торговом диапазоне дня наличие цен, по которым не совершались реальные сделки.

Как мы видим, для построения торговых моделей, приближающих эту «систему» нам требуется построить два как можно более точных статистических прогноза: прогноз завтрашних цен (H+L) и прогноз либо завтрашнего цвета свечи, либо сегодняшнего, но в начале торгового дня. Для первого прогноза нам потребуется модель ценообразования на фондовом рынке.

Аргументы в пользу условно-нормальных моделей

Гипотеза: первая разность логарифмов цен ликвидных акций за достаточно большой промежуток торгов имеет нормальное распределение, т. е.
ln С _t/C _t-1=a _t+

http://www.howtotrade.ru/image/agimage/doklad/image001.gif

•s _t•n _t, где n _t ~ N(0,1), (1)

Аргументы в пользу этой гипотезы:

1. Первая разность логарифмов цен ликвидных акций за достаточно большой промежуток торгов является суммой большого числа первых разностей логарифмов тиков;
2. Каждый тик является действием двух или нескольких трейдеров: трейдера, решившего купить по оферам или продать по бидам и трейдера (-ов), поставивших эти биды (офера);
3. Два трейдера, пользующиеся полностью одинаковыми методами принятия решения – редкость;
4. Группы трейдеров, использующих «близкие» методы принятия решения, представляют собой о-малое (как по количеству, так и по объему средств) от корня из общего числа трейдеров и их объемов средств;
5. Любая группа трейдеров, использующих «близкие» методы принятия решения, не обладает достаточным объемом капитала для «существенного» изменения цены актива;
6. Для любого трейдера число трейдеров, использующих независимые или слабозависимые методы принятия решения, по порядку близко к множеству всех трейдеров.

Здесь под «трейдером» мы понимаем человека, принимающего решения о совершении сделок на бирже, в то числе и с использованием разработанных им «роботов».

Все это позволяет считать набор первых разностей логарифмов тиков ограниченными слабозависимыми случайными величинами по типу

http://www.howtotrade.ru/image/agimage/doklad/image014.gif

-зависимости, введенной в моей работе:

А. Б. Горчаков. Верхние оценки семиинвариантов суммы мультииндексированных случайных величин. Дискретная математика (1995), т. 7, вып. 3, с. 33-46

как обобщение ряда известных случаев слабой зависимости на случай случайных величин, у которых условия зависимости невозможно описать в терминах некой метрики на индексах суммирования (зависимость между методами принятия решения трейдерами тоже вряд ли можно подогнать под какую-либо метрику). Также в данной работе приведены достаточные условия асимптотической нормальности (даже в области больших уклонений) для сумм

-зависимых случайных величин, которые хорошо перекликаются с приведенными пп. 1-6.

Немартигнальная модель ценообразования

С целью упрощения дальнейших выкладок и чтобы не множить сущности, предположим (как и в мартингальной модели), что последовательность n _t из (1) - последовательность независимых случайных величин (их одинаковую распределенность мы уже определили выше в рамках гипотезы об условной нормальности). Многочисленные исследования показали, что одномерные распределения ln С _t/C _t-1 имеют «тяжелые хвосты», что делает гипотезу a _t=const и s _t= const нежизнеспособной. Поэтому адекватное описание поведения цен на рынке условно-нормальной моделью лежит на пути отказа от одного или от обоих этих равенств. Современные мартингальные модели идут по пути отказа от равенства s _t= const с сохранением равенства a _t=const=«безрисковая ставка». При этом s _t обычно предполагается неким стационарным процессом (ARCH-модель и ее многочисленные обобщения), а временные «существенные» отклонения реальных первых разностей логарифмов цен от получающегося стационарного процесса объясняются сторонниками мартингальной теории изредко возникающими краткосрочными колебаниями «безрисковой ставки». Наше обобщение мартингальной модели будет состоять в том, что эти колебания a _t происходят достаточно часто и являются неотъемлемой частью динамики цен. Также мы несколько видоизменим и модель для s _t, синхронизовав ее колебания с колебаниями a _t.

Пусть дана стационарная ненаблюдаемая последовательность
(D _i,A _i,S _i), i=1, 2, …
где
D _i - это последовательность независимых положительных целочисленных случайных величин, принимающих значения больше 1;
A _i - это процесс с отрицательной коррелированностью соседних величин;
S _i - это последовательность независимых неотрицательных одинаково распределенных случайных величин с некоторым унимодальным распределением с модой равной 1.
Пусть

http://www.howtotrade.ru/image/agimage/doklad/image002.gif

. Тогда для всех t из интервала

http://www.howtotrade.ru/image/agimage/doklad/image003.gif

выполнены равенства a _t=А _n и s _t=S _n, т. е.
ln Ц _t/Ц _t-1=A _n+

•S _n•n _t, (2)
Последовательности D _i, A _i («тренд»), S _i («волатильность») и n _t («шум») предполагаются независимыми между собой.

Первоначально автором рассматривалась модель

ln Ц _t/Ц _t-1=A _n+B _n•(t-T _n)+

•n _t, где для любого n |A _n|>|B _n•(T _n+1-T _n)|, (3)

но после ряда исследований реальных цен от нее было решено отказаться в пользу модели (2), как более адекватно описывающей поведение цен.

Мы специально заменили в (2) латинскую букву С на русскую Ц, так как данное представление можно использовать не только для цен закрытия дня, обозначаемых ранее латинской буквой С, но и для других цен – H _t, L _t и (H _t+L _t)/2 (последовательности (A _i,S _i), i=1, 2, …, для каждой из цен могут быть индивидуальные и существенно отличаться от аналогичных последовательностей для других цен).
Отметим, что в рамках данной модели может быть и объяснены и факт наличия «тяжелых хвостов» (из-за наличия случайных величин A _n и S _n в представлении (2)) и факт близости к нулевой АКФ ln С _t/C _t-1 (из-за отрицательной коррелированности A _n).
Таким образом, в рамках нашей модели первые разности логарифмов цен уже представляют собой не стационарную последовательность, как в мартингальной модели, а нестационарный «отклик» на ненаблюдаемую стационарную последовательность.

Прогнозирование цен в рамках немартингальной модели (критерии «разладки»)

Нетрудно видеть, что в рамках приведенной модели для

оптимальным в среднеквадратичном прогнозом d _i=ln Ц _t/Ц _t-1, i=t-Т _n является A _n. В свою очередь оптимальной несмещенной оценкой A _n является статистика

http://www.howtotrade.ru/image/agimage/doklad/image004.gif

, i>2 (без учета отрицательной коррелированности в последовательности A _i). Так как при i<3 прогнозирование d _i невозможно, то де-факто задача прогноза d _i сводится в первую очередь к задаче выявления точек Т _n, известной в теории выделения сигнала на фоне шума, как задача о «разладке».
Также нетрудно видеть, что при i>2 статистика

http://www.howtotrade.ru/image/agimage/doklad/image005.gif

имеет распределение Стъюдента с i-2 степенями свободы.
При i>2, если в момент времени i критерий «разладки», основанный на статистике (4), указал на «разладку» (при некотором уровне доверия), для подтверждения (или отмены) «разладки» в момент времени i+1 можно воспользоваться статистиками

http://www.howtotrade.ru/image/agimage/doklad/image006.gif

http://www.howtotrade.ru/image/agimage/doklad/image007.gif

первая из которых имеет распределение Стъюдента с i-1 степенями свободы, а вторая - распределение Стъюдента с i-2 степенями свободы.
В общем случае выбор уровней доверия критериев «разладки» и между статистиками (5) и (6) – это вопрос оптимизации торговых систем, основанных на этих статистиках. Также открытым остается вопрос для каких цен строить данные статистики – только для (H _t+L _t)/2 (которые используются в идеальной «системе») или же использовать одновременно результаты для H _t, L _t, С _t и (H _t+L _t)/2 и на основе значений четырех статистик принимать торговые решения, путем кластеризации четырехмерного пространства значений статистик на состояния:
- лонг;
- аут.
чисто эмпирически через оценки условных вероятностей пар последовательных состояний.

В своей практической деятельности автор использует оба варианта, путем построения «портфеля систем» на одном эмитенте. Авторский метод оптимизации параметров систем с одновременным построением «портфеля систем» изложен в докладе на II Ежегодной Конференции по системной торговле (июнь 2004)

Уточненная немартингальная модель цен

Удобство статистик (4)-(6) в том, что они инвариантны относительно распределений (D _i,A _i,S _i), однако в этом и состоит и их слабость – ошибки критериев (из-за «малых выборок») и основанных на них торговых систем порой бывают слишком часты, особенно в условиях выборочных оценок S _i намного меньше 1 («низкая волатильность»). Для получения более точных критериев требуется уточнение модели.
Как мы отмечали выше, S _i имеет некоторое унимодальное распределение с модой равной 1. В качестве такого распределения можно взять распределение с плотностью:

http://www.howtotrade.ru/image/agimage/doklad/image008.gif

Тогда плотность распределения

•S _n•n _t имеет вид

http://www.howtotrade.ru/image/agimage/doklad/image009.gif

Отметим, что данное распределение является частным случаем обобщенного гиперболического распределения, активно применяемого в последние годы для не условно-нормального мартингального моделирования рядов первых разностей логарифмов цен. Также отметим, что это распределение имеет «тяжелые хвосты» со скоростью убывания

http://www.howtotrade.ru/image/agimage/doklad/image010.gif

.
Явный вид плотности распределение

•S _n•n _t позволяет строить оценки максимального правдоподобия для а² и

на всем имеющемся материале и использовать в знаменателях статистик (4)-(6) максимум из (оценка

)•10% квантиль распределения с плотностью (7), полученный подстановкой оценки a², и значений статистик знаменателей, приведенных в (4)-(6). Это позволяет сократить ошибки торговых систем в условиях «низкой волатильности». К сожалению, оценки для а² и

не выводятся в виде формул от элементарных функций, а являются решением системы дифференциальных уравнений, сводящейся к системе равенств нулю линейных комбинаций функций Макдональда и для каждого ряда цен находятся только алгоритмом поиска решения в Excel. Та же самая проблема возникает и при оптимизации систем, основанных на критерии «разладки» с использованием функции правдоподобия. Последняя функция выражается в виде сложного интеграла, затабулировать распределение которого в настоящее время не представляется возможным. Хотя из вида этой функции правдоподобия следует, что статистики, используемые в числителе и знаменателе статистик (4)-(6) являются достаточными статистиками. В соответствии с известной теоремой теории статистического оценивания получаем, что в данном случае оптимальные критерии находятся в классе функций от этих статистик, частным случаем которых являются статистики (4)-(6).

Прогнозирование внутридневных уровней

Итак, с помощью прогнозных оценок, построенных указанными выше методами, мы можем однозначно вычислить гипотетическую завтрашнюю цену М=(H+L)/2, выше(ниже) которой наши критерии не укажут на «разладку» или наоборот укажут на «разладку». Как это можно использовать при покупках внутри дня, да еще с одновременным прогнозом цвета свечи? Для этого рассмотрим «идеальное» движение цены внутри дня, которое выглядит следующим образом
Если С _t>O _t, то O _t->L _t->H _t->С _t

http://www.howtotrade.ru/image/agimage/doklad/image011.gif

и наоборот если С _t<O _t, то O _t->H _t->L _t->С _t

http://www.howtotrade.ru/image/agimage/doklad/image012.gif

Данный вид движения делает хорошим прогнозом для уровня покупки (без учета цвета свечи) цену 2*М-текущий минимум, для уровня продажи - 2*М-текущий максимум. Прогноз цвета свечи несколько сложнее. Для него мы используем линейные взаимосвязи между lnC _t/O _t и lnН _t/O _t и lnO _t/C _t и lnO _t/L _t, оцениваемые на ценовой истории и при помощи них прогнозируем уровень цены вверх от открытия после которой падение ниже открытия к закрытию имеет пониженную вероятность (при текущей позиции аут) или уровень цены вниз от открытия после которой рост выше открытия к закрытию также имеет пониженную вероятность (при текущей позиции лонг). Упомянутый уровень вероятности закрытия ниже( выше) открытия также является оптимизируемым параметром систем. Теперь, беря максимум из двух упомянутых прогнозов «цены вверх» мы устанавливаем его в качестве уровня покупки и, соответственно, беря минимум из двух прогнозов «цены вниз», мы устанавливаем его в качестве уровня продажи (как уже упоминалось, в зависимости от позиции нам достаточно считать только один из двух уровней). Данный подход приводит к тому, что на свечах с «длинным телом», мы покупаем или продаем лучше цены (H _t+L _t)/2, а на свечах с «коротким телом» и «длинными хвостами» мы покупаем или продаем хуже цены (H _t+L _t)/2 (на свечах с «коротким телом» и «короткими хвостами» сделки, если и совершаются, то по ценам, близким к ценам закрытия и сказать, что-либо про «лучше-хуже» - сложно).

Как показала реальная практика, варьируя параметры систем и предполагая, что во все дни имеют место только «идеальные» движения, можно добиться в среднем совершения сделок не хуже теоретической цены идеальной «системы». Однако не все в нашем мире идеально, а в дни с неидеальным движением цены системы, подобные нашим, могут совершать убыточные сделки (продал-откупил дороже, купил-продал дешевле), так как по своей логике построения внутридневный уровень покупки всегда выше уровня продажи. Поэтому, прежде, чем применять подобные системы на конкретном эмитенте, не мешает удостовериться, что в нем на истории доля дней с «идеальным» движением цены была не ниже 70% и потом оптимизировать уровни вероятностей (критериев, основанных на статистиках (4)-(6) и уровень вероятности для внутридневных прогнозов «цены вверх» и «цены вниз») на конкретной внутридневной динамике цен данного эмитента.

И в заключении приведем результаты исследований «идеальности» внутридневных движений для американского рынка, которые проводились в 2001-2002-м годах. Как показали эти исследования, высокая доля «идеальных» внутридневных движений (более 70%) присуща индексообразующим «голубым фишкам» (

http://www.howtotrade.ru/image/agimage/doklad/image015.gif

с S&P500 не ниже 0,5) с ценой не ниже 30$ за акцию (для Германии аналогичный порог по исследованиям 2005 года акций, входящих в индекс DAX, составил ~25€). В то же время для акций ценой ниже 10$ эта доля становится крайне малой (вероятней всего, это связано с тем, что волатильность для дешевых акций надо измерять не по первым разностям логарифмов цен, а по первым разностям самих цен и соответствующим образом перестраивать модель ценообразования). Поэтому на падающем рынке акции, упавшие в цене с 30-40$$ до 20$ (с 25-30€ € до 15€ для Германии), лучше исключить из торгуемого по подобным системам портфеля, даже несмотря на наличие текущей системной просадки в этих акциях и высокой оценки вероятности ее отыгрыша, полученной по историческим данным.

Перейти: <•>

Опции: Ответить•Цитировать

Тема	Написано	Просмотров	Дата
А. Горчаков. Примеры применения статистических методов при построении торговых алгоритмов	Инфо	23349	02.12.2010 16:55
Tn и Ei	ydanilin	1619	08.07.2013 19:59
Re: Tn и Ei	А. Г.	1654	08.07.2013 22:22
Правильно ли я понял всю идею?	ydanilin	1963	14.07.2013 20:30
Re: Правильно ли я понял всю идею?	А. Г.	1887	14.07.2013 21:28
Спасибо! Изучу пока (4)-(6), а про сигмаS(n)n(t) потом спрошу))) (-)(-)	ydanilin	1394	15.07.2013 09:06
Ну формула оценки S(n) - это мое ноу-хау	А. Г.	1504	15.07.2013 09:31
Если это - закрытая информация, попробую сам изучить вопрос (-)(-)	ydanilin	3187	15.07.2013 12:07
Получается минимальное "окно", на которые разобьет критерий разладки будет равно 3 свечкам??(-)	Чапаев	1805	27.03.2012 16:59
Будет равно 2-м свечкам(-)	А. Г.	1616	27.03.2012 17:02
понял...	Чапаев	1660	27.03.2012 17:43
Да, есть	А. Г.	1927	27.03.2012 18:29
а если нормальным распределением максимизировать, сильно ухудшит результат?(-)	Чапаев	1407	06.12.2012 18:28
Не пробовал	А. Г.	1508	07.12.2012 13:25
т.е. там некая смесь?	Чапаев	1344	24.12.2012 08:51
Да, смесь	А. Г.	1640	24.12.2012 10:33
а^2 и сигма (8 ) оцениваются ММП на остатках модели основанной на 4-6?(-)	Чапаев	1276	11.03.2013 13:05
Нет, на основе плотности распределения (8 ) и оцениваются ММП a^2 и сигма	А. Г.	1336	11.03.2013 22:27
что подразумевается под x в (8 )?(-)	Чапаев	1155	12.03.2013 10:16
Переменная - это же функция плотности распределения(-)	А. Г.	1195	12.03.2013 12:22
последняя попытка	Чапаев	1368	12.03.2013 13:01
На первом	А. Г.	1478	12.03.2013 13:05
а логарифм берется от 8?(-)	Чапаев	1173	04.04.2013 16:10
Что от 8?	А. Г.	1200	04.04.2013 18:41
видимо, вопрос- логарифм от уравнения (8 )?	IK	1289	05.04.2013 11:31
функцию макдональда я не смог осилить	Чапаев	1341	17.04.2013 14:28
она самая? (макдональда)	Чапаев	1310	15.05.2013 12:56
Да(-)	А. Г.	1156	15.05.2013 18:20
А зачем логарифм от 8?	А. Г.	1195	17.04.2013 17:04
конечно о логарифме ММП, поэтому я и спрашивал можно ли получить логарифм в каком то удобном виде(-)	Чапаев	1120	18.04.2013 09:07
я правильно понимаю что можно функцию правдоподобия	Чапаев	1302	18.04.2013 09:10
И проинтегрировав	А. Г.	1145	18.04.2013 09:39
а вобще если эта сигма одна на весь ряд, то ее можно тупо подогнать оптимизацией?	Чапаев	1130	18.04.2013 13:41
Она не одна, она считается по широкому окну(-)	А. Г.	1193	18.04.2013 13:48
(8 ) - это плотность распределения для приращений логарифмов(-)	А. Г.	1330	05.04.2013 12:48
Вопрос по методике	BITrader	2135	30.03.2011 16:13
Это не методика, а "идеальная система"	А. Г.	2334	30.03.2011 16:27
Еще одна "идеальная система" - лучше или хуже?	BITrader	2214	13.06.2011 19:23
Трудный вопрос	А. Г.	2478	13.06.2011 22:21
Re: Это не методика, а "идеальная система"	BITrader	2084	30.03.2011 16:40
Пара вопросов	fermi	2668	03.12.2010 20:08
Ну это просто	А. Г.	2666	03.12.2010 22:32
Re: Ну это просто	fermi	2368	04.12.2010 13:08
Это другие авторы (см. инициалы)	А. Г.	2519	04.12.2010 16:45

Как стать трейдером? Форум создан Инфо с Phorum.