1) в нашем обсуждении мы говорим не про полное распределение приращений, а про его хвост.
Т.е. Парето хвост начинается с какого-то определенного значения.
(в моем предположении (на Zipf вот тут [
drive.google.com] ) линейность начинается после второй выборочной сигмы, т.е. это около 200 последних значений из негативного хвоста ).
Если подходить математически, то мы говорим, что случайная переменная принадлежит распределению с правым хвостом подчняющимся степенному убыванию (мы уже взяли модуль для негативных отклонений SP500, так что правым) если:
P(X > x) ~ L(x)*x
-a,
где а>0, L(x) медленно меняющаяся в бесконечности функция.
[
ru.wikipedia.org]
Говоря практически, есть некая точка l (константа Карамата), где L(x) подходит к своему пределу. Начиная с этой точки, мы можем тестировать хвост на степенной закон, используя эстиматор Хиля (как в файлике выше).
Логика касательно куртосиса
всего распределения, на мой взгляд, не работает в таком случае.
2) Кроме того, я написал маленький пример в "Математике", о том как меняется куртосис 7100 реализаций Парето3, если Вы выкидываете 8 наибольших значений.
Строим 7100 реализаций Парето3 со схожим СКО, считаем куртосис. Потом выкидываем 8 наибольших значений и снова считаем куртосис.
Результат: (куртосис полного распределения)->(куртосис без 8 точек)
36->19
64->22
136->27
352->28
1552->21
217->30
Даже для
полного Парето результат выкидывания 0.1% данных ведет к полному провалу попытки идентификации распределения.
4ый и высших моментов у Парето3 не существует (это сразу приходит на ум при первых его реализациях "1552"(!)).
Но без 8 точек, мы еще долго будем думать, что мы в ситуации с конечным 4ым моментом, где-то около 25
Прыжки при добавлении данных-признак остутсвия момента.
Если мы видим линейность на Zipf - дальние точки нельзя убирать при оценке моментов.
Прилагаю ролик с расчетом, чтобы видеть код и результаты:
[
drive.google.com]