MyBooks.club
Все категории

Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 1)

На сайте mybooks.club вы можете бесплатно читать книги онлайн без регистрации, включая Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 1). Жанр: История издательство -,. Доступна полная версия книги с кратким содержанием для предварительного ознакомления, аннотацией (предисловием), рецензиями от других читателей и их экспертным мнением.
Кроме того, на сайте mybooks.club вы найдете множество новинок, которые стоит прочитать.

Название:
Методы статистического анализа исторических текстов (часть 1)
Издательство:
-
ISBN:
-
Год:
-
Дата добавления:
2 февраль 2019
Количество просмотров:
125
Читать онлайн
Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 1)

Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 1) краткое содержание

Анатолий Фоменко - Методы статистического анализа исторических текстов (часть 1) - описание и краткое содержание, автор Анатолий Фоменко, читайте бесплатно онлайн на сайте электронной библиотеки mybooks.club
Книга посвящена новому направлению в современной прикладной статистике. Предлагаются эмпирико-статистические методы распознавания зависимых и независимых текстов, в том числе исторических, т. е. текстов повествовательного характера, например хроник, летописей Эти методы позволяют во многих случаях датировать древние тексты, описанные в них события и могут применяться для анализа текстов самой разной природы, в теории распознавания образов, при анализе генетических кодов, для уточнения дат древней хронологии. Представлен богатый научный материал — результаты статистической обработки хроник, древних астрономических сообщений, летописей. Книга стала уникальным явлением в мировой научной литературе по прикладной статистике.Для специалистов в области математической статистики и распознавания образов, лингвистики, филологии, хронологии, истории, а также широкого круга читателей.

Методы статистического анализа исторических текстов (часть 1) читать онлайн бесплатно

Методы статистического анализа исторических текстов (часть 1) - читать книгу онлайн бесплатно, автор Анатолий Фоменко

Рассмотрим интервал времени (A,B) и график объема vol X(t), который достигает локальных максимумов в некоторых точках m1….,mn-1. Мы считаем для простоты, что каждый локальный максимум (всплеск) достигается ровно в одной точке. Эти точки (то есть годы) mi разбивают интервал (A,B) на некоторые отрезки, вообще говоря, разной длины. См. рис. 3.6. Измеряя длины получившихся отрезков (в годах), то есть измеряя расстояния между точками соседних локальных максимумов mi и mi+1, мы получаем последовательность целых чисел a(X)=(x1….,xn). То есть, число x1 — это расстояние от точки A до первого локального максимума. Число x2 — это расстояние от первого локального максимума до второго. И так далее. Число xn — это расстояние от последнего локального максимума mn-1 до точки B.

Эту последовательность можно изобразить вектором a(X) в евклидовом пространстве Rn размерности n. Например, в случае двух локальных максимумов (то есть если n=3), мы получаем целочисленный вектор a(X)=(x1,x2,x3) в трехмерном пространстве. Назовем вектор a(X)=(x1….,xn) ВЕКТОРОМ ЛОКАЛЬНЫХ МАКСИМУМОВ летописи X.

Для другой летописи Y мы получим, вообще говоря, другой вектор a(Y)=(y1….,ym). Будем считать, что летопись Y описывает события на интервале времени (C,D), длина которого равна длине интервала (A,B), то есть B-A=D-C. Чтобы сравнить графики объемов летописей X и Y, мы предварительно совместим друг с другом два отрезка (A,B) и (C,D) одинаковой длины (наложим их друг на друга). Конечно, число локальных максимумов у графиков vol X(t) и vol Y(t) может быть различно. Однако без ограничения общности можно считать, что число максимумов одинаково, а потому векторы a(X) и a(Y) двух сравниваемых летописей X и Y имеют одинаковое число координат. В самом деле, если число максимумов у двух сравниваемых графиков различно, то можно поступить так. Будем считать некоторые максимумы КРАТНЫМИ, то есть считать, что в этой точке слились вместе несколько локальных максимумов. При этом, длины соответствующих отрезков, отвечающих этим кратным максимумам, можно считать равными нулю. Пользуясь этим соглашением, можно очевидно уравнять число локальных максимумов у графиков объемов летописей X и Y. Конечно, такая операция, — введение кратных максимумов, — неоднозначна. Фиксируем пока какой-либо вариант введения кратных максимумов. В дальнейшем мы избавимся от указанной неоднозначности, минимизировав нужные нам коэффициенты близости по всем возможным способам введения кратных максимумов. Отметим, что введение кратных максимумов означает, что у вектора a(X) на некоторых местах появляются нулевые компоненты, то есть отрезки нулевой длины.

Итак, сравнивая летописи X и Y, можно считать, что оба вектора a(X)=(x1….,xn) и a(Y)=(y1….,yn) имеют одно и то же число координат и поэтому лежат в одном и том же евклидовом пространстве Rn. Отметим, что у каждого из этих векторов сумма его координат — одна и та же и равна B-A=D-C, то есть длине интервала времени (A,B). Итак:

x1 +… + xn = y1 +… + yn = B — A.

Рассмотрим теперь множество всех целочисленных векторов c=(c1….,cn), у которых все координаты неотрицательны и их сумма c1 + … + cn равна одному и тому же числу, а именно B-A, то есть длине временнóго интервала (A,B). Обозначим множество всех таких векторов через S. Геометрически, эти векторы можно изобразить так. Будем считать, что все они выходят из начала координат, то есть из точки O в Rn. Рассмотрим концы все такие векторов c=(c1….,cn). Все они лежат на «многомерном симплексе» L, определяемом в пространстве Rn одним уравнением c1 +… + cn = B — A, где все координаты c1….,cn являются вещественными неотрицательными числами. Множество S геометрически изображается как множество «целых точек» на симплексе L, то есть множество всех точек из L, имеющих целочисленные координаты.

Ясно, что концы векторов локальных максимумов a(X) и a(Y) для летописей X и Y принадлежат множеству S. См. рис. 3.7.

Фиксируем теперь вектор a(X)=(x1….,xn) и рассмотрим все векторы c=(c1….,cn) (с вещественными координатами), принадлежащие симплексу L и такие, что они удовлетворяют еще одному дополнительному соотношению:

(с1 — x1)2 +… + (cn — xn)2

(y1 — x1)2 +… + (yn — xn)2.

Множество всех таких векторов c=(c1….,cn) мы обозначим через K. Математически эти векторы описываются как удаленные от фиксированного вектора a(X) на расстояние, не превышающее расстояния r(X,Y) от вектора a(X) до вектора a(Y). Говоря здесь о расстоянии между векторами, мы имеем в виду расстояние между их концами. Напомним, что величина (y1 — x1)2 +… + (yn — xn)2 равна квадрату расстояния r(X,Y) между векторами a(X) и a(Y). Поэтому множество K — это часть симплекса L, попавшая в «n-мерный» шар радиуса r(X,Y) с центром в точке a(X).

Подсчитаем теперь, сколько «целочисленных векторов» содержится в множестве K и сколько — в множестве L. Полученные числа обозначим через m(K) и m(L) соответственно. В качестве «предварительного коэффициента» p'(X,Y) мы возьмем отношение этих двух чисел, то есть

p'(X,Y)=m(K)/m(L), то есть количество «целых точек» в множестве K

p'(X,Y)= количество «целых точек» в множестве L

Так как множество K составляет лишь часть множества L, то

0 < p'(X,Y) < 1.

Если векторы a(X) и a(Y) совпадают, то p'(X,Y)=0. Если векторы, напротив, далеки друг от друга, то число p'(X,Y) близко к единице и даже может оказаться равным единице.

Отметим здесь полезную, хотя и необязательную для дальнейшего, интерпретацию числа p'(X,Y). Предположим, что вектор c=(c1….,cn) случайным образом пробегает все векторы из множества S, причем он с одинаковой вероятностью может оказаться в любой точке этого множества. В таком случае говорят, что случайный вектор c=(c1….,cn) распределен РАВНОМЕРНО на множестве S, то есть на множестве «целых точках» (n-1) — мерного симплекса. Тогда определенное нами число p'(X,Y) допускает вероятностную интерпретацию. Оно равно вероятности случайного события, заключающегося в том, что случайный вектор c=(c1….,cn) оказался на расстоянии от фиксированного вектора a(X), не превышающем расстояния между векторами a(X) и a(Y). Чем меньше эта вероятность, тем менее случайна наблюдаемая нами близость векторов a(X) и a(Y). Другими словами, в этом случае их близость указывает на наличие какой-то ЗАВИСИМОСТИ между ними. И эта зависимость тем больше, чем меньше число p'(X,Y).

Равномерность распределения случайного вектора c=(c1….,cn) на симплексе L (точнее, на множестве S его «целых точек») может быть обоснована тем, что этот вектор изображает расстояния между соседними локальными максимумами функции объема «глав» исторических летописей или каких-то аналогичных текстов, описывающих заданный период времени (A,B). При рассмотрении всевозможных летописей, говорящих об истории всевозможных государств во всевозможные исторические эпохи, естественно предполагать, что локальный максимум может «с равной вероятностью» появиться в произвольной точке временнóго интервала (A,B).

Описанное построение было выполнено в предположении, что мы фиксировали некоторый вариант введения кратных максимумов у графиков объема летописей. Таких вариантов, конечно, много. Рассмотрим все такие варианты и для каждого из них подсчитаем число p'(X,Y), после чего возьмем наименьшее из всех получившихся чисел. Обозначим его через p''(X,Y). То есть, мы минимизируем коэффициент p'(X,Y) по всем возможным способам введения локальных максимумов у графиков vol X(t) и vol Y(t).

Наконец, вспомним, что при подсчете коэффициента p''(X,Y) летописи X и Y оказались в неравноправном положении. Дело в том, что выше мы рассматривали «n-мерный шар» радиуса r(X,Y) с центром в точке a(X). Чтобы устранить возникшее неравноправие между летописями X и Y, просто поменяем их местами и повторим описанную выше конструкцию, взяв теперь за центр «n-мерного шара» точку a(Y). В результате получится некоторое число, которое мы обозначим через p''(Y,X). В качестве «симметричного коэффициента» p(X,Y) мы возьмем среднее арифметическое чисел p'(X,Y) и p''(X,Y), то есть

p''(X,Y) + p''(Y,X)

p(X,Y)= —

Для наглядности поясним смысл «предварительного коэффициента» p'(X,Y) на примере графиков объема с всего лишь двумя локальными максимумами. В этом случае оба вектора a(X)=(x1,x2,x3) и a(Y)=(y1,y2,y3) являются векторами в трехмерном евклидовом пространстве. Концы этих векторов лежат на двумерном равностороннем треугольнике L, отсекающем от координатных осей в пространстве R3 одно и то же число B-A. См. рис. 3.8. Если расстояние от точки a(X) до точки a(Y) обозначить через |a(X)-a(Y)|, то множество K — это пересечение треугольника L с трехмерным шаром, центр которого находится в точке a(X), а радиус равен |a(X)-a(Y)|. После этого нужно подсчитать количество «целых точек» (то есть точек с целочисленными координатами) в множестве K и в треугольнике L. Взяв отношение получившихся чисел, мы и получим коэффициент p'(X,Y).


Анатолий Фоменко читать все книги автора по порядку

Анатолий Фоменко - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки mybooks.club.


Методы статистического анализа исторических текстов (часть 1) отзывы

Отзывы читателей о книге Методы статистического анализа исторических текстов (часть 1), автор: Анатолий Фоменко. Читайте комментарии и мнения людей о произведении.

Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*
Все материалы на сайте размещаются его пользователями.
Администратор сайта не несёт ответственности за действия пользователей сайта..
Вы можете направить вашу жалобу на почту librarybook.ru@gmail.com или заполнить форму обратной связи.