Synonym: Cross-Validation = Blind Testing

A specific technique for estimating how accurately a the given model is capable to predict the dataset Source Dataset.

It assumes that Source Dataset is split into two subsets: Training dataset and Validation dataset.

...

The discrepancy between model values and training and Training dataset values can be low but it does not mean that predicting accuracy of the the model on the data outside the Training dataset will be the same low.

This may happen because the model is not unique and a given realization model realization may not be the best across the all data points.

Estimating the accuracy on Validation dataset which was not a part pf a training provides a better assessment of the model predictability.

predictor.

In order to assess predictability of the model it should bee validated on the data outside the Training dataset, which is called Validation dataset.

If If the model discrepancy on Validation dataset is close to the to model discrepancy on Training dataset one can say that a given model has a good predictability within the Source Dataset range.

If model discrepancy on Validation dataset is not close to model discrepancy on Training dataset then this phenomenon is called overtraining and means that a given model realization has "remembered" the Training dataset but can not accurately predict on the data points outside the Training dataset.

Splitting the Source Dataset into Training dataset and Validation dataset can be done in different ways.

It can be done manually or randomly (see Bootstrapping).

It should be noted though that Source Dataset may not hold enough of representative events/occurrences to provide the opportunity for Cross-Validation and in this case the Goodness of fit over the Training dataset (which is the whole Source Dataset in this case) will be the only one available, thus increasing the risk of future Model Prediction.

В процессе адаптации набора экспериментальных данных некой математической моделью всегда возникает вопрос об доверительных интервалах найденного набора параметров в процессе оптимизации целевой функции невязок модельных и экспериментальных данных.

Это может быть сделано разными способами.

Некоторые способы заточены на конкретную заду и дают очень быструю и точную оценку доверительного интервала.

Например, в случае задач оптимизации линейного выпуклого функционала.

Однако в ряде случаев модель настолько широка, что специализированного метода просто не существует.

Здесь на помощь приходят универсальные методы, пригодные для функционалов практически любого вида.

Одним из таких универсальных методов является Бутсреп (Bootstrap), или как ее еще называют — методика вытягивания себя за волосы.

Смысл этой методики заключается в том, что экспериментальные данные делятся случайным образом на две выборки: тренировочную и тестовую.

Тренировочные данные используются для настройки модели (путем минимизации целевой функции невязок по тренировочным данным),

а тестовые для оценки прогнозной точности полученной модели (невязки целевой функции невязок по на тестовой выборке).

Причем этот процесс повторяется несколько раз, с разными разбивками массива данных, причем длина тренировочных и тестовых выборок может меняться

(например, начиная с соотношения 90 % — 10 % до обратного 90 % — 10 % между тренировочной и тестовой выборками.

При каждой реализации модели получается новый набор параметров и соответствующая ему невязка целевой функции.

По итогам, этих упражнений строится график зависимости невязки целевой функции от каждого значения параметра модели и моделируется распределением Стьюдента.

После этого задается порог целевой функции (вручную или по некому алгоритму, о чем будет рассказано позже) и этот порог отрезает на распределение Стьюдента доверительный интервал определения данного параметра модели.

Чем больше тренировочни-тестовых разбиений реализовано, тем больше статистика модельных реализаций, тем точнее восстанавливается распределение Стьюдента невязок и тем точнее определяются доверительные интервалы параметров модели.

Выбор порога целевой функции часто является эмпирическим. Наиболее популярным является значение 0.95.

Однако для ряда задач выбор порога можно автоматизировать.

Одним из подходов является

Определения доверительных интервалов отвечает в частности на фундаментальный вопрос моделирования.

Пусть имеется экспериментальный набор данных и две математические модели М1 и М2.

...

Page tree

Versions Compared

Old Version 4

New Version Current

Key

See also

Page tree

Page History

Versions Compared

Old Version 4

New Version Current

Key

See also