к библиотеке   к оглавлению   FAQ по эфирной физике   ТОЭЭ   ТЭЦ   ТПОИ   ТИ  

РЕАЛЬНАЯ ФИЗИКА

Глоссарий по физике

А   Б   В   Г   Д   Е   Ж   З   И   К   Л   М   Н   О   П   Р   С   Т   У   Ф   Х   Ц   Ч   Ш   Э   Ю   Я  

Анализ данных

Анализ данных - дисциплина, посвящённая построению и исследованию процедур, осуществляющих преобразование от "исходных данных" к "результату". Ранее вместо термина "А. д." употреблялся термин "обработка результатов наблюдений (измерений)". Матем. аппаратом А. д. является матем. статистика.

Под "исходными данными" обычно понимают нек-рый первичный набор чисел, получаемых в процессе проведения исследования: результаты измерений к--л. физ. величины; совокупность параметров, характеризующих к--л. событие или состояние системы, установки, физ. тела; число случаев осуществления к--л. события; счёт наличия или отсутствия к--л. признака и т. п.

Результатами А. д. обычно являются либо итоговые показатели (напр., при обработке многократных измерений к--л. физ. величин), либо параметры модели (физ. закономерности), описывающей исследуемое явление (напр., размеры ядер при исследовании распределений углов рассеяния частиц на ядрах), либо вывод о справедливости к--л. теории и т. п.

Погрешности данных. Как исходные данные, так и результаты помимо своей величины характеризуются ошибкой, или погрешностью. Под ошибкой обычно понимают разницу между наблюдаемой или вычисляемой величиной и фактич. величиной. Ошибки в исходных данных могут от опыта к опыту систематически повторяться (т. н. систематические ошибки) либо меняться случайным образом (т.н. случайные ошибки).

Систематич. ошибки, как правило, связаны с неправильно откалиброванным измерит. прибором (или невозможностью калибровки), с неправильно учтёнными, внеш. условиями проведения опыта (или невозможностью их учёта), с неправильной методикой измерения и т. п. Напр., в прецизионных опытах по измерению полного сечения рассеяния частиц высокой энергии на протонах осн. вклад в систематич. ошибку даёт неточное знание плотности жидкого водорода, к-рый используется в качестве мишени. Исследование систематич. ошибок играет важную роль в анализе эксперим. данных. После выявления природы систематич. ошибок и определения их величины они перестают быть ошибками и становятся поправками. Если систематич. ошибки устранить не удаётся, то обычно оценка систематич. ошибки приводится совместно с результатом.

Случайные ошибки измерений - флуктуации в наблюдениях (измерениях) -являются следствием конечной точности эксперимента (измерит. прибора) и (или) случайного характера наблюдаемой (измеряемой) величины. Получению численных результатов по данным измерений, содержащим случайные ошибки, посвящён раздел матем. статистики, наз. теорией ошибок (см. Ошибок теория). В исходных данных и в результатах анализа могут быть также и грубые ошибки (промахи) - следствие неправильных записей, неумелого применения прибора, применения испорченного прибора, арифме-тич. ошибок в вычислениях и т. п. Такие ошибки исправляют при более тщательном повторении опытов или расчётов.

Из-за наличия в реальных исходных данных всевозможных ошибок неизвестного характера на практике сложно сформулировать и построить такую процедуру, к-рая приведёт к окончат. результату. Поэтому А. д. обычно подразделяют на два раздела (этапа): исследование данных и обработка данных.

Исследование данных (или разведочный анализ) - это такие операции, выполнение к-рых существенно зависит от конкретных данных. При исследовании данных определяющую роль играет человек, к-рый решает: как дальше поступать с этими данными; какие точки выбросить, какие оставить; какую конкретную процедуру применить для улучшения качества исходных данных; нужно ли сгруппировать ряд данных и как это сделать и т. п. В разведочном анализе обычно используют простые методы преобразования и представления данных, позволяющие качественно оценить имеющиеся данные и повысить их надёжность (достоверность). Из осн. процедур разведочного анализа следует особенно отметить процедуру "сглаживания", устранение грубых ошибок.

Обработка данных - это собственно процедура получения результатов по выбранной схеме. Матем. статистика в осн. посвящена именно обработке данных.

Статистический анализ. Из-за конечной точности измерений и наличия случайных ошибок или из-за стати-стич. природы эксперим. данных ряд измерений 111994-282.jpg, проведённых независимо, рассматривают как случайные переменные, распределённые с плотностью вероятности 111994-283.jpg , к-рая может быть дискретной либо непрерывной.

Задача эксперим. исследований - получить111994-284.jpg по наблюдениям 111994-285.jpg, задача теории - придумать (вычислить) 111994-286.jpg . При таком рассмотрении почти все задачи А. д. сводятся к оцениванию плотности вероятности и к определению согласия между теоретич. и эмпирич. распределениями. В матем. статистике задачам оценивания посвящён раздел статистич. оценивания, а задачам определения согласия - раздел статистич. проверки гипотез. По способу оценивания плотности вероятности и определения её согласия с теоретич. А. д. подразделяют на параметрический и непараметрический.

В непара метри ч. анализе предполагается, что нет никакой априорной информации относительно вида функции111994-287.jpg . Заключение о функции111994-288.jpg или о её свойствах делается непосредственно из исходных данных. Построение гистограмм - один из примеров непараметрического оценивания плотности вероятности.

В параметрич. анализе предполагается, что 111994-289.jpg входит в параметрич. семейство распределения 111994-290.jpg , где111994-291.jpg-конечный набор параметров (дискретных или непрерывных), к-рые выделяют отд. распределения из семейства. Здесь проблема оценивания функции 111994-292.jpg сводится к выбору подходящих значений 111994-293.jpg. Простейшая задача параметрич. анализа-получение результата для к--л. физ. величины по данным её многократных измерений со случайной ошибкой, соответствующей Гаусса распределению ошибок. Пусть имеется ряд хi, i=1, 2, . ..,N измерений одной и той же физ. величины с дисперсией111994-294.jpg. Вероятность одиночного наблюдения хi равна111994-295.jpg X111994-296.jpg, тогда вероятность N независимых наблюдений хi, i = l, 2, ..., N, равна произведению вероятностей

111994-297.jpg111994-298.jpg

Согласно максимального правдоподобия методу в качестве оценки результата измерений физ. величины х, при пост. дисперсии111994-299.jpg, следует взять такую величину 111994-300.jpg, к-рая даёт максимум вероятности111994-301.jpg . Максимум предыдущего выражения достигается при минимуме показателя экспоненты, откуда следует, что 111994-302.jpg

Проверка гипотез. Результатом А. д. может быть также оценка справедливости к--л. теоретич. модели или гипотезы (см. Статистическая гипотеза)в смысле применимости её к экспериментально наблюдаемому явлению. Такой результат сам по себе не даёт доказательства справедливости теории, он даёт лишь возможность выбора альтернатив и степень согласия теории и эксперимента.

Пусть надо проверить гипотезу Н0 по отношению к гипотезе Н1 на основании нек-рых эксперим. наблюдений 111994-303.jpg. Пусть 111994-304.jpg есть функция наблюдений и проверяемой гипотезы (X обычно наз. проверочной статистикой) и пусть 111994-305.jpg есть пространство всевозможных значений X. Пространство 111994-306.jpg делят на две области 111994-307.jpgи 111994-308.jpg, к-рые соответственно наз. критической и допустимой. Считают, что при попадании проверочной статистики X в критич. область 111994-309.jpg гипотеза Н0 неверна (верна Н1), а при попадании X в допустимую область гипотеза Н0 верна (Н1 ошибочна).

Разделение пространства 111994-310.jpg на критическую и допустимую области обычно производится так, чтобы вероятность отвергнуть гипотезу, когда она верна (т. е. вероятность потери), была бы малой. Величину этой вероятности наз. уровнем значимости или величиной критерия. Т. о., уровень значимости111994-311.jpg равен вероятности попадания X в 111994-312.jpg, когда гипотеза Н0 верна, т. е. 111994-313.jpg .С др. стороны, целесообразно потребовать также малости вероятности принятия ложной гипотезы, 111994-314.jpg т. е. вероятности примеси 111994-315.jpg:

Для оценки критерия проверки альтернативных гипотез (см. Статистический критерий)служит величина, наз. мощностью критерия, к-рая определяется как вероятность111994-316.jpg попадания X в критич. область пространства111994-317.jpg, когда верна гипотеза Н1 т.е. 111994-318.jpg . При выборе гипотезы исследователь обычно решает, какие потери 111994-319.jpgон может допустить, а затем выбирает проверочную статистику и критич. область так, чтобы максимизировать мощность критерия111994-320.jpg.

Одна из наиб. общих проверяемых гипотез при А. д. состоит в том, что плотность вероятности111994-321.jpg есть данная функция 111994-322.jpg, т. е. 111994-323.jpg. Здесь обычно нет определ. альтернативной гипотезы, т. е. фактически имеется набор всевозможных альтернативных гипотез, к-рые явно не определены. В этом случае невозможно вычислить примесь и определить мощность критерия. Такая задача возникает при проверке совпадения эксперим. данных с к--л. теоретич. моделью и решается на основе критерия согласия. Как при обычной проверке гипотез, начинают с выбора проверочной статистики, однако пространство W не делится на критич. и допустимую области. Уровень значимости здесь определяется как вероятность того, что при условии Н0 проверочная статистика X будет иметь значение, превышающее величину Т, наблюдаемую из данных, 111994-324.jpg В данном контексте величина 111994-325.jpg наз. также уровнем достоверности.

Критерий согласия конструируется при помощи меры различия между непараметрич. оценкой плотности вероятности (чаще всего гистограммой) и теоретич. функцией плотности вероятности проверяемой гипотезы. Наиб. популярной является квадратич. мера, нормированная на дисперсию. В достаточно общих предположениях проверочная статистика сводится к сумме квадратов независимых, нормально распределённых случайных величин с нулевым средним и единичной дисперсией, к-рая имеет 111994-326.jpg-распределение с числом степеней свободы, равным кол-ву членов в сумме. В этом случае критерием согласия является111994-327.jpg-критерий Пирсона.

Использование ЭВМ. Совр. эксперим. исследования в области ядерной физики, геофизики, физики атмосферы, океана и др. характеризуются огромным объёмом получаемой первичной информации (до 1012 бит/с и более). Результаты эксперимента обычно составляют ~103 бит. Т. о., в процессе А. д. происходит значит. сжатие информации (в 1 млрд. раз и более). А. д. таких эксперим. исследований немыслим без использования средств автоматизации и быстродействующей вычислит. техники (см. Автоматизация эксперимента ).Каждый эксперимент во времени проходит два этапа: получение данных и получение результатов. Совр. автоматизиров. эксперим. установки, оснащённые вычислит. техникой, позволяют решать часть задач А. д. уже в процессе их получения, т. е. в реальном масштабе времени проведения измерений. Этот этап А. д. обычно наз. анализом в реальном масштабе времени или анализом "в линию".

Целью и смыслом анализа "в линию" является всеобъемлющий контроль за работой эксперим. установки и ходом эксперимента в целом. Наиб. эфф. вид контроля - контроль по конечным результатам. Такой метод контроля избавляет от трудоёмких исследований зависимостей свойств установки от неск. тысяч параметров, от необходимости выбирать и устанавливать допуски на изменение этих параметров и комбинации этих изменений. Повышается и надёжность установки, т. к. имеется возможность оперативно принимать решения о необходимости и целесообразности ремонта при отказе отд. элементов или о продолжении работы с ухудшенными характеристиками. Часто для проверки правильности работы установки и её отд. узлов создают спец. тестовые и контрольные средства, однако обычно осуществляют оба типа контроля.

Иногда проводят предварит. обработку "в линию" всей поступающей информации для её сжатия перед записью и последующим анализом. Анализ "в линию" позволяет получать физ. результат эксперимента хотя бы на части исходных данных. Однако окончательно все задачи А. д. практически невозможно решить в процессе их получения из-за необходимости проведения исследования данных, к-рое имеет характер последоват. приближений.

Окончат. результаты эксперимента обычно получают в процессе последующего анализа. При этом для получения окончат. результатов часто требуется выполнение дополнительных, т. н. калибровочных, опытов (для исследования и устранения систематич. ошибок) либо сопоставление получаемых результатов с результатами др. экспериментов. Методы полного (последующего) анализа обычно более богаты, чем при выборочном анализе "в линию". Здесь имеются неогранич. возможности повторения последоват. приближений по исходным данным. В этом смысле А. д.- бесконечный процесс ("способ существования данных"). Следует особо выделить графическое представление данных: из рисунков и графиков часто можно добыть информацию, неожиданную для исследователя.

Литература по анализу данных

  1. Митропольский А. К., Техника статистических вычислений, 2 изд., М., 1971;
  2. Статистические методы в экспериментальной физике, пер. с англ., М., 1976:
  3. Тьюки Дж., Анализ результатов наблюдений, пер. с англ., М., 1981:
  4. МостеллерФ., Тьюки Дж., Анализ данных и регрессия, пер. с англ., в. 1-2, М., 1982.
  5. Теория и практика обработки информации

С. В. Клименко, А. А. Лебедев

к библиотеке   к оглавлению   FAQ по эфирной физике   ТОЭЭ   ТЭЦ   ТПОИ   ТИ  

Знаете ли Вы, что релятивистское объяснение феномену CMB (космическому микроволновому излучению) придумал человек выдающейся фантазии Иосиф Шкловский (помните книжку миллионного тиража "Вселенная, жизнь, разум"?). Он выдвинул совершенно абсурдную идею, заключавшуюся в том, что это есть "реликтовое" излучение, оставшееся после "Большого Взрыва", то есть от момента "рождения" Вселенной. Хотя из простой логики следует, что Вселенная есть всё, а значит, у нее нет ни начала, ни конца... Подробнее читайте в FAQ по эфирной физике.

НОВОСТИ ФОРУМА

Форум Рыцари теории эфира


Рыцари теории эфира
 10.11.2021 - 12:37: ПЕРСОНАЛИИ - Personalias -> WHO IS WHO - КТО ЕСТЬ КТО - Карим_Хайдаров.
10.11.2021 - 12:36: СОВЕСТЬ - Conscience -> РАСЧЕЛОВЕЧИВАНИЕ ЧЕЛОВЕКА. КОМУ ЭТО НАДО? - Карим_Хайдаров.
10.11.2021 - 12:36: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от д.м.н. Александра Алексеевича Редько - Карим_Хайдаров.
10.11.2021 - 12:35: ЭКОЛОГИЯ - Ecology -> Биологическая безопасность населения - Карим_Хайдаров.
10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> Проблема государственного терроризма - Карим_Хайдаров.
10.11.2021 - 12:34: ВОЙНА, ПОЛИТИКА И НАУКА - War, Politics and Science -> ПРАВОСУДИЯ.НЕТ - Карим_Хайдаров.
10.11.2021 - 12:34: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вадима Глогера, США - Карим_Хайдаров.
10.11.2021 - 09:18: НОВЫЕ ТЕХНОЛОГИИ - New Technologies -> Волновая генетика Петра Гаряева, 5G-контроль и управление - Карим_Хайдаров.
10.11.2021 - 09:18: ЭКОЛОГИЯ - Ecology -> ЭКОЛОГИЯ ДЛЯ ВСЕХ - Карим_Хайдаров.
10.11.2021 - 09:16: ЭКОЛОГИЯ - Ecology -> ПРОБЛЕМЫ МЕДИЦИНЫ - Карим_Хайдаров.
10.11.2021 - 09:15: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Екатерины Коваленко - Карим_Хайдаров.
10.11.2021 - 09:13: ВОСПИТАНИЕ, ПРОСВЕЩЕНИЕ, ОБРАЗОВАНИЕ - Upbringing, Inlightening, Education -> Просвещение от Вильгельма Варкентина - Карим_Хайдаров.
Bourabai Research - Технологии XXI века Bourabai Research Institution