Настоящая статья посвящена проблеме отбора фиксированного числа информативных регрессоров в оцениваемых с помощью метода наименьших квадратов линейных регрессионных моделях. В современных научных работах для решения этой задачи применяется хорошо развитый за последние годы аппарат целочисленного математического программирования. В большинстве этих работ задача отбора регрессоров формализована в виде задач частично-квадратичного линейного программирования. Относительно недавно начали появляться статьи, в которых авторы стремятся сформулировать единую задачу математического программирования, которая параллельно с отбором факторов гарантирует построение регрессии, удовлетворяющей различным статистических тестам. Данная работа является логическим продолжением предыдущих статей автора, в которых задача отбора информативных регрессоров формализована в виде задачи частично-булевого линейного, а не квадратичного, программирования. Ранее уже были рассмотрены способы контроля в этой задаче степени мультиколлинеарности. В данной статье с помощью известного подхода к определению наблюдаемых значений t-критерия Стьюдента, основанного на вычислении частных F-критериев, в упомянутую задачу частично-булевого линейного программирования были интегрированы линейные ограничения на степень значимости коэффициентов регрессии. Сформулирована двухкритериальная задача, позволяющая строить модель с позиции соотношения «качество - значимость», и трехкритериальная задача, осуществляющая построение регрессии с позиции соотношения «качество - мультиколлинеарность - значимость». Успешно проведены вычислительные эксперименты, подтверждающие корректность предложенного математического аппарата.
Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии
2021. — Выпуск 3
Содержание:
Описание процесса теплопереноса на макроскопическом уровне производится с помощью хорошо известных классических методов и теорий, найденных либо путем аппроксимации опытных данных (правило смешения, и его вариации, теория обобщенной проводимости и др. [1-4]), либо на основе физических моделей (закон Фурье, принцип локального термодинамического равновесия, система уравнений Максвелла - Каттанео и др. [5-7]). Однако при решении ряда задач, например, нестационарной теплопроводности и тепловой устойчивости возникают проблемы, приводящих к существенному отличию теории от экспериментально наблюдаемых результатов. Возникает ряд вопросов при расчете многослойных и композиционных материалов. В современной классической механике считается, что материальная точка имеет внутреннюю структуру [8], за счет чего обладает дополнительными степенями свободы. По аналогии с материальной точкой будем считать, что тепловой поток также имеет структуру. В работе получена система уравнений, получено решение в частном случае для системы, имеющей два разных механизма передачи теплоты, в стационарном случае. Показано, что полученная система может быть сведена к обобщенному уравнению Фурье, уравнению Фурье в стационарном случае и системе уравнений Максвелла - Каттанео. Рассмотрено два частных случая: неравновесная задача и стационарная задача. В первом случае введено понятие неравновесной температуры. Получено уравнение теплопроводности с источниковыми членами, которое говорит о том, что сначала тепловое равновесие устанавливается в каждом канале, а затем наступает и между каналами. Во втором случае учет многоканальности подтверждает волновой характер процесса: даже в одномерном стационарном случае получаем отличное от линейности решение ввиду свойств уравнений четвертого порядка.
Ключевые слова
В настоящей работе построены оценки параметров нелинейных рекуррентных последовательностей по неточным наблюдениям. Речь идет о модели логистического роста, модели Рикера и дискретизированной модели Лоренца. В модели Лоренца дифференциальная задача была сведена к конечно-разностной схеме. Рассмотрены аддитивная и мультипликативная модели внесения ошибок в наблюдения, при этом распределения ошибок имеют не всегда нормальный закон распределения. Основная идея работы состоит в представлении параметров моделей через временные средние определенных функций и оценки этих средних по наблюдениям. Вопросы существования временных средних некоторых функций от модельных переменных являются предметом теории динамических систем. Они определяются наличием предельных циклов или предельных распределений динамической системы. Так как динамические системы наблюдаются на фоне случайных ошибок, то оцениваемые параметры выражаются через средние по траектории и через дисперсии ошибок наблюдений. Важным этапом в настоящей работе стало доказательство сходимости по вероятности оцениваемых параметров детерминированной системы к точным значениям. Эта процедура основана на классических вероятностных неравенствах типа неравенства Чебышева. Полученные результаты проверены в ходе вычислительных экспериментов, в которых строятся полигоны частот оцениваемых параметров и сравниваются с их точными значениями. Рассмотренные в работе модели динамических систем являются нелинейными, что затрудняет использование метода наименьших квадратов для оценки их параметров. Известные авторам результаты численного эксперимента по такой оценке параметров содержат достаточно большие ошибки. Тогда как предложенный в работе метод оценивания параметров нелинейных динамических систем является аналитически строгим.
Ключевые слова
Широкое внедрение беспроводных технологий в различные аспекты современной жизни в том числе использование телеуправляемых устройств требует решения задачи повышения устойчивости канала управления в условиях разнообразных деструктивных воздействий. Данные воздействия могут иметь различную природу происхождения от объективно существующих изменений физических свойств среды передачи до преднамеренных антропогенных воздействий потенциального нарушителя. Поэтому в сложившихся условиях актуальной является задача разработки корректирующих кодов обеспечивающих высокую помехоустойчивость при низкой вычислительной сложности. Предпосылками к решению задачи по созданию таких кодов стала реализация в алгоритмах декодирования принципов оптимизационной теории помехоустойчивого кодирования. В настоящей статье проведен анализ свойств: баланса, серий, «зеркальности» одноименных единичных символов относительно mod p подпоследовательностей символьной М-последовательности с делимым приводимым полиномом, как дополнительных признаков обнаружения ошибок в алгоритмах дивергентного декодирования. Определены условия эффективного применения дивергентных корректирующих кодов на основе мягкой обработки сегментов символьной М-последовательности. Приведены функциональные схемы кодера, декодера и аппаратуры передачи данных, в которых реализуются принципы оптимизационной теории помехоустойчивого кодирования с низкой вычислительной сложностью. Использование свойств подпоследовательностей символьной М-последовательности с делимым приводимым полиномом как дополнительных признаков обнаружения ошибок достаточно для реализации алгоритма дивергенции с многопороговым декодированием. Предложенный в работе подход позволяет обеспечить заданную достоверность при изменении скорости передачи данных в условиях экстремально большого уровня шума в канале связи.
Ключевые слова
В данной статье выдвигается гипотеза о том, что набор текста на клавиатуре каждым конкретным человеком имеет индивидуальные особенности. Развитие этой технологии в дальнейшем поможет предотвратить попытки несанкционированного доступа к персональным данным, банковским счетам и коммерческой тайне. Среди существующих методов биометрической аутентификации предложенный подход относится к категории динамических методов, подвергающихся изменениям со временем. Эта особенность не позволяет злоумышленнику через доступ к сети украсть шаблон почерка пользователя, его скопировать или подделать. Во время работы на клавиатуре человеком используется более 20 различных мышц, что делает стиль набора уникальным. В качестве основных характеристик для проведения аутентификации личности были взяты скорость набора, время удержания клавиши в нажатом положении, время поиска следующей клавиши, периодические опечатки в процессе набора текста и многое другое. Компьютерный почерк может быть зафиксирован в виде различных метрик и проанализирован статистическими методами. Автором статьи раскрывается методика и условия проведения эксперимента. Система ведет подсчет количества нажатий за единицу времени, устанавливает временные метки, производит сбор статистических данных для построения гистограмм. Эксперимент проводится в разное время суток с использованием различных типов клавиатур. Закладывается гипотеза о том, что данные выборки подчиняются нормальному распределению, что подтверждается анализом полученных результатов по критерию согласия Пирсона. Для определения отличий стилей набора испытуемого от своего собственного находится процент совпадений показателей по интегральной формуле Муавра - Лапласа для нормальных распределений, значение которого около 90 %. Аналогичным образом проводится сравнительный анализ полученных результатов с разными пользователями. В данном случае этот показатель будет гораздо ниже и не превышает 60 %. Сравнительный анализ дает возможность аутентифицировать личность и является достаточным информационным показателем для предотвращения попыток несанкционированного доступа.
Ключевые слова
Управление реальными инвестициями является важнейшим направлением деятельности современных предприятий. Реальные инвестиции, особенно связанные с созданием нового капитала (новых компаний, новых производств), сопряжены с различными видами неопределенности. При выборе объекта инвестирования необходимо учитывать факторы неопределенности, характеризующие: состояние конкурентной среды, возможность наступления неблагоприятных событий, стоимость инвестиционных ресурсов, случайные колебания спроса и рыночных цен, различные политические и экономические риски. Наличие факторов неопределенности приводит к тому, что параметры финансовых потоков инвестиционных проектов нельзя рассматривать как детерминированные, необходимы инструменты моделирования, которые позволяли бы учитывать неточность, расплывчатость, стохастический характер реализации проектов и получать оценки эффективности проектов, учитывающие основные, поддающиеся моделированию и/или экспертной оценке факторы риска и неопределенности. В данной статье для моделирования неопределенных параметров инвестиционного проекта и вычисления чистого дисконтированного денежного дохода предлагается использовать аппарат нечетких интервальнозначных чисел. Нечеткие интервальнозначные числа, которые достаточно часто интерпретируют как нечеткие числа второго типа (порядка) или сверхнечеткие числа, позволяют моделировать не только неопределенность значения на базовой оси (носитель) некоторого параметра, но и неопределенность, связанную со значением функции принадлежности. В работе предложен алгоритм построения нечетких треугольных интервальнозначных чисел на основе обработки экспертной информации и алгоритм формирования оценки чистого дисконтированного дохода проекта на основе операций с нечеткими интервальнозначными числами.
Ключевые слова
Традиционные аналитические методы исследования применимости методов множественных сравнений эффективны только при весьма жёстких ограничениях на соответствующие генеральные совокупности. В то же время для решения этого вопроса с успехом можно применять компьютерные симуляции и метод Монте-Карло. Методом Монте-Карло мы симулируем проведение тестов, выполняемых при множественных сравнениях на выборках малого объёма из искаженных (по сравнению с нормальным) распределений. Исследуется возможность применения классических критериев дисперсионного анализа (ANOVA) и непараметрического теста Краскела - Уоллиса для выборок малого объёма с ненормальным распределением и/или неоднородных по дисперсии. В качестве критерия однородности выборок по дисперсиям используется тест Левене. Нормальность (Гауссовость) выборок проверяется с помощью теста Шапиро -Уилка. Для искажения нормальности выборок используются генеральные совокупности, распределенные по хи-квадрат и t-распределению Стьюдента с малым числом степеней свободы. Также ненормальность распределений отслеживается с помощью параметров: эксцесс (коэффициент островершинности) и асимметрия. В качестве генератора псевдослучайных чисел применяется так называемый вихрь Мерсенна реализованный в рамках пакета программ Wolfram Mathematica. Число испытаний для каждого набора параметров доведено до миллиона. Вычисляются эффективные вероятности ошибок 1-го рода и делаются выводы о влиянии негомогенности дисперсий, «ненормальности» эксцесса и асимметрии на эффективность исследуемых критериев. В результате можно сказать, что зачастую нет оснований использовать непараметрические методы вместо параметрических в ущерб мощности соответствующих критериев.
Ключевые слова
В статье представлен комплексный подход к точному решению задач Constrained Clustering, то есть задач кластеризации, предполагающих анализ, помимо матрицы расстояний, фоновых знаний о необходимости/недопустимости вхождения некоторых объектов в те или иные кластеры. Подход реализован в рамках парадигмы программирования в ограничениях (Constraint Programming), ориентированной на построение процедур систематического поиска (процедур обхода дерева поиска) для решения сложных комбинаторных задач. При этом, вся исходная информация о задаче выражается с помощью ограничений, то есть качественных и количественных зависимостей. Существенная сложность заключается в том, что в современных средах и библиотеках программирования в ограничениях обработка качественных ограничений, которыми, в частности, являются правила отнесения объектов к одному или различным кластерам, производится недостаточно эффективно. Таким образом, представляется актуальной разработка способов ускорения обработки подобных ограничений. В статье предлагается представлять и обрабатывать качественные ограничения в форме табличных ограничений нового типа, а именно smart-таблиц D-типа. Для smart-таблиц D-типа разработаны высокоэффективные процедуры вывода на ограничениях, осуществляющие раннее отсечение неперспективных ветвей дерева поиска. Другое направление работ, которое активно развивается в настоящих исследованиях, связано с уменьшением количества ограничений, используемых для представления задачи, и с упрощением их вида. Предлагается генерировать ограничения лишь для некоторых пар объектов, основываясь на интервальной оценке для оптимального значения критерия кластеризации. Для получения данной оценки используется ранее предложенный авторами метод иерархической кластеризации, который позволяет анализировать ограничения на комбинации пар объектов внутри кластера. Предложенный подход позволяет находить все варианты разбиений, обеспечивающие глобальный оптимум целевой функции для рассматриваемых задач Constrained Clustering высокой размерности. Разработанный подход проиллюстрирован на примере задачи выявления зон участка горного массива с различной степенью сейсмической активности.
Ключевые слова
Климатические бедствия могут провоцировать и усиливать друг друга, происходить одновременно, в том числе синхронно и на больших расстояниях. В статье представлены результаты применения метода концептуального описания систем поддержки принятия решений для разных видов опасных событий природного и техногенного характера. Новизна разработанного авторами статьи подхода заключается в использовании метода онтологического проектирования, обосновывающего применение технологий аналитического и ситуационного моделирования. Показано, что использование онтологий существенно облегчает коммуникацию специалистов разных сфер, упрощает поиск решений междисциплинарных задач информационной поддержки принятия решений. Даны описания особенностей построения мультизадачных платформ, интегрирующих проблемно-ориентированные сервисы и представлены примеры их использования при управлении природно-техногенной безопасностью территорий. Особое внимание уделено описанию аналитического сервиса распределённого сбора данных при мониторинге оперативной обстановки на основе донесений Системы 112 и других оперативных служб, сбору заявок на обустройство пожарных водоёмов, создание и оснащение добровольных пожарных команд, ресурсов для предупреждения ликвидации ЧС природного и техногенного характера. Полученные результаты позволяют сделать вывод о перспективности использования предлагаемого метода в корпоративном управлении безопасностью территорий.
Ключевые слова
В данной работе рассматривается речевой сигнал как набор фрагментов, содержащих речевые компоненты и фрагменты с шумами, соответствующие паузам между словами. Ставится задача по составлению решающей функции, способной принять или отвергнуть гипотезу об отсутствии речи в отрезке речевого сигнала. На основе субполосного метода для отрезка речевого сигнала составляется его распределение энергий по частотам. Для этого распределения в дальнейшем применяется процедура аппроксимации смесью радиально-базисными функциями (функциями Гаусса). Смесь представляет собой взвешенную сумму радиально-базисных функций и равномерно-распределённой составляющей. По соотношению максимальных значений компонент смеси составляется решающее правило. Для проведения вычислительного эксперимента вводится нелинейность «зона нечувствительности», выбор которой обусловлен особенностями электрической активности путей и центров слуховой системы. В работе приводится результат применения алгоритма определения пауз в речевом сигнале. В качестве рабочего материала использовалась база размеченных речевых фрагментов американского агентства передовых оборонных исследовательских проектов DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. Всего было обработано 100 звукозаписей, размер отрезка анализа был взят 9 миллисекунд, частота дискретизации 16000Гц. Для проверки работоспособности предлагаемого алгоритма были оценены ошибки первого рода «пропуск цели» - когда алгоритм не начал отмечать паузу, но такая отметка присутствует при ручной расстановке, а также ошибки второго рода «ложная тревога» - когда произошла ошибочная постановка паузы. Полученные в ходе вычислительных экспериментов результаты позволяются судить о достаточно высокой эффективности предлагаемого подхода для определения пауз в речевом сигнале.