Стохастическая онлайн версия метода зеркального спуска и оракульные неравенства
←
→
Транскрипция содержимого страницы
Если ваш браузер не отображает страницу правильно, пожалуйста, читайте содержимое страницы ниже
Стохастическая онлайн версия метода зеркального спуска и оракульные неравенства Крымова Е. А. Гасников А. В. Институт проблем передачи информации Московский физико-технический им. А. А. Харкевича РАН институт Московский физико-технический gasnikov@ya.ru институт krymova@phystech.edu Аннотация станта M, ограничивающая норму субградиента оп- тимизируемой функции, и размер области R зависят Данная работа посвящена стохастической онлайн от выбора нормы в пространстве, в котором ведет- версии метода зеркального спуска. Основная цель ся оптимизация. Так, если мы выбрали норму в на- состоит в том, чтобы показать, что стохастиче- шем пространстве l p (1 ≤ p ≤ ∞),то M – есть сопря- ская онлайн версия метода зеркального спуска мо- женная lq -норма субградиента (1 p + 1 q = 1), а R2 – жет быть использована для получения неравенств есть «размер» области в «метрике» сильно выпуклой для экспоненциальной агрегации оценок зашумлен- относительно l p , с константой сильной выпуклости ного вектора. Основная особенность используемо- ≥ 1.1 Например, когда множества, на котором про- го нами подхода состоит в том, что мы релакси- исходит оптимизация является симплексом, то как руем требование существования экспоненциальных правило выбирают p = 1, а «метрику» задают рас- моментов у рассматриваемых случайных величин, стоянием Брэгмана (Кульбака–Лейблера). При этом допускаем онлайн постановку, а также учитыва- «проекция» субградиента на симплекс согласно та- ем при этом сильную выпуклость структуры зада- кому расстоянию считается по явным формулам. В чи. Для стохастического онлайн сильно выпуклого работе [14] была выдвинута гипотеза о том, что при- случая в статье приводятся, по-видимому, новые менительно к задачам стохастической оптимизации оценки, которые далее используются в задаче оце- на симплексе (не онлайн) такой выбор нормы и рас- нивания зашумленного вектора. стояния являются наилучшими с точки зрения за- висимости M 2 R2 от размера пространства n (в ти- пичных приложениях эта зависимость ∼ ln n). Одна- ко в определенных ситуациях (в задачах о многору- 1. Введение ких бандитах, когда M 2 R2 ∼ n ln n) удается выиграть логарифмический по n фактор, более подходящим В конце 70-х годов А.С. Немировским и Д.Б. образом выбирая расстояние [3]. При этом теряется Юдиным был предложен итерационный метод ре- возможность явного вычисления проекции субгра- шения негладких выпуклых задач оптимизации [24], диента. который можно интерпретировать как разновид- В работах [1, 16] исследовались стохастические ность метода проекции субградиента, когда проек- (рандомизированные) версии МЗС, в том числе и тирование понимается, например, в смысле рассто- онлайн. При этом анализировалась ситуация, ко- яния Брэгмана (Кульбака–Лейблера), или как пря- гда именно градиент функции выдается оракулом со модвойственный метод [26]. Этот метод, получивший случайными шумами, но несмещенным образом. Та- впоследствии название метода зеркального спуска (МЗС), позволяет хорошо учитывать структуру мно- 1 Слово «размер» взято в кавычки, потому что в действи- жества, на котором происходит оптимизация (напри- тельности то, что задается, мы интерпретируем в данном мер, симплекса). Как и многие другие методы реше- контексте как квадрат размера (отсюда и обозначение R2 ), ния негладких выпуклых оптимизационных задач, поскольку «метрика» сильно выпуклая относительно нашей «рабочей» нормы в этом пространстве. Слово «метрика» взя- этот метод требует O M 2 R2 ε 2 итераций, где ε – то в кавычки, потому что может быть не выполнено одно точность найденного решения по функции, что со- свойств метрики – нет симметричности, например, для рас- ответствует нижним оценкам по ε [2]. Однако кон- стояния (дивергенции) Брэгмана (Кульбака–Лейблера). 409
кая релаксация детерминированного МЗС оказалась весьма полезной применительно к задачам адаптив- h i ного агрегирования оценок [14], оптимизации в про- Eξ k ∇x fk x; ξ k − ∇x Eξ k fk x; ξ k Ξk−1 ≡ 0, странствах огромных размеров [1, 16], задачах о мно- горуких бандитах и другие [21, 14, 22]. где Ξk−1 – σ -алгебра, порожденная случайны- В работе [24] была также отмечена возможность ми величинами ξ 1 , ..., ξ k−1 . Далее везде в ста- онлайн интерпретации МЗС. Впоследствии, у раз- тье мы будем использовать обозначения обыч- ных авторов можно найти заметки на эту тему ного градиента для векторов, которые мы на- [26, 3, 21, 22, 4]. Наблюдение состоит в том, что ниче- звали здесь субградиентами. В частности, ес- го не изменится с точки зрения изучения сходимости ли мы имеем дело с обычным субградиентом, метода (и его стохастической версии), если на каж- то запись ∇x fk x; ξ k в вычислительном контек- дом шаге допускать, что функция меняется, причем, сте (например, в итерационной процедуре МЗС, возможно, враждебным образом (при этом оставаясь описанной ниже) означает какой-то его элемент в классе выпуклых функций с ограниченной нормой (неважно какой именно), а если в контексте про- субградиента). В данной работе приводится версия верки условий (например, в условии 3 ниже), то ∇x fk x; ξ k пробегает все элементы субградиента стохастического онлайн МЗС, которую можно бы- ло встретить в упомянутой литературе, правда, в (говорят также, субдифференциала); немного более частных ситуациях. Далее в статье 3. ∇x fk x; ξ k ∞ ≤ M − (равномерно, с вероятно- демонстрируется, как можно использовать этот ме- тод для получения оракульного неравенства с помо- стью 1) ограниченный субградиент. Для спра- щью агрегации оценок в задаче оценивания зашум- ведливости части утверждений достаточно тре- ленного вектора. Отчасти похожие постановки ранее бовать одно из следующих (более слабых) усло- уже рассматривались, см., например, [14]. Отличие вий: рассматриваемого нами случая от ранее изученных h 2i в том, что мы релаксируем требование существо- (a) Eξ k ∇x fk x; ξ k ∞ ≤ M 2 ; вания экспоненциальных моментов у рассматрива- 2 емых случайных величин, допускаем онлайн поста- k∇x fk (x;ξ k )k∞ k−1 ≤ exp (1). (b) Eξ k exp M2 Ξ новку, а также учитываем при этом сильную выпук- лость структуры задачи. Для стохастического он- Онлайновость постановки задачи допускает, что лайн сильно выпуклого случая в статье приводятся, на каждом шаге k функция fk может подбирать- по-видимому, новые оценки, которые далее исполь- ся из рассматриваемого класса функций враждеб- зуются в задаче оценивания зашумленного вектора. но по отношению к используемому нами методу ге- нерации последовательности xk . В частности, fk 2. Онлайн МЗС со стохастическим может зависеть от x1 , ξ 1 ; ...; xk−1 , ξ k−1 ; xk , если вы- субградиентом бор k 1 x 1 осуществляется исходя только из информации x , ξ ; ...; xk−1 , ξ k−1 , т.е. без дополнительной рандо- Рассмотрим задачу стохастической онлайн опти- мизации. Ситуации с дополнительной рандомизаци- мизации2 ей при выборе xk в данной статье не рассматривают- 1 N h i ся. k E ∑ ξ k k f x; ξ → min , (1) Можно обобщить приведенную постановку (опу- N k=1 x∈Sn (1) стив первое слагаемое из суммы) и последующие ре- n зультаты на композитную минимизацию [26], при- Sn (1) = x ≥ 0 : ∑ xi = 1 , при следующих чем если функция, которая добавляется ко всем fk , i=1 условиях: – линейная, то мы даже можем не знать ее (просто знать, что она есть и одна и та же), тогда условие 3 1. Eξ k fk x; ξ k − выпуклые функции (по x), переписывается в виде для этого достаточно выпуклости по x функций fk x; ξ k ; ∀ x, y ∈ Sn (1) ; k, m ∈ N → 2. Существует такой вектор ∇x fk x; ξ k , который для компактности будем называть субградиен- ∇x fk x; ξ k − ∇x fm (y; ξ m ) ≤ M. ∞ том, хотя последнее верно не всегда, что 2 Запись Выше мы исходили из того, что оптимизация ведет- Eξ k fk x; ξ k означает, что математическое ожи- k ся на единичном симплексе. Возникает резонный во- дание берется по ξ , то есть x и fk понимаются в такой записи не случайными. Отметим, что ξ k может зависеть от ξ 1 , . . . , прос: насколько все, что приведено в статье, обоб- ξ k−1 , а распределение ξ k может зависеть от x (многорукие бан- щается на более общий случай? Собственно говоря, диты). Слово “онлайн” будет пояснено немного позднее. ответ на этот вопрос частично известен уже давно 410
fk ≡ f , ξ k – независимы и одинаково распределе- [24]. Приведенные в статье рассуждения универсаль- ны, то есть если исходить из оптимизации на каком- ны, как ξ , нибудь другом выпуклом компакте,3 то задав норму " !# r в прямом пространстве и расстояние (сильно выпук- 1 N k ln n E f ∑ x ; ξ − min Eξ [ f (x; ξ )] ≤ 2M . лое относительно этой нормы), согласно которому N k=1 x∈Sn (1) N будет осуществляться проектирование субградиента Пусть справедливы условия 1, 2, 3, тогда 4 при Ω ≥ 0 на этот компакт, можно повторить аналогичные рас- c вероятностью меньшей exp (−Ω) (по мере порож- суждения [15]. денной x1 , . . . , xN ) выполняется 3. Алгоритм МЗС-адаптивный. Метод 1 N h i 1 N h i ∑ Eξ k fk xk ; ξ k − min ∑ Eξ k fk x; ξ k ≥ двойственных усреднений N k=1 x∈Sn (1) N k=1 2M √ √ Для решения задачи (1) воспользуемся адаптив- √ ln n + 8Ω N ным методом зеркального спуска (точнее двойствен- k fk ≡ f , ξ –независимы и одинаково распределены, ных усреднений) в форме [26, 14]. Положим xi1 = 1 n, как ξ , то c вероятностью меньшей exp (−Ω) выпол- i = 1, ..., n. Пусть t = 1, ..., N − 1. няется " !# t ∂ f (xk ;ξ k ) exp − β 1 ∑ k ∂ xi 1 N k t+1 k=1 Eξ f ∑ x ; ξ − x∈S N k=1 min Eξ [ f (x; ξ )] n (1) xt+1 i = n t ∂ f (xk ;ξ k ) , 1 2M √ √ k ∑ exp − βt+1 ∑ ∂ xl l=1 k=1 ≥√ ln n + 8Ω . N √ M t i = 1, ..., n, βt = √ . 4. Не экспоненциальная концентра- ln n ция. Сильно выпуклый случай Несложно показать, что этот метод представим так- же в виде: В статье [16] для задачи стохастической выпук- лой оптимизации ( ξ k – независимые случайные yk = yk−1 − γk ∇x fk xk ; ξ k , (2) величины) приводится оценка больших уклонений с xk+1 = ∇Wβk+1 yk точностью до констант аналогичная оценке, приве- денной в теореме. Аналогичная оценка приводится в M √ y0 = 0, γk ≡ 1, βk = √ k, k = 1, ..., N, [16] и для случая, когда вместо условия 3 предпола- ln n гается условие 3.b при этом в правой части неравен- √ где ства под вероятностью вместо Ω необходимо пи- Wβ (y) = sup {hy, xi − βV (x)} = сать Ω (с точностью до констант). К сожалению, для x∈Sn (1) онлайн оптимизации, как правило, независимость k ! ξ место не имеет, поэтому получить аналогич- 1 n ные оценки не удается. Более того, если мы не дела- β ln ∑ exp yi β , n i=1 ем никаких предположений относительно распреде- n лений независимых случайных величин ξ k , кроме V (x) = ln n + ∑ xi ln xi (прокси-функция). 1, 2 и существования первых трех равномерно огра- i=1 ниченных моментов у ∇x fk xk ; ξ k , то из неравенства Рассуждая подобно [26], [14], [16], можно полу- Маркова и первого неравенства в теореме (на мате- чить следующий результат. матические ожидания) имеем: существует такая кон- Теорема. Пусть справедливы условия 1, 2, 3.а, станта C > 0, что с вероятностью 1 − Ω−1 тогда 1 N h k k i 1 N h k i E ∑ ξ k k f x ; ξ − min E ∑ ξ k k f x; ξ 1 N h k k i 1 N h i N k=1 x∈Sn (1) N k=1 ∑ E fk x ; ξ − min ∑ Eξ k fk x; ξ k ≤ N k=1 x∈Sn (1) N k=1 4 Запись N 1 ∑ Eξ fk xk ; ξ k − ... ” r “Px1 ,...,xN N ln n k=1 означает, что под вероятностью мы считаем математиче- 2M . N ское ожидание по ξ k , которое, вообще говоря, зависит и от ξ 1 , ...., ξ k−1 (мы не предполагаем независимости ξ k ), как бы 3 От условия компактности (ограниченности) множества “замораживая” (считая не случайными) xk , то есть забывая можно отказаться, поскольку, в действительности, в оценку про то, что xk тоже 1 k−1 зависит от ξ , ...., ξ . А вероятность бе- числа итераций входит не размер области, а «расстояние» от рется как раз по xk , с учетом того, что такая зависимость точки старта до решения. есть (см. определение алгоритма МЗС). 411
r ln n ln N ln (ln N) ≤ CΩM . (3) ≤ CΩM 2 . (5) N µN Труднее обстоит дело, если мы хотим оценить То же самое здесь можно сказать и об оценке выра- жения (4). 1 N k k 1 N Мы также не встречали никаких других версий ∑ fk x ; ξ − min ∑ Eξ k fk x; ξ k , (4) N k=1 x∈Sn (1) N k=1 этого онлайн метода, кроме как с евклидовой струк- турой. Отметим, что при переходе к другой норме 1 N k k 1 N k отношение M 2 µ должно типично оставаться при- ∑ f k x ; ξ − min ∑ fk x; ξ . N k=1 x∈Sn (1) N k=1 близительно неизменным (это несложное упражне- Тем не менее, при дополнительных оговорках и та- ние). Также несложно показать, используя техни- кие выражения можно вероятностно оценивать [4, ку работ [3, 13], что использование не евклидовой 19]. нормы kk p и прокси-функции (в предыдущим пунк- Естественно теперь задаться вопросом: а если о те p = 1, а прокси-функция – энтропия) приводит функциях fk что-то дополнительно известно, может к тому, что число итераций увеличится в κ = L α ли это улучшить приведенные здесь оценки? Разбе- раз, где L –константа липшица градиента прокси- рем ответ на этот вопрос. Можно показать, что пред- функции в p-норме, а α – константа сильной выпук- положение о гладкости (липшицевость градиента) fk лости прокси-функции в p-норме. Несложно пока- ничего дополнительно не дает в онлайн постановке зать (переходя к двойственной задаче для исходной [21]. А если, скажем, известно, что fk – сильно вы- задачи оценки этого числа обусловленности κ), что κ пуклые функции с константой сильной выпуклости оценивается квадратом евклидовой асферичности p- µ? Рассмотрим сначала обычный (евклидовый) ме- нормы. Например, для 1-нормы κ ≥ n (изящное дока- тод проекции градиента, который естественным об- зательство этого факта с помощью вероятностного разом допускает стохастическую онлайн интерпре- метода имеется в работе [13]). Таким образом, пере- тацию в сильно выпуклом случае [3, 22]. Если выби- ход к любой другой норме в онлайн случае в отличие от ситуации, рассмотренной в предыдущем пункте, рать шаги в таком методе, как γk = (µk)−1 [3, 22], может только ухудшить скорость сходимости (уве- то зависимость ожидаемой точности решения (по личить число итераций). На это обстоятельство уже функции) от числа итераций будет O M 2 ln N (µN) , обращали внимание ранее [13]. что (с точностью до ln N) соответствует нижней Если все-таки дополнительно известно, что оценке для детерминированных не онлайн задач [24] функции fk xk ; ξ k имеют Липшицев градиент, а дис- ( fk x; ξ k ≡ f (x)). Если отказаться от онлайновости в персия fk x; ξ k мала, то на этом можно сыграть. стохастическом случае ( fk x; ξ k ≡ f x; ξk ), получа- Это принципиально не изменит приведенные выше ется оценка ожидаемой точности O M 2 (µN) [15], оценки, тем не менее, сделает их более точными для [28]. В эту оценку добавляется слагаемое (при усло- такой ситуации [9, 10]. Аналогичная игра на глад- виях 1 – 3) кости задачи и малости дисперсии стохастического O M 2 ln ln (N) σ (µN) , градиента (в условиях не случайных шумов), но уже не в сильно выпуклом случае, разобрана в работе [7]. если мы хотим гарантировать, что метод ошибает- В заключение отметим, что если рассматривать ся с вероятностью ≤ σ [15, 28]. В литературе мы не не онлайн и не стохастический случай (с фиксиро- встречали вероятностного анализа этого онлайн ме- ванным известным заранее числом слагаемых N), то тода с точки зрения больших уклонений. за счет специфики задачи с помощью специальной Впрочем, при естественных дополнительных (частичной) рандомизации можно достичь (с веро- условиях 1 – 3 число итераций стохастического он- ятностью ≥ 1 − σ )q следующих оценок числа итера- лайн метода (ошибающегося с вероятностью ≤ σ ) бу- ций [18] (считаем L µ N, иначе стоит восполь- дет зоваться быстрым градиентным методом q Нестерова O M 2 ln N ln ln (N) σ (µN) . (см., например, [25]) с оценкой O N L µ ln ε −1 ): Более того, если мы не делаем никаких предположе- O N + L µ ln ε −1 + ln σ −1 ний относительно распределений независимых слу- − липшицев чайных величин ξ k , кроме 1, 2 и существования градиент и сильная выпуклость; O N + L ε ln ε −1 + ln σ −1 первых трех − липшицев равномерно ограниченных моментов у ∇x fk xk ; ξ k , то аналогично написанному выше име- градиент. ем: существует такая константа C > 0, что с вероят- При этом «стоимость» одной итерации опреде- ностью 1 − Ω−1 ляется затратами на «честный» (не рандомизиро- ванный) подсчет градиента fk (x). Отметим, что не 1 N h i 1 N h i улучшаемые оценки вероятностей больших уклоне- ∑ Eξ k fk xk ; ξ k − min ∑ Eξ k fk x; ξ k N k=1 x∈Sn (1) N k=1 ний здесь получаются из достаточно грубого нера- 412
венства Маркова, потому что имеет место линейная – оптимальна для данного класса задач [21]. сходимость, то есть зависимость числа итераций от Обобщим предыдущую задачу, считая потери ε – логарифмическая. выпуклыми [21]. В условиях предыдущей задачи Полезно будет здесь напомнить довольно ста- предположим, что на k-м шаге i-й эксперт исполь- рую идею [8, 29], которая используется определен- зует стратегию ζik ∈ ∆ (множество ∆ – выпуклое), дающую потери λ ω k , ζik , где ω k – «ход», возмож- ным образом в только что описанном подходе ра- боты [18]. Рассматривается задача обычной (не он- но, враждебной «Природы», знающей, в том числе, лайн) выпуклой (не обязательно сильно) оптимиза- и нашу текущую стратегию. Функция λ ( · ) – выпук- ции (k∇ fk (x)k∞ ≤ M) лая по второму аргументу и |λ ( · )| ≤ M. На каждом шаге мы должны выбирать свою стратегию 1 N de f n ∑ fk (x) → x∈S N k=1 min . n (1) x= ∑ xi · ζik ∈ ∆, i=1 Идея заключается в том, чтобы переписать эту ω k, x дающую потери λ так, чтобы наши суммар- задачу как задачу стохастической оптимизации ные потери были минимальны. Для данной поста- E f (x; ξ ) → min , где f (x; ξ ) = fk (x), k = 1, ..., N с новки также применима теорема в детерминирован- x∈Sn (1) вероятностью 1 N. Несложно посчитать стохасти- ном варианте с ческий субградиент ∇ f (x; ξ ) = ∇ fk (x), k = 1, ..., N с n вероятностью 1 N. Причем k∇ f (x; ξ )k∞ ≤ M. Мож- fk x; ξ k ≡ fk (x) = ∑ xi λ ω k , ζik ≥ λ ω k , x . i=1 но далее применить теорему из предыдущего пунк- та и заметить, что для достижения по функции Чтобы применить теорему осталось заметить, что точности ε с вероятностью ≥ 1 − σ достаточно функция λ ω k , ζ – выпуклая по ζ для любого ω k , Θ M 2 ε −2 ln n + ln σ −1 итераций. Причем на каж- поэтому дой итерации мы за ln N можем случайно равномерно N N выбрать fk (x) и посчитать ее градиент. Другими сло- ∑λ ω k , xk − min ∑λ ω k , ζik ≤ i=1,...,n вами, параметр N входит в общее число вычислений k=1 k=1 градиентов функций fk (x) очень слабо: логарифми- N N ческим образом ln N. ∑ fk xk − min ∑ fk (x). k=1 x∈Sn (1) k=1 5. Оракульное неравенство для агрега- При этом оценка, даваемая теоремой, ции оценок r ln n ! O N Рассмотрим сначала задачу взвешивания экс- пертных решений [21]. Имеется n различных Экс- – также оптимальна для данного класса задач [21]. пертов. Каждый Эксперт играет на рынке. Игра по- Полезно, на наш взгляд, будет здесь упомянуть вторяется N 1 раз (это число может быть заранее другой способ (более типичный для данного класса неизвестно). Пусть lik – проигрыш Эксперта i на ша- приложений) получения аналогичного результата 5 , ге k ( lik ≤ M). На каждом шаге k мы распределя- не связанный на прямую со схемой вывода МЗС, но ем один доллар между Экспертами, согласно векто- фактически, приводящий к точно такому же алго- ру xk ∈ Sn (1). Потери, которые мы при этом несем, ритму [21]. Этот способ также весьма популярен в рассчитываются по потерям экспертов l k , xk . Це- статистической теории обучения [2]. лью является таким образом организовать процеду- N Введем обозначение LiN = ∑ λ ω k , ζik , L̃N = ру распределения доллара на каждом шаге, чтобы k=1 наши суммарные потери были бы минимальны. До- N ω k , xk , по определению считаем Li0 ≡ 0. Рас- пускается, что потери экспертов l k могут зависеть ∑λ k=1 еще и от текущего хода xk . Легко проверить, что для смотрим данной постановки применима теорема в детермини- ! рованном варианте с функциями n 1 n Wβ −LiN N D E i=1 = β ln ∑ exp −Li β ≥ n i=1 fk x; ξ k ≡ fk (x) = l k , x . 5 Максимум из независимых случайных величин, который сложно исследовать, заменяется (с хорошей точностью, кон- При этом оценка, даваемая теоремой, тролируемой малостью параметра β ) логарифмом от суммы ! экспонент от этих независимых случайных величин. А сумму независимых случайных величин (их экспонент) исследовать r ln n уже на много проще. В оптимизации эту процедуру называют O N сглаживанием [27]. 413
− min LiN − β ln n. мощность множества |H| = n. Качество оценки бу- i=1,...,n дем измерять квадратичным штрафом, что вполне С другой стороны, вводя дискретную случайную ве- естественно в виду нормальности шума [30] (верхний личину (с.в.) zk , имеющую (независящее ни от чего) индекс µ у математического ожидания означает, что распределение xk (рассчитанное также как и рань- математическое ожидание берется в предположении, ше исходя из МЗС, примененного к набору функ- что в схеме Yk = µk + σ ξk , k = 1, ..., N вектор {µk }Nk=1 ций { fk (x)}Nk=1 , определенных выше), можно заме- равен µ): тить, что 2 2 E µ µ̂ h − µ 2 = ∑Nk=1 1 − hk µk2 + σ 2 ∑Nk=1 hk . 2 n Wβ −LiN i=1 = (риск оценки µ̂ h ) N n on n on Для практики большой интерес представляют ∑ Wβ −Lik −Wβ −Lik−1 = случаи, когда множество H состоит из упорядочен- i=1 i=1 k=1 ных векторов (Кнайп [17]). Здесь мы не будем ни- N . −λ (ω k ,zk ) β как себя ограничивать предположениями о множе- β ∑ ln E z e . стве H. k=1 Построим несмещенную оценку этого риска, сле- Используя далее неравенство Хеффдинга [2] (для дуя Стейну, с.в. X ∈ [−M, M]) h i N 2 h k 2 2 k 2 R Y, µ̂ = ∑ 1 − h Yk + 2σ h − σ , M2 ln EX esX ≤ sEX (X) + s2 , k=1 2 h i 2 Получим E µ R Y, µ̂ h ≡ E µ µ̂ h − µ . 2 n Произведем в множестве H нумерацию элементов Wβ −LiN i=1 ≤ −L̃N + (2β )−1 M 2 N. H = {h1 , ..., hn }. Рассмотрим класс линейных оценок Таким образом, Немировского–Катони [23, 17]: µ̄ x (Y ) = ∑ xh µ̂ h (Y ), h∈H точнее N −1 2 L̃ ≤ min LiN + β ln n + (2β ) M N. n k oN i=1,...,n k µ̄ x (Y ) = µ̄kx (Y ) , µ̄kx (Y ) = ∑ xhk µ̂kh (Y ) . k=1 h∈H Минимизация правой части по β > 0 приводит нас к уже известному ответу. Аналогичные, но чуть бо- Обратим здесь внимание на отличие от классической лее тонкие рассуждения, позволяют избавиться от постановки – мы ищем на каждом шаге k свой xk , зависимости β от N, то есть сделать алгоритм адап- зависящий от истории наблюдений, в результате мы тивным. N получаем набор xk k=1 , но построить одну оценку x, Перейдем, наконец, к построению оракульного как-то сагрегировав этот набор – не удается, то есть неравенства с помощью агрегации оценок МЗС в за- этот набор и является ответом. Это “плата” за онлай- даче оценивания зашумленного вектора [17, 23, 20, новость. Положительным моментом здесь является 11, 6]. Рассматривается задача восстановления неиз- то, что МЗС “не боится”, что компоненты вектора µ вестного вектора по зашумленным данным (эти за- могут подбираться враждебно, т.е. зависеть от исто- дачи играют принципиально важную роль, в частно- рии наших действий и от реализаций Yk . Таким обра- сти, при оценивании функции регрессии с помощью зом, мы оказываемся в условиях предыдущей задачи сглаживающих сплайнов): с h i λ ω k , hi = E µ R Y, µ̂ hi = Yk = µk + σ ξk , k = 1, ..., N, 2 µ k 2 2 k 2 где ξk – независимые одинаково распределенные E 1 − hi Yk + 2σ hi − σ , стандартные нормальные с.в. ξk ∈ N (0, 1), σ – из- но в отличие от нее у нас нет возможности вычис- вестно, N – может быть заранее не известно, ве- лять λ ω k , hi . Есть возможность вычислять толь- личины {µk }Nk=1 – не известны. Мы хотим их оце- 2 нить по доступной для наблюдения выборке {Yk }Nk=1 . ко реализацию с.в. 1 − hki Yk2 + 2σ 2 hki − σ 2 , матема- тическое ожидание которой равно λ ω k , hi (выпи- Для этого предлагается использовать оценки вида: µ̂kh (Y ) = hkYk , hk ∈ {0, 1} (на самом деле, далее мы санная с.в. используется в МЗС в качестве стохасти- будем использоватьnтолько равномерную ограничен- ческого градиента). Это оговорка типична в теории k k N o статистического агрегирования оценок (см., напри- ность h ), где H = h k=1 – множество векторов N мер, [14]). Несложно проверить, что мы находимся в h = hk k=1 с компонентами 0 или 1, среди которых надо выбрать наиболее подходящий. Считаем, что условиях 1, 2, 3.а (с M = O max µk2 + σ 2 ), поэтому k=1,...,n 414
из теоремы имеем, что МЗС выдает после N итера- Именно задачу N ций такой набор xk k=1 , что (здесь математическое ожидание берется в том числе и по этому набору): ! 2 µ h √ min E ∑ xh µ̂ − µ E µ kµ̄ x − µk22 ≤ min E µ kµ̄ x − µk22 + 2M N ln n ≤ x∈Sn (1) h∈H 2 x∈Sn (1) √ 2 мы решаем МЗС. Но для этой задачи уже нет силь- ≤ min E µ µ̂ h − µ + 2M N ln n. h∈H 2 ной выпуклости, поэтому ничего лучшего чем то, N что было выписано, ожидать не приходится. Но ведь Если не брать математическое ожидание по xk k=1 , это произошло из-за подмены задачи. то можно выписать √ оценку типа (3), т.е. с сохране- Если бы мы изначально решали задачу min E µ kµ̄ x − µk22 ,6 то нием зависимости M N ln n точности оценки от N, n, x∈Sn (1) M. Экспоненциальной концентрации нет, потому что можно было пользоваться написанным в предыду- возникающие в оценках вероятностей больших укло- щем √ пункте, то есть фактически устранить фактор нений суммы (Yk )4 – не являются с.в. с экспоненци- N в выписанных оценках. Эта программа отча- альными и, тем более, субгауссовскими моментами сти реализована, и оракульные неравенства Леюнга– (условие 3.b). Более того, в данном случае и оценка Баррона √ и Голубева как раз не имеют этого факто- (4) может быть выписана аналогично, т.е. с точно- ра N. Правда, без оценок вероятностей больших стью до логарифмических факторов неравенства (3) уклонений, т.е. оракульные неравенства были выпи- и (4) для данной задачи будут выглядеть одинаково. саны в среднем. Отметим неравенство концентрации Выписанное неравенство по внешнему виду корня из риска, полученное для более узкого семей- отличается от известных оракульных неравенств ства упорядоченных оценок [12]. К сожалению, для Кнайпа [17], Леюнга–Баррона [20], Голубева [11, 6] нашего случая аналоги неравенств (3) и (4) уже бу- полученных для рассматриваемой здесь постановки дут существенным образом отличаться. Если в ана- задачи. Оно грубее отмеченных выше неравенств, но логе неравенства (3) будет (пусть не экспоненциаль- в общем случае оно правильно отражает то, как вхо- ная) концентрация (5), сохраняющая зависимость дит N (будет пояснено ниже), к тому же оно робаст- N −1 , то при попытке написать аналогичным обра- нее (верно при более общих предположениях). −1 −1/2 , т.е. зом неравенство√ (4) получаем, что N → N Полученное неравенство оказалось грубее по ря- имеет место N-концентрация. Понять это можно ду причин. Одна из причин (не самая главная): в до- следующим образом. Выбрав такой (учитывающий казательстве теоремы может накапливаться ошибка сильную выпуклость) способ агрегирования, мы до- из-за не точности верхней аппроксимации: бились малого смещения (bias), но не смогли суще- ственно уменьшить дисперсию (variance) оценки. И N γk2 µ 2 ∑ E ∇ f x k x k k ; ξ = если раньше смещение и среднеквадратичное √ откло- k=1 2αβk ∞ нение были одного порядка N, то теперь, добив- " 2 # шись того, что только смещения стало порядка ln N, N γk2 µ 2 E max 1 − hki Yk2 + 2σ 2 hki − σ 2 ≤ мы вынуждены √ обратить внимание на второе сла- ∑ k=1 2αβk гаемое порядка N, даваемое среднеквадратичным i=1,...,n отклонением. То есть в итоге получилось, что вы- Nγk2 M 2 игрыш от учета специфики постановки, если он и ∑ . k=1 2αβk будет, не сильно заметен. Другая (основная) причина в том, что мы разре- Авторы выражают благодарность В.В. Вьюгину, шили себе искать оценку в классе линейных оце- Г.К. Голубеву, О. Деволдеру, Г. Лугоши, А.В. Нази- нок, то есть, в действительности, целью являет- ну, А.С. Немировскому, Ю.Е. Нестерову, В.Г. Спо- ся найти решение сильно выпуклой (квадрат 2- койному, И.О. Толстихину, А.Б. Юдицкому, П. Рих- нормы — сильно выпуклая функция относительно тарику за ряд ценных замечаний. 1-нормы с константой сильной выпуклости 1/n) за- Работа выполнена при поддержке грантов РФ- x 2 дачи min E kµ̄ − µk2 , которую мы, пользуясь µ ФИ 14-01-00722-а; Лаборатории структурных мето- x∈Sn (1) свойством выпуклости квадрата 2-нормы, сводим к дов анализа данных в предсказательном моделиро- уже линейной задаче: вании грант правительства РФ дог. 11.G34.31.0073; ! гранта Президента РФ є МК-5285.2013.9. 2 µ x 2 µ h min E kµ̄ − µk2 ≤ min E ∑ xh µ̂ − µ = x∈Sn (1) x∈Sn (1) h∈H 2 6 Для данной постановки совершенно аналогичным обра- зом можно построить несмещенную оценку градиента риска, 2 подобно тому, как ранее строилась несмещенная оценка рис- min E µ µ̂ h − µ . ка. h∈H 2 415
Список литературы Statistics (1994), Vol. 22, pp. 835–866. [18] J. Konecny and P. Richtarik, Semi- stochastic gradient descent methods, 2013. [1] Назин А.В., Поляк Б.Т., Рандомизированный ал- http://arxiv.org/pdf/1312.1666v1.pdf горитм нахождения собственного вектора сто- [19] G. Lan, A. Nemirovski, and A. Shapiro, Validation хастической матрицы с применением к задаче analysis of mirror descent stochastic approximation PageRank, Автоматика и телемеханика (2011), №2, method. Mathematical Programming, 2011. C. 131–141. [20] G. Leung and A. Barron, Information theory and [2] S. Boucheron, G. Lugosi, and P. Massart, mixing least-squares regressions. IEEE Transactions on Concentration inequalities: A nonasymptotic theory of Information Theory (2006), Vol. 35, №8, pp. 3396–3410. independence, Oxford University Press, 2013. [21] G. Lugosi and N Cesa-Bianchi, Prediction, learning and [3] S. Bubeck, Introduction to online optimization. Lecture games. Cambridge University Press, New York, 2006. notes, 2011. [22] Y. Mansour, Algorithmic game theory and machine [4] S. Bubeck and N. Cesa-Bianchi, Regret analysis learning. Lecture notes, 2011. of stochastic and nonstochastic multi-armed bandit [23] A. Nemirovski, Topics in non-parametric statistics. problems. Foundation and Trends in Machine Learning Lectures Notes in Math. Springer-Verlag, Berlin, 2000. (2012), №5, pp. 1Џ–122. http://www.tau.ac.il/ mansour/advanced-agt+ml/ [5] O. Catoni, Statistical learning theory and stochastic [24] A. Nemirovski, A. Semenovich, and D.B. Yudin, optimization. Lectures Notes in Math. Springer-Verlag, Problem complexity and method efficiency in Berlin, 2004. optimization. Wiley, New York, 1983. [6] E. Chernousova, Yu. Golubev, and E. Krymova, [25] Y. Nesterov, Introductory Lectures on Convex Ordered smoothers with exponential weighting. Optimization: A Basic Course Applied Optimization. Electronic Journal of Statistics (2013), №7, pp. Springer, 2004. 2395–2419. [26] Y. Nesterov, Smooth minimization of non-smooth [7] O. Devolder, Stochastic first order methods in smooth function. Math. Program. Ser. A. (2005), Vol. 103, №1, convex optimization. CORE Discussion Paper (2011), pp. 127–152. Vol. 7. [27] Y. Nesterov, Primal-dual subgradient methods for [8] Y. M. Ermoliev,Methods of stochastic programming (In convex problems. Math. Program. Ser. B. (2009), Vol. Russian), Nauka, 1976. 120, pp. 261–283. [9] S. Ghadimi and G. Lan, Optimal stochastic [28] A. Rakhlin, O. Shamir, and K. Sridharan, Making approximation algorithms for strongly convex stochastic gradient descent optimal for strongly convex stochastic composite optimization, i: a generic algorithmic optimization. Edinburg, Scotland, UK, 2012. framework. SIAM Journal on Optimization (2012), http://arxiv.org/pdf/1109.5647.pdf Vol. 22, pp. 1469–1492. [29] A. Shapiro, D. Dentcheva, and A. Ruszczynski, Lecture [10] S. Ghadimi and G. Lan, Optimal stochastic on stochastic programming. Modeling and theory, MPS- approximation algorithms for strongly convex stochastic SIAM series on Optimization, 2009. composite optimization, ii: a generic algorithmic [30] V. Spokoiny, Basics of modern parametric statistics. framework. SIAM Journal on Optimization (2013), Springer, Berlin, in press, 2014. Vol. 23, pp. 2061–2089. [11] Yu. Golubev, Exponential weighting and oracle inequalities for projection estimates. Problems of Information Transmission (2012), Vol. 48 №3, pp. 269– 280. [12] Yu. Golubev and D. Ostrovsky, Concentration inequalities for the exponential weighting method Mathematical Methods of Statistics, in press. [13] A. Juditsky and Y. Nesterov, Primal-dual subgradient methods for minimizing uniformly convex functions, 2014. http://arxiv.org/abs/1401.1792 [14] A. Juditsky, A. Nazin, A. Tsybakov, and N. Vayatis, Recursive aggregation of estimators via the mirror descent algorithm with averaging. Problems of Information Transmission (2005), Vol. 41, №4, pp. 368Џ384. [15] A. Juditsky and A. Nemirovski, First order methods for nonsmooth convex large-scale optimization, I, II. Optimization for Machine Learning, MIT Press, 2012. [16] A. Juditsky, G. Lan, A. Nemirovski , and A. Shapiro, Stochastic approximation approach to stochastic programming. SIAM Journal on Optimization (2009), Vol. 19, №4, pp. 1574–1609. [17] A. Kneip, Ordered linear smoothers. Annals of 416
Вы также можете почитать