Стохастическая онлайн версия метода зеркального спуска и оракульные неравенства

Страница создана Александра Степанова
 
ПРОДОЛЖИТЬ ЧТЕНИЕ
Стохастическая онлайн версия метода зеркального спуска и
                       оракульные неравенства

             Крымова Е. А.                                              Гасников А. В.
 Институт проблем передачи информации                           Московский физико-технический
        им. А. А. Харкевича РАН                                           институт
     Московский физико-технический                                      gasnikov@ya.ru
               институт
          krymova@phystech.edu

                  Аннотация                                станта M, ограничивающая норму субградиента оп-
                                                           тимизируемой функции, и размер области R зависят
Данная работа посвящена стохастической онлайн              от выбора нормы в пространстве, в котором ведет-
версии метода зеркального спуска. Основная цель            ся оптимизация. Так, если мы выбрали норму в на-
состоит в том, чтобы показать, что стохастиче-             шем пространстве l p (1 ≤ p ≤ ∞),то M – есть сопря-
ская онлайн версия метода зеркального спуска мо-           женная lq -норма субградиента (1 p + 1 q = 1), а R2 –
жет быть использована для получения неравенств             есть «размер» области в «метрике» сильно выпуклой
для экспоненциальной агрегации оценок зашумлен-            относительно l p , с константой сильной выпуклости
ного вектора. Основная особенность используемо-            ≥ 1.1 Например, когда множества, на котором про-
го нами подхода состоит в том, что мы релакси-             исходит оптимизация является симплексом, то как
руем требование существования экспоненциальных             правило выбирают p = 1, а «метрику» задают рас-
моментов у рассматриваемых случайных величин,              стоянием Брэгмана (Кульбака–Лейблера). При этом
допускаем онлайн постановку, а также учитыва-              «проекция» субградиента на симплекс согласно та-
ем при этом сильную выпуклость структуры зада-             кому расстоянию считается по явным формулам. В
чи. Для стохастического онлайн сильно выпуклого            работе [14] была выдвинута гипотеза о том, что при-
случая в статье приводятся, по-видимому, новые             менительно к задачам стохастической оптимизации
оценки, которые далее используются в задаче оце-           на симплексе (не онлайн) такой выбор нормы и рас-
нивания зашумленного вектора.                              стояния являются наилучшими с точки зрения за-
                                                           висимости M 2 R2 от размера пространства n (в ти-
                                                           пичных приложениях эта зависимость ∼ ln n). Одна-
                                                           ко в определенных ситуациях (в задачах о многору-
1. Введение
                                                           ких бандитах, когда M 2 R2 ∼ n ln n) удается выиграть
                                                           логарифмический по n фактор, более подходящим
    В конце 70-х годов А.С. Немировским и Д.Б.
                                                           образом выбирая расстояние [3]. При этом теряется
Юдиным был предложен итерационный метод ре-
                                                           возможность явного вычисления проекции субгра-
шения негладких выпуклых задач оптимизации [24],
                                                           диента.
который можно интерпретировать как разновид-
                                                               В работах [1, 16] исследовались стохастические
ность метода проекции субградиента, когда проек-
                                                           (рандомизированные) версии МЗС, в том числе и
тирование понимается, например, в смысле рассто-
                                                           онлайн. При этом анализировалась ситуация, ко-
яния Брэгмана (Кульбака–Лейблера), или как пря-
                                                           гда именно градиент функции выдается оракулом со
модвойственный метод [26]. Этот метод, получивший
                                                           случайными шумами, но несмещенным образом. Та-
впоследствии название метода зеркального спуска
(МЗС), позволяет хорошо учитывать структуру мно-              1 Слово «размер» взято в кавычки, потому что в действи-
жества, на котором происходит оптимизация (напри-          тельности то, что задается, мы интерпретируем в данном
мер, симплекса). Как и многие другие методы реше-          контексте как квадрат размера (отсюда и обозначение R2 ),
ния негладких выпуклых оптимизационных      задач,         поскольку «метрика» сильно выпуклая относительно нашей
                                                           «рабочей» нормы в этом пространстве. Слово «метрика» взя-
этот метод требует O M 2 R2 ε 2 итераций, где ε –
                             
                                                           то в кавычки, потому что может быть не выполнено одно
точность найденного решения по функции, что со-            свойств метрики – нет симметричности, например, для рас-
ответствует нижним оценкам по ε [2]. Однако кон-           стояния (дивергенции) Брэгмана (Кульбака–Лейблера).

                                                     409
кая релаксация детерминированного МЗС оказалась
весьма полезной применительно к задачам адаптив-                                                       h         i     
ного агрегирования оценок [14], оптимизации в про-                             Eξ k ∇x fk x; ξ k − ∇x Eξ k fk x; ξ k    Ξk−1 ≡ 0,
странствах огромных размеров [1, 16], задачах о мно-
горуких бандитах и другие [21, 14, 22].                                     где Ξk−1 – σ -алгебра, порожденная случайны-
     В работе [24] была также отмечена возможность                          ми величинами ξ 1 , ..., ξ k−1 . Далее везде в ста-
онлайн интерпретации МЗС. Впоследствии, у раз-                              тье мы будем использовать обозначения обыч-
ных авторов можно найти заметки на эту тему                                 ного градиента для векторов, которые мы на-
[26, 3, 21, 22, 4]. Наблюдение состоит в том, что ниче-                     звали здесь субградиентами. В частности, ес-
го не изменится с точки зрения изучения сходимости                          ли мы имеем дело с обычным субградиентом,
метода (и его стохастической версии), если на каж-                          то запись ∇x fk x; ξ k в вычислительном контек-
дом шаге допускать, что функция меняется, причем,                           сте (например, в итерационной процедуре МЗС,
возможно, враждебным образом (при этом оставаясь                            описанной ниже) означает какой-то его элемент
в классе выпуклых функций с ограниченной нормой                             (неважно какой именно), а если в контексте про-
субградиента). В данной работе приводится версия                            верки условий     (например, в условии 3 ниже), то
                                                                            ∇x fk x; ξ k пробегает все элементы субградиента
                                                                                        
стохастического онлайн МЗС, которую можно бы-
ло встретить в упомянутой литературе, правда, в                             (говорят также, субдифференциала);
немного более частных ситуациях. Далее в статье
                                                                          3. ∇x fk x; ξ k ∞ ≤ M − (равномерно, с вероятно-
                                                                                          
демонстрируется, как можно использовать этот ме-
тод для получения оракульного неравенства с помо-                           стью 1) ограниченный субградиент. Для спра-
щью агрегации оценок в задаче оценивания зашум-                             ведливости части утверждений достаточно тре-
ленного вектора. Отчасти похожие постановки ранее                           бовать одно из следующих (более слабых) усло-
уже рассматривались, см., например, [14]. Отличие                           вий:
рассматриваемого нами случая от ранее изученных                                       h                2i
в том, что мы релаксируем требование существо-                               (a) Eξ k ∇x fk x; ξ k ∞ ≤ M 2 ;
вания экспоненциальных моментов у рассматрива-                                                              2
                                                                                                                     
емых случайных величин, допускаем онлайн поста-                                               k∇x fk (x;ξ k )k∞    k−1 ≤ exp (1).
                                                                             (b) Eξ k exp            M2
                                                                                                                  Ξ
новку, а также учитываем при этом сильную выпук-
лость структуры задачи. Для стохастического он-
                                                                              Онлайновость постановки задачи допускает, что
лайн сильно выпуклого случая в статье приводятся,
                                                                         на каждом шаге k функция fk может подбирать-
по-видимому, новые оценки, которые далее исполь-
                                                                         ся из рассматриваемого класса функций враждеб-
зуются в задаче оценивания зашумленного вектора.
                                                                         но по отношению к используемому             нами методу ге-
                                                                         нерации последовательности xk . В частности, fk
                                                                                                                
2. Онлайн МЗС со                      стохастическим                     может зависеть от x1 , ξ 1 ; ...; xk−1 , ξ k−1 ; xk , если вы-
                                                                                                    
   субградиентом                                                         бор   k
                                                                          1 x 1 осуществляется        исходя только из информации
                                                                          x , ξ ; ...; xk−1 , ξ k−1 , т.е. без дополнительной рандо-
   Рассмотрим задачу стохастической онлайн опти-                         мизации. Ситуации с дополнительной рандомизаци-
мизации2                                                                 ей при выборе xk в данной статье не рассматривают-
               1 N       h           i                                 ся.
                                    k
                     E
                 ∑ ξ k k  f    x; ξ      → min ,      (1)                     Можно обобщить приведенную постановку (опу-
               N k=1                      x∈Sn (1)
                                                                         стив первое слагаемое из суммы) и последующие ре-
                                       
                             n                                           зультаты на композитную минимизацию [26], при-
    Sn (1) = x ≥ 0 : ∑ xi = 1 , при следующих                            чем если функция, которая добавляется ко всем fk ,
                            i=1
условиях:                                                                – линейная, то мы даже можем не знать ее (просто
                                                                         знать, что она есть и одна и та же), тогда условие 3
 1. Eξ k fk x; ξ k
                  
                         − выпуклые функции (по x),
                                                                         переписывается в виде
    для этого     достаточно     выпуклости по x функций
     fk x; ξ k ;
              
                                                                                         ∀ x, y ∈ Sn (1) ; k, m ∈ N →
 2. Существует такой вектор ∇x fk x; ξ k , который
                                                   
                                                                                                
    для компактности будем называть субградиен-                                      ∇x fk x; ξ k − ∇x fm (y; ξ m )       ≤ M.
                                                                                                                      ∞
    том, хотя последнее верно не всегда, что
  2 Запись
                                                                         Выше мы исходили из того, что оптимизация ведет-
              Eξ k fk x; ξ k означает, что математическое ожи-
                           
                      k
                                                                         ся на единичном симплексе. Возникает резонный во-
дание берется по ξ , то есть x и fk понимаются в такой записи
не случайными. Отметим, что ξ k может зависеть от ξ 1 , . . . ,
                                                                         прос: насколько все, что приведено в статье, обоб-
ξ k−1 , а распределение ξ k может зависеть от x (многорукие бан-         щается на более общий случай? Собственно говоря,
диты). Слово “онлайн” будет пояснено немного позднее.                    ответ на этот вопрос частично известен уже давно

                                                                   410
fk ≡ f , ξ k – независимы и одинаково распределе-
                                                                                                
[24]. Приведенные в статье рассуждения универсаль-
ны, то есть если исходить из оптимизации на каком-                                      ны, как ξ ,
нибудь другом выпуклом компакте,3 то задав норму                                            "                !#                                 r
в прямом пространстве и расстояние (сильно выпук-                                                 1 N k                                           ln n
                                                                                          E f       ∑  x ; ξ    −  min     Eξ [ f (x; ξ )] ≤ 2M        .
лое относительно этой нормы), согласно которому                                                  N k=1            x∈Sn (1)                         N
будет осуществляться проектирование субградиента
                                                                                        Пусть справедливы условия 1, 2, 3, тогда 4 при Ω ≥ 0
на этот компакт, можно повторить аналогичные рас-
                                                                                        c вероятностью меньшей exp (−Ω) (по мере порож-
суждения [15].
                                                                                        денной x1 , . . . , xN ) выполняется

3. Алгоритм МЗС-адаптивный. Метод                                                         1 N       h             i            1 N         h        i
                                                                                            ∑   Eξ k fk xk ; ξ k − min              ∑    Eξ k fk x; ξ k ≥
   двойственных усреднений                                                               N k=1                          x∈Sn (1) N k=1

                                                                                                                 2M √           √ 
     Для решения задачи (1) воспользуемся адаптив-                                                              √        ln n + 8Ω
                                                                                                                   N
ным методом зеркального спуска (точнее двойствен-                                                k
                                                                                        fk ≡ f , ξ –независимы и одинаково распределены,
ных усреднений) в форме [26, 14]. Положим xi1 = 1 n,
                                                            
                                                                                        как ξ , то c вероятностью меньшей exp (−Ω) выпол-
i = 1, ..., n. Пусть t = 1, ..., N − 1.
                                                                                        няется
                                                                                                  "                   !#
                                      t ∂ f (xk ;ξ k )
                      exp − β 1 ∑ k ∂ xi                                                                     1 N k
                                 t+1
                                     k=1
                                                                                                 Eξ f           ∑ x ; ξ − x∈S
                                                                                                             N k=1
                                                                                                                                 min Eξ [ f (x; ξ )]
                                                                                                                                   n (1)
             xt+1
               i  = n      
                                        t ∂ f (xk ;ξ k )
                                                         ,
                                   1
                                                                                                                  2M √           √ 
                                             k
                    ∑ exp − βt+1 ∑             ∂ xl
                                                                                                                      
                      l=1                      k=1                                                            ≥√          ln n + 8Ω .
                                                                                                                    N
                                                   √
                                                 M t
                     i = 1, ..., n,         βt = √     .                                4. Не экспоненциальная концентра-
                                                  ln n
                                                                                           ция. Сильно выпуклый случай
Несложно показать, что этот метод представим так-
же в виде:                                                                                   В статье [16] для   задачи стохастической выпук-
                                                                                        лой оптимизации ( ξ k – независимые случайные
                     yk = yk−1 − γk ∇x fk xk ; ξ     k
                                                       
                                                              ,             (2)         величины) приводится оценка больших уклонений с
                     xk+1 = ∇Wβk+1 yk                                                   точностью до констант аналогичная оценке, приве-
                                                                                        денной в теореме. Аналогичная оценка приводится в
                                      M √
      y0 = 0,   γk ≡ 1,         βk = √     k,              k = 1, ..., N,               [16] и для случая, когда вместо условия 3 предпола-
                                      ln n                                              гается условие 3.b при этом в правой          части неравен-
                                                                                                                               √
где                                                                                     ства под вероятностью вместо Ω необходимо пи-
            Wβ (y) = sup {hy, xi − βV (x)} =                                            сать Ω (с точностью до констант). К сожалению, для
                             x∈Sn (1)                                                   онлайн     оптимизации, как правило, независимость
                                                                                         k
                                            !                                             ξ    место не имеет, поэтому получить аналогич-
                               1 n                                                    ные оценки не удается. Более того, если мы не дела-
                      β ln       ∑ exp yi β ,
                               n i=1                                                    ем никаких предположений относительно              распреде-
                 n
                                                                                        лений независимых случайных величин ξ k , кроме
V (x) = ln n + ∑ xi ln xi (прокси-функция).                                             1, 2 и существования первых трех        равномерно огра-
                i=1                                                                     ниченных моментов у ∇x fk xk ; ξ k , то из неравенства
    Рассуждая подобно [26], [14], [16], можно полу-                                     Маркова и первого неравенства в теореме (на мате-
чить следующий результат.                                                               матические ожидания) имеем: существует такая кон-
    Теорема. Пусть справедливы условия 1, 2, 3.а,                                       станта C > 0, что с вероятностью 1 − Ω−1
тогда
                                                                                            1 N       h 
                                                                                                           k k
                                                                                                                i            1 N        h 
                                                                                                                                                  k
                                                                                                                                                    i
                                                                                                  E
                                                                                              ∑ ξ k k  f x  ; ξ    −  min           E
                                                                                                                                ∑ ξ k  k  f  x; ξ
  1 N h  k k i             1 N       h        i                                         N k=1                    x∈Sn (1) N k=1
    ∑   E fk x ; ξ − min       ∑   Eξ k fk x; ξ k ≤
  N k=1             x∈Sn (1) N k=1                                                         4 Запись
                                                                                                         
                                                                                                             N
                                                                                                             1
                                                                                                            ∑ Eξ fk xk ; ξ k − ... ”
                                                                                                                           
                                        r                                                 “Px1 ,...,xN       N
                                            ln n                                                                 k=1
                                                                                            означает, что под вероятностью мы считаем математиче-
                                2M               .
                                             N                                          ское ожидание по ξ k , которое, вообще говоря, зависит и от
                                                                                        ξ 1 , ...., ξ k−1 (мы не предполагаем независимости ξ k ), как бы
  3 От условия компактности (ограниченности) множества                                  “замораживая” (считая не случайными) xk , то есть забывая
можно отказаться, поскольку, в действительности, в оценку                               про то, что xk тоже                        1    k−1
                                                                                                                 зависит от ξ , ...., ξ . А вероятность бе-
числа итераций входит не размер области, а «расстояние» от                              рется как раз по xk , с учетом того, что такая зависимость
точки старта до решения.                                                                есть (см. определение алгоритма МЗС).

                                                                                  411
r
                            ln n                                                               ln N ln (ln N)
                      ≤ CΩM      .                        (3)                        ≤ CΩM 2                  .        (5)
                             N                                                                      µN
Труднее обстоит дело, если мы хотим оценить                           То же самое здесь можно сказать и об оценке выра-
                                                                      жения (4).
      1 N  k k               1 N                
                                                                          Мы также не встречали никаких других версий
        ∑   fk x ; ξ − min       ∑   Eξ k fk x; ξ k ,     (4)
      N k=1           x∈Sn (1) N k=1                                  этого онлайн метода, кроме как с евклидовой струк-
                                                                      турой. Отметим, что при переходе к другой норме
        1 N  k k                 1 N  k                           отношение M 2 µ должно типично оставаться при-
          ∑   f k x ; ξ −  min       ∑ fk x; ξ .
        N k=1             x∈Sn (1) N k=1                              близительно неизменным (это несложное упражне-
Тем не менее, при дополнительных оговорках и та-                      ние). Также несложно показать, используя техни-
кие выражения можно вероятностно оценивать [4,                        ку работ [3, 13], что использование не евклидовой
19].                                                                  нормы kk p и прокси-функции (в предыдущим пунк-
     Естественно теперь задаться вопросом: а если о                   те p = 1, а прокси-функция – энтропия) приводит 
функциях fk что-то дополнительно известно, может                      к тому, что число итераций увеличится в κ = L α
ли это улучшить приведенные здесь оценки? Разбе-                      раз, где L –константа липшица градиента прокси-
рем ответ на этот вопрос. Можно показать, что пред-                   функции в p-норме, а α – константа сильной выпук-
положение о гладкости (липшицевость градиента) fk                     лости прокси-функции в p-норме. Несложно пока-
ничего дополнительно не дает в онлайн постановке                      зать (переходя к двойственной задаче для исходной
[21]. А если, скажем, известно, что fk – сильно вы-                   задачи оценки этого числа обусловленности κ), что κ
пуклые функции с константой сильной выпуклости                        оценивается квадратом евклидовой асферичности p-
µ? Рассмотрим сначала обычный (евклидовый) ме-                        нормы. Например, для 1-нормы κ ≥ n (изящное дока-
тод проекции градиента, который естественным об-                      зательство этого факта с помощью вероятностного
разом допускает стохастическую онлайн интерпре-                       метода имеется в работе [13]). Таким образом, пере-
тацию в сильно выпуклом случае [3, 22]. Если выби-                    ход к любой другой норме в онлайн случае в отличие
                                                                      от ситуации, рассмотренной в предыдущем пункте,
рать шаги в таком методе, как γk = (µk)−1 [3, 22],
                                                                      может только ухудшить скорость сходимости (уве-
то зависимость ожидаемой точности решения        (по                 личить число итераций). На это обстоятельство уже
функции) от числа итераций будет O M 2 ln N (µN) ,
                                                     
                                                                      обращали внимание ранее [13].
что (с точностью до ln N) соответствует нижней
                                                                          Если все-таки   дополнительно известно, что
оценке для  детерминированных не онлайн задач [24]                   функции fk xk ; ξ k имеют Липшицев градиент, а дис-
( fk x; ξ k ≡ f (x)). Если отказаться от онлайновости в
                                                                      персия fk x; ξ k мала, то на этом можно сыграть.
                                                                                      
стохастическом случае ( fk x; ξ k ≡ f x; ξk ), получа-
                                            
                                                                      Это принципиально не изменит приведенные выше
ется оценка ожидаемой точности O M 2 (µN) [15],
                                                  
                                                                      оценки, тем не менее, сделает их более точными для
[28]. В эту оценку добавляется слагаемое (при усло-
                                                                      такой ситуации [9, 10]. Аналогичная игра на глад-
виях 1 – 3)
                                                                      кости задачи и малости дисперсии стохастического
                O M 2 ln ln (N) σ (µN) ,
                                                                  градиента (в условиях не случайных шумов), но уже
                                                                      не в сильно выпуклом случае, разобрана в работе [7].
если мы хотим гарантировать, что метод ошибает-                           В заключение отметим, что если рассматривать
ся с вероятностью ≤ σ [15, 28]. В литературе мы не                    не онлайн и не стохастический случай (с фиксиро-
встречали вероятностного анализа этого онлайн ме-                     ванным известным заранее числом слагаемых N), то
тода с точки зрения больших уклонений.                                за счет специфики задачи с помощью специальной
    Впрочем, при естественных дополнительных                          (частичной) рандомизации можно достичь (с веро-
условиях 1 – 3 число итераций стохастического он-                     ятностью ≥ 1 − σ )q следующих оценок числа итера-
лайн метода (ошибающегося с вероятностью ≤ σ ) бу-                                           
                                                                      ций [18] (считаем L µ  N, иначе стоит восполь-
дет
                                                                      зоваться быстрым градиентным    методом
                                                                                                          q  Нестерова
           O M 2 ln N ln ln (N) σ (µN) .
                                   
                                                                                                                     
                                                                      (см., например, [25]) с оценкой O N L µ ln ε −1 ):
Более того, если мы не делаем никаких предположе-
                                                                          O N + L µ ln ε −1 + ln σ −1
                                                                                                     
ний относительно распределений независимых слу-                                                             − липшицев
чайных величин ξ k , кроме 1, 2 и существования                       градиент и сильная   выпуклость;
                                                                          O N + L ε ln ε −1 + ln σ −1
                                                                                                     
первых трех                                                                                                  − липшицев
               равномерно ограниченных моментов у
∇x fk xk ; ξ k , то аналогично написанному выше име-                  градиент.
ем: существует такая константа C > 0, что с вероят-                       При этом «стоимость» одной итерации опреде-
ностью 1 − Ω−1                                                        ляется затратами на «честный» (не рандомизиро-
                                                                      ванный) подсчет градиента fk (x). Отметим, что не
  1 N       h          i          1 N       h         i
                                                                      улучшаемые оценки вероятностей больших уклоне-
    ∑   Eξ k fk xk ; ξ k − min        ∑   Eξ k fk x; ξ k
  N k=1                    x∈Sn (1) N k=1                             ний здесь получаются из достаточно грубого нера-

                                                                412
венства Маркова, потому что имеет место линейная                        – оптимальна для данного класса задач [21].
сходимость, то есть зависимость числа итераций от                           Обобщим предыдущую задачу, считая потери
ε – логарифмическая.                                                    выпуклыми [21]. В условиях предыдущей задачи
    Полезно будет здесь напомнить довольно ста-                         предположим, что на k-м шаге i-й эксперт исполь-
рую идею [8, 29], которая используется определен-                       зует стратегию ζik ∈ ∆ (множество     ∆ – выпуклое),
                                                                        дающую потери λ ω k , ζik , где ω k – «ход», возмож-
                                                                                                 
ным образом в только что описанном подходе ра-
боты [18]. Рассматривается задача обычной (не он-                       но, враждебной «Природы», знающей, в том числе,
лайн) выпуклой (не обязательно сильно) оптимиза-                        и нашу текущую стратегию. Функция λ ( · ) – выпук-
ции (k∇ fk (x)k∞ ≤ M)                                                   лая по второму аргументу и |λ ( · )| ≤ M. На каждом
                                                                        шаге мы должны выбирать свою стратегию
                    1 N
                                                                                                          de f n
                      ∑ fk (x) → x∈S
                    N k=1
                                  min .
                                    n (1)
                                                                                                      x=     ∑ xi · ζik ∈ ∆,
                                                                                                             i=1
Идея заключается в том, чтобы переписать эту                                                              ω k, x
                                                                                                  
                                                                        дающую потери λ             так, чтобы наши суммар-
задачу как задачу стохастической оптимизации                            ные потери были минимальны. Для данной поста-
E f (x; ξ ) → min , где f (x; ξ ) = fk (x), k = 1, ..., N с             новки также применима теорема в детерминирован-
             x∈Sn (1)
                   
вероятностью 1 N. Несложно посчитать стохасти-                          ном варианте с
ческий субградиент      ∇ f (x; ξ ) = ∇ fk (x), k = 1, ..., N с                               n                        
                   
вероятностью 1 N. Причем k∇ f (x; ξ )k∞ ≤ M. Мож-                          fk x; ξ k ≡ fk (x) = ∑ xi λ ω k , ζik ≥ λ ω k , x .
                                                                                                              i=1
но далее применить теорему из предыдущего пунк-
та и заметить, что для достижения по функции                            Чтобы применить   теорему осталось заметить, что
точности ε с вероятностью            ≥ 1 − σ достаточно                 функция λ ω k , ζ – выпуклая по ζ для любого ω k ,
Θ M 2 ε −2 ln n + ln σ −1
                          
                              итераций. Причем на каж-                  поэтому
дой итерации мы за ln N можем случайно равномерно                                   N                                  N                
выбрать fk (x) и посчитать ее градиент. Другими сло-                               ∑λ       ω k , xk − min               ∑λ       ω k , ζik ≤
                                                                                                               i=1,...,n
вами, параметр N входит в общее число вычислений                                  k=1                                   k=1
градиентов функций fk (x) очень слабо: логарифми-                                           N                              N
ческим образом ln N.                                                                        ∑ fk       xk − min              ∑ fk (x).
                                                                                            k=1                     x∈Sn (1)
                                                                                                                           k=1
5. Оракульное неравенство для агрега-                                   При этом оценка, даваемая теоремой,
   ции оценок                                                                                 r
                                                                                                ln n
                                                                                                     !
                                                                                           O
                                                                                                 N
    Рассмотрим сначала задачу взвешивания экс-
пертных решений [21]. Имеется n различных Экс-                          – также оптимальна для данного класса задач [21].
пертов. Каждый Эксперт играет на рынке. Игра по-                            Полезно, на наш взгляд, будет здесь упомянуть
вторяется N  1 раз (это число может быть заранее                       другой способ (более типичный для данного класса
неизвестно). Пусть lik – проигрыш Эксперта i на ша-                     приложений) получения аналогичного результата 5 ,
ге k ( lik ≤ M). На каждом шаге k мы распределя-                        не связанный на прямую со схемой вывода МЗС, но
ем один доллар между Экспертами, согласно векто-                        фактически, приводящий к точно такому же алго-
ру xk ∈ Sn (1). Потери, которые мы при этом несем,                      ритму [21]. Этот способ также весьма популярен в
рассчитываются по потерям экспертов l k , xk . Це-                      статистической теории обучения [2].
лью является таким образом организовать процеду-                                                        N
                                                                            Введем обозначение LiN = ∑ λ ω k , ζik , L̃N =
                                                                                                                  
ру распределения доллара на каждом шаге, чтобы
                                                                                                                              k=1
наши суммарные потери были бы минимальны. До-                           N
                                                                               ω k , xk    , по определению считаем Li0 ≡ 0. Рас-
                                                                                          
пускается, что потери экспертов l k могут зависеть                       ∑λ
                                                                        k=1
еще и от текущего хода xk . Легко проверить, что для                    смотрим
данной постановки применима теорема в детермини-                                                                                      !
рованном варианте с функциями
                                                                                
                                                                                                n
                                                                                                                      1 n
                                                                              Wβ −LiN                                            N
                                                                                                                                    
                                 D       E
                                                                                                i=1
                                                                                                          = β ln         ∑ exp −Li β ≥
                                                                                                                       n i=1
               fk x; ξ k ≡ fk (x) = l k , x .                              5 Максимум из независимых случайных величин, который

                                                                        сложно исследовать, заменяется (с хорошей точностью, кон-
При этом оценка, даваемая теоремой,                                     тролируемой малостью параметра β ) логарифмом от суммы
                             !                                          экспонент от этих независимых случайных величин. А сумму
                                                                        независимых случайных величин (их экспонент) исследовать
                      r
                        ln n                                            уже на много проще. В оптимизации эту процедуру называют
                   O
                         N                                              сглаживанием [27].

                                                                  413
− min LiN − β ln n.                             мощность множества |H| = n. Качество оценки бу-
                             i=1,...,n
                                                                           дем измерять квадратичным штрафом, что вполне
С другой стороны, вводя дискретную случайную ве-                           естественно в виду нормальности шума [30] (верхний
личину (с.в.) zk , имеющую (независящее ни от чего)                        индекс µ у математического ожидания означает, что
распределение xk (рассчитанное также как и рань-                           математическое ожидание берется в предположении,
ше исходя из МЗС, примененного к набору функ-                              что в схеме Yk = µk + σ ξk , k = 1, ..., N вектор {µk }Nk=1
ций { fk (x)}Nk=1 , определенных выше), можно заме-                        равен µ):
                                                                                             
тить, что                                                                                2                  2
                                                                               E µ µ̂ h − µ 2 = ∑Nk=1 1 − hk µk2 + σ 2 ∑Nk=1 hk .
                                                                                                                                    2
                               n
                     Wβ −LiN i=1 =
                                                                           (риск оценки µ̂ h )
      N     n     on      n       on                                     Для практики большой интерес представляют
     ∑      Wβ −Lik      −Wβ   −Lik−1       =                              случаи, когда множество H состоит из упорядочен-
                                 i=1                           i=1
     k=1                                                                   ных векторов (Кнайп [17]). Здесь мы не будем ни-
                      N                    . 
                                −λ (ω k ,zk ) β
                                                                           как себя ограничивать предположениями о множе-
                 β   ∑ ln  E z e                 .                         стве H.
                     k=1                                                       Построим несмещенную оценку этого риска, сле-
Используя далее неравенство Хеффдинга [2] (для                             дуя Стейну,
с.в. X ∈ [−M, M])                                                                 h      i    N        2            
                                                                                       h               k    2  2 k   2
                                                                                R Y, µ̂ = ∑       1 − h Yk + 2σ h − σ ,
                                                          M2
                ln EX esX               ≤ sEX (X) + s2
                                  
                                                             ,                               k=1
                                                          2                                                                    
                                                                                         h       i                        2
Получим                                                                              E µ R Y, µ̂ h ≡ E µ   µ̂ h − µ                 .
                                                                                                                            2
                                 
                             n                                             Произведем в множестве H нумерацию элементов
           Wβ     −LiN       i=1
                                        ≤ −L̃N + (2β )−1 M 2 N.
                                                                           H = {h1 , ..., hn }. Рассмотрим класс линейных оценок
Таким образом,                                                             Немировского–Катони [23, 17]: µ̄ x (Y ) = ∑ xh µ̂ h (Y ),
                                                                                                                                h∈H
                                                                           точнее
            N                                          −1      2
           L̃ ≤ min              LiN   + β ln n + (2β )     M N.                          n k       oN
                     i=1,...,n                                                                                k
                                                                               µ̄ x (Y ) = µ̄kx (Y )   ,   µ̄kx (Y ) =   ∑ xhk µ̂kh (Y ) .
                                                                                                   k=1                   h∈H
Минимизация правой части по β > 0 приводит нас
к уже известному ответу. Аналогичные, но чуть бо-                          Обратим здесь внимание на отличие от классической
лее тонкие рассуждения, позволяют избавиться от                            постановки – мы ищем на каждом шаге k свой xk ,
зависимости β от N, то есть сделать алгоритм адап-                         зависящий от истории наблюдений, в результате мы
тивным.                                                                                     N
                                                                           получаем набор xk k=1 , но построить одну оценку x,
    Перейдем, наконец, к построению оракульного                            как-то сагрегировав этот набор – не удается, то есть
неравенства с помощью агрегации оценок МЗС в за-                           этот набор и является ответом. Это “плата” за онлай-
даче оценивания зашумленного вектора [17, 23, 20,                          новость. Положительным моментом здесь является
11, 6]. Рассматривается задача восстановления неиз-                        то, что МЗС “не боится”, что компоненты вектора µ
вестного вектора по зашумленным данным (эти за-                            могут подбираться враждебно, т.е. зависеть от исто-
дачи играют принципиально важную роль, в частно-                           рии наших действий и от реализаций Yk . Таким обра-
сти, при оценивании функции регрессии с помощью                            зом, мы оказываемся в условиях предыдущей задачи
сглаживающих сплайнов):                                                    с                             h      i
                                                                                        λ ω k , hi = E µ R Y, µ̂ hi =
                 Yk = µk + σ ξk ,             k = 1, ..., N,
                                                                                                  2                 
                                                                                      µ            k    2     2 k     2
где ξk – независимые одинаково распределенные                                       E      1 − hi Yk + 2σ hi − σ           ,
стандартные нормальные с.в. ξk ∈ N (0, 1), σ – из-
                                                                           но в отличие от нее у нас нет возможности вычис-
вестно, N – может быть заранее не известно, ве-
                                                                           лять λ ω k , hi . Есть возможность вычислять толь-
личины {µk }Nk=1 – не известны. Мы хотим их оце-                                                      2
нить по доступной для наблюдения выборке {Yk }Nk=1 .                       ко реализацию с.в. 1 − hki Yk2 + 2σ 2 hki − σ 2 , матема-
                                                                           тическое ожидание которой равно λ ω k , hi (выпи-
                                                                                                                            
Для этого предлагается использовать оценки вида:
µ̂kh (Y ) = hkYk , hk ∈ {0, 1} (на самом деле, далее мы                    санная с.в. используется в МЗС в качестве стохасти-
будем использоватьnтолько равномерную         ограничен-                   ческого градиента). Это оговорка типична в теории
           k
                          k N o                                           статистического агрегирования оценок (см., напри-
ность h ), где H = h k=1 – множество векторов
       N                                                                  мер, [14]). Несложно проверить, что мы находимся        в
h = hk k=1 с компонентами 0 или 1, среди которых
                                                                                                                      
надо выбрать наиболее подходящий. Считаем, что                             условиях 1, 2, 3.а (с M = O      max µk2 + σ 2 ), поэтому
                                                                                                           k=1,...,n

                                                                     414
из теоремы имеем, что МЗС выдает после N итера-                                 Именно задачу
                   N
ций такой набор xk k=1 , что (здесь математическое
ожидание берется в том числе и по этому набору):
                                                                                                                                  !
                                                                                                                              2
                                                                                                        µ              h
                                        √                                                 min E         ∑ xh     µ̂ − µ
E µ kµ̄ x − µk22 ≤ min E µ kµ̄ x − µk22 + 2M N ln n ≤                                        x∈Sn (1)       h∈H               2
                             x∈Sn (1)

                                                           √
                                                  
                                               2                                мы решаем МЗС. Но для этой задачи уже нет силь-
               ≤ min E µ          µ̂ h − µ             + 2M N ln n.
                      h∈H                      2                                ной выпуклости, поэтому ничего лучшего чем то,
                                                         N                     что было выписано, ожидать не приходится. Но ведь
Если не брать математическое ожидание по xk k=1 ,                               это произошло из-за подмены задачи.
то можно выписать √        оценку типа (3), т.е. с сохране-                                                       Если бы    мы
                                                                                изначально решали задачу min E µ kµ̄ x − µk22 ,6 то
нием зависимости M N ln n точности оценки от N, n,                                                                x∈Sn (1)
M. Экспоненциальной концентрации нет, потому что                                можно было пользоваться написанным в предыду-
возникающие в оценках вероятностей больших укло-                                щем
                                                                                √ пункте, то есть фактически устранить фактор
нений суммы (Yk )4 – не являются с.в. с экспоненци-                               N в выписанных оценках. Эта программа отча-
альными и, тем более, субгауссовскими моментами                                 сти реализована, и оракульные неравенства Леюнга–
(условие 3.b). Более того, в данном случае и оценка                             Баррона
                                                                                    √      и Голубева как раз не имеют этого факто-
(4) может быть выписана аналогично, т.е. с точно-                               ра N. Правда, без оценок вероятностей больших
стью до логарифмических факторов неравенства (3)                                уклонений, т.е. оракульные неравенства были выпи-
и (4) для данной задачи будут выглядеть одинаково.                              саны в среднем. Отметим неравенство концентрации
    Выписанное неравенство по внешнему виду                                     корня из риска, полученное для более узкого семей-
отличается от известных оракульных неравенств                                   ства упорядоченных оценок [12]. К сожалению, для
Кнайпа [17], Леюнга–Баррона [20], Голубева [11, 6]                              нашего случая аналоги неравенств (3) и (4) уже бу-
полученных для рассматриваемой здесь постановки                                 дут существенным образом отличаться. Если в ана-
задачи. Оно грубее отмеченных выше неравенств, но                               логе неравенства (3) будет (пусть не экспоненциаль-
в общем случае оно правильно отражает то, как вхо-                              ная) концентрация (5), сохраняющая зависимость
дит N (будет пояснено ниже), к тому же оно робаст-                              N −1 , то при попытке написать аналогичным обра-
нее (верно при более общих предположениях).                                                                          −1     −1/2 , т.е.
                                                                                зом неравенство√ (4) получаем, что N → N
    Полученное неравенство оказалось грубее по ря-                              имеет место N-концентрация. Понять это можно
ду причин. Одна из причин (не самая главная): в до-                             следующим образом. Выбрав такой (учитывающий
казательстве теоремы может накапливаться ошибка                                 сильную выпуклость) способ агрегирования, мы до-
из-за не точности верхней аппроксимации:                                        бились малого смещения (bias), но не смогли суще-
                                                                                ственно уменьшить дисперсию (variance) оценки. И
             N   γk2 µ
                                            2
            ∑           E      ∇  f
                                x k   x k k
                                         ; ξ        =                           если раньше смещение и среднеквадратичное
                                                                                                              √              откло-
           k=1 2αβk                            ∞                                нение были одного порядка N, то теперь, добив-
               "                                          2 #                  шись того, что только смещения стало порядка ln N,
  N    γk2 µ
                                  2
           E     max         1 − hki Yk2 + 2σ 2 hki − σ 2      ≤                мы вынуждены √    обратить внимание на второе сла-
  ∑
 k=1 2αβk                                                                       гаемое порядка N, даваемое среднеквадратичным
                i=1,...,n
                                                                                отклонением. То есть в итоге получилось, что вы-
                                      Nγk2 M 2                                  игрыш от учета специфики постановки, если он и
                                   ∑           .
                                   k=1 2αβk                                     будет, не сильно заметен.
Другая (основная) причина в том, что мы разре-                                      Авторы выражают благодарность В.В. Вьюгину,
шили себе искать оценку в классе линейных оце-                                  Г.К. Голубеву, О. Деволдеру, Г. Лугоши, А.В. Нази-
нок, то есть, в действительности, целью являет-                                 ну, А.С. Немировскому, Ю.Е. Нестерову, В.Г. Спо-
ся найти решение сильно выпуклой (квадрат 2-                                    койному, И.О. Толстихину, А.Б. Юдицкому, П. Рих-
нормы — сильно выпуклая функция относительно                                    тарику за ряд ценных замечаний.
1-нормы с константой
                    сильной
                            выпуклости 1/n) за-                                    Работа выполнена при поддержке грантов РФ-
                 x    2
дачи min E kµ̄ − µk2 , которую мы, пользуясь
            µ
                                                                                ФИ 14-01-00722-а; Лаборатории структурных мето-
           x∈Sn (1)
свойством выпуклости квадрата 2-нормы, сводим к                                 дов анализа данных в предсказательном моделиро-
уже линейной задаче:                                                            вании грант правительства РФ дог. 11.G34.31.0073;
                                             !                                  гранта Президента РФ є МК-5285.2013.9.
                                         2
       µ   x    2          µ         h
 min E kµ̄ − µk2 ≤ min E      ∑ xh µ̂ − µ =
x∈Sn (1)                                x∈Sn (1)         h∈H          2           6 Для данной постановки совершенно аналогичным обра-
                                                                              зом можно построить несмещенную оценку градиента риска,
                                                        2                       подобно тому, как ранее строилась несмещенная оценка рис-
                            min E µ        µ̂ h − µ             .               ка.
                            h∈H                         2

                                                                          415
Список литературы                                                         Statistics (1994), Vol. 22, pp. 835–866.
                                                                     [18] J.     Konecny      and      P.     Richtarik,   Semi-
                                                                          stochastic    gradient     descent    methods,   2013.
 [1] Назин А.В., Поляк Б.Т., Рандомизированный ал-                        http://arxiv.org/pdf/1312.1666v1.pdf
     горитм нахождения собственного вектора сто-                     [19] G. Lan, A. Nemirovski, and A. Shapiro, Validation
     хастической матрицы с применением к задаче                           analysis of mirror descent stochastic approximation
     PageRank, Автоматика и телемеханика (2011), №2,                      method. Mathematical Programming, 2011.
     C. 131–141.                                                     [20] G. Leung and A. Barron, Information theory and
 [2] S. Boucheron, G. Lugosi, and P. Massart,                             mixing least-squares regressions. IEEE Transactions on
     Concentration inequalities: A nonasymptotic theory of                Information Theory (2006), Vol. 35, №8, pp. 3396–3410.
     independence, Oxford University Press, 2013.                    [21] G. Lugosi and N Cesa-Bianchi, Prediction, learning and
 [3] S. Bubeck, Introduction to online optimization. Lecture              games. Cambridge University Press, New York, 2006.
     notes, 2011.                                                    [22] Y. Mansour, Algorithmic game theory and machine
 [4] S. Bubeck and N. Cesa-Bianchi, Regret analysis                       learning. Lecture notes, 2011.
     of stochastic and nonstochastic multi-armed bandit              [23] A. Nemirovski, Topics in non-parametric statistics.
     problems. Foundation and Trends in Machine Learning                  Lectures Notes in Math. Springer-Verlag, Berlin, 2000.
     (2012), №5, pp. 1Џ–122.                                              http://www.tau.ac.il/ mansour/advanced-agt+ml/
 [5] O. Catoni, Statistical learning theory and stochastic           [24] A. Nemirovski, A. Semenovich, and D.B. Yudin,
     optimization. Lectures Notes in Math. Springer-Verlag,               Problem complexity and method efficiency in
     Berlin, 2004.                                                        optimization. Wiley, New York, 1983.
 [6] E. Chernousova, Yu. Golubev, and E. Krymova,                    [25] Y. Nesterov, Introductory Lectures on Convex
     Ordered smoothers with exponential weighting.                        Optimization: A Basic Course Applied Optimization.
     Electronic Journal of Statistics (2013), №7, pp.                     Springer, 2004.
     2395–2419.                                                      [26] Y. Nesterov, Smooth minimization of non-smooth
 [7] O. Devolder, Stochastic first order methods in smooth                function. Math. Program. Ser. A. (2005), Vol. 103, №1,
     convex optimization. CORE Discussion Paper (2011),                   pp. 127–152.
     Vol. 7.                                                         [27] Y. Nesterov, Primal-dual subgradient methods for
 [8] Y. M. Ermoliev,Methods of stochastic programming (In                 convex problems. Math. Program. Ser. B. (2009), Vol.
     Russian), Nauka, 1976.                                               120, pp. 261–283.
 [9] S. Ghadimi and G. Lan, Optimal stochastic                       [28] A. Rakhlin, O. Shamir, and K. Sridharan, Making
     approximation algorithms for strongly convex stochastic              gradient descent optimal for strongly convex stochastic
     composite optimization, i: a generic algorithmic                     optimization. Edinburg, Scotland, UK, 2012.
     framework. SIAM Journal on Optimization (2012),                      http://arxiv.org/pdf/1109.5647.pdf
     Vol. 22, pp. 1469–1492.                                         [29] A. Shapiro, D. Dentcheva, and A. Ruszczynski, Lecture
[10] S. Ghadimi and G. Lan, Optimal stochastic                            on stochastic programming. Modeling and theory, MPS-
     approximation algorithms for strongly convex stochastic              SIAM series on Optimization, 2009.
     composite optimization, ii: a generic algorithmic               [30] V. Spokoiny, Basics of modern parametric statistics.
     framework. SIAM Journal on Optimization (2013),                      Springer, Berlin, in press, 2014.
     Vol. 23, pp. 2061–2089.
[11] Yu. Golubev, Exponential weighting and oracle
     inequalities for projection estimates. Problems of
     Information Transmission (2012), Vol. 48 №3, pp. 269–
     280.
[12] Yu. Golubev and D. Ostrovsky, Concentration
     inequalities for the exponential weighting method
     Mathematical Methods of Statistics, in press.
[13] A. Juditsky and Y. Nesterov, Primal-dual subgradient
     methods for minimizing uniformly convex functions,
     2014. http://arxiv.org/abs/1401.1792
[14] A. Juditsky, A. Nazin, A. Tsybakov, and N. Vayatis,
     Recursive aggregation of estimators via the mirror
     descent algorithm with averaging. Problems of
     Information Transmission (2005), Vol. 41, №4, pp.
     368Џ384.
[15] A. Juditsky and A. Nemirovski, First order methods
     for nonsmooth convex large-scale optimization, I, II.
     Optimization for Machine Learning, MIT Press, 2012.
[16] A. Juditsky, G. Lan, A. Nemirovski , and A. Shapiro,
     Stochastic approximation approach to stochastic
     programming. SIAM Journal on Optimization (2009),
     Vol. 19, №4, pp. 1574–1609.
[17] A. Kneip, Ordered linear smoothers. Annals of

                                                               416
Вы также можете почитать