Главная / Алгоритмы и дискретные структуры / Алгоритмы интеллектуальной обработки больших объемов данных

Алгоритмы интеллектуальной обработки больших объемов данных - ответы на тесты Интуит

Правильные ответы выделены зелёным цветом.
Все ответы: В курсе изучаются подходы к решению задач Data Mining, основанных на алгоритмах машинного обучения.
Смотрите также:
Михаил получает на электронную почту в среднем 1000 писем в месяц, из них 2,44% - это спам. Известно, что среди спама слово "знакомство" встречается в 0,01% писем, а среди обычных писем в 10 раз реже. Какова вероятность того, что письмо, попавшее на почтовый ящик Михаила, в тексте которого встречается указанное слово, не является спамом? (Ответ укажите в целых процентах без знака процента.)
80
Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Функция потерь определяется числом неправильно классифицированных вершин с учетом их веса. В результате применения алгоритма AdaBoost были построены три модели со следующими разделяющими границами: (1) прямая, проходящая через точки (1/2;0) и (0;1/2), (2) прямая, проходящая через точки (1/2;1) и (1;1/2), (3) прямая, проходящая через точки (1/2;1) и (0;1/2). Изначально веса вершин одинаковы и равны 1/4, далее они пересчитываются в соответствии с алгоритмом. Укажите получившиеся веса первой, второй и третьей модели соответственно:
(1) 1/3, 1/5, 1/7
(2) log 3, log 5, log 7
(3) 3,5,7
(4) 1/3, 1/5, 1/8
(5) log 3, log 5, log 8
(6) 3,5,8
Укажите минимальное количество скрытых слоев многослойного персептрона и нейронов в них, которое достаточно для построения равномерной аппроксимации с заданной точностью для любого обучающего множества, представленного набором m>1 входов и желаемого отклика f.
(1) 1 слой, m нейронов
(2) 1 слой, m^2 нейронов
(3) 1 слой, количество нейронов не известно
(4) m слоев, 1 нейрон в каждом
(5) m слоев, m нейронов в каждом
(6) m слоев, m^2 нейронов в каждом
Дан отрезок, четко "раскрашенный" слева на 4/7 черным цветом, а справа на 3/7 – белым, что можно представить в виде вектора (1;1;1;1;-1;-1;-1). Чтобы запомнить этот "правильный" образ, обучается нейронная сеть Хопфилда с семью нейронами (возможные состояния нейронов 1/-1, порог нулевой), где указанный вектор подается как образец (обучающий пример). В качестве тестового образца подадим на вход обученной нейронной сети черно-белый отрезок с "размытой" границей (1;1;1;-1;1;-1;-1). Проверьте, сможет ли обученная нейронная сеть проигнорировать испорченный участок и восстановить исходный отрезок:
(1) Да, на выходе мы получим неискаженный вектор (1;1;1;1;-1;-1;-1)
(2) Нет, на выходе мы получим искаженный вектор (1;1;1;-1;1;-1;-1)
(3) Нет, на выходе мы получим искаженный вектор (1;1;1;-1;-1;-1;-1)
(4) Нет, на выходе мы получим искаженный вектор (1;1;1;-1;1;1;-1)
(5) Нет, на выходе мы получим искаженный вектор (1;1;1;1;-1;1;-1)
(6) Нет, на выходе мы получим искаженный вектор (1;1;1;1;1;-1;-1)
Рассмотрим многослойный персептрон, состоящий из вытянутых в линейную цепочку 10 нейронов (один из них входной, один выходной, а 8 образуют 8 скрытых слоев). Для коррекции весов используется алгоритм обратного распространения ошибки (back propagation). Функция ошибки среднеквадратическая. Значения весов и ошибка на выходе не превышают по модулю единицы. Выберите, при каких значениях сигнала на входе градиент на входе может превысить 0,0001.
(1) 1
(2) 2,5
(3) 25
(4) 100
(5) 125
(6) 225
(7) 250
N-мерное нормальное распределение имеет количество параметров порядка
(1) ln(N)
(2) N
(3) N*ln(N)
(4) N^2
(5) N^3
На электронную почту пришло письмо. Пусть X – бинарный признак, указывающий, содержит входящее письмо сочетание слов "вам оставили наследство" (=1), или нет(=0), а Y – класс письма, указывающий, спам это (=1), или нет (=0). Известно, что P(Y=1)=0,05, P(X=1|Y=1)=0,0001, P(X=1|Y=0)=0,00001, и в письме присутствует указанное словосочетание. Каким решающим правилом нужно воспользоваться – максимального правдоподобия (ML) или апостериорного максимума (MAP), чтобы определить, пришедшее письмо – спам или нет:
(1) ML: письмо не спам.
(2) ML: письмо - спам.
(3) MAP: письмо не спам.
(4) MAP: письмо - спам.
(5) Ни ML, ни MAP применить нельзя.
В городе N живет 1000 человек, из них 100 мошенников. За год осудили за мошенничество 80 человек, из них на самом деле реальных мошенников было 70 человек. Вычислите следующие три метрики качества борьбы с мошенничеством в городе N: верность (accuracy), полноту (recall) и точность (precision). В качестве ответа напишите среднее арифметическое трех указанных метрик с точностью до трех знаков после запятой:
0,845
В некотором языке четвертое по частоте использования слово встречается в два раза реже второго по частоте, а третье по частоте использования имеет частоту, на 0,04 меньше первого по частоте. Используя закон Ципфа (Zipf’s law), вычислите частоту использования десятого по частоте использования слова с точностью до трех знаков после запятой:
0,006
Для 9 значений количественного признака X 0; 1; 2; 3; 4; 5; 6; 7; 8 даны соответствующие значения Y: 4,06; 3,05; 3,93; 6,96; 12,05; 18,92; 28,03; 39,02; 51,98. Найдите линейную регрессию с базисными функциями 1, x, x^2 и квадратичной функцией потерь, применяя регуляризацию с коэффициентом 0,01 и q=2 (ridge регрессия). В качестве ответа напишите получившийся вес при базисной функции x^2 с точностью до одного знака после запятой:
1,0
Даны три обучающих примера (x1,x2): (0;4), (0;-4), (4;-4), первый относится к классу "1", второй и третий – к классу "-1". Постройте решающую границу методом опорных векторов (SVM). В качестве тестовых возьмите примеры A(-1;-1), B(-1;1), C(1;1), D(1;-1), первые два относятся к классу "-1", вторые два – к "1". Укажите, какие тестовые примеры подтверждают решающую границу.
(1) A, B
(2) C, D
(3) A, C
(4) B, D
(5) B, C
(6) A, D
Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8). В результате применения метода главных компонент исходное пространство признаков свели к двумерному пространству признаков на плоскости. Какую часть общей дисперсии сохранило редуцированное пространство? Ответ укажите с точностью до трех знаков после запятой:
0,974
Для 10 значений количественного признака X 1; 2; 3; 4; 5; 6; 7; 8; 9; 10 даны соответствующие значения Y: 2,5; 3,1; 0,4; -2,3; -3,2; -0,8; 2,0; 3,0; 1,2; -2,0. Функция регрессии ищется в виде Y=A*sin(X), A=3,174 (квадратичная функция потерь). Для более стабильного результата был применен алгоритм бэггинга (bagging). С помощью датчика случайных чисел были сделаны четыре выборки из указанных 10 примеров с возвращением (указаны только значения X): {1; 1; 2; 3; 4; 6; 8; 8; 10; 10}, {2; 2; 3; 4; 5; 7; 7; 8; 9; 10}, {1; 3; 3; 3; 6; 6; 7; 8; 8; 9}, {4; 4; 4; 5; 5; 5; 6; 9; 9; 9}. Для каждой из четырех выборок вычислите коэффициент A при sin (X) с квадратичной функцией потерь. В качестве ответа укажите среднее арифметическое этих четырех значений с точностью до двух знаков после запятой.
3,14
Дома на четной стороне улицы имеют номера 2, 4, 6, … . Номер дома – это признак:
(1) Бинарный
(2) Номинальный
(3) Порядковый
(4) Количественный
(5) Нет правильного ответа
Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Применим алгоритм градиентного бустинга (gradient boosting) с функцией потерь L(y,h)=(1/2)*(y-h)^2. Очевидно, h0(x)=const=0. Далее, выбираем в качестве a1 функцию, равную -1 левее разделяющей границы, проходящей через точки (1/2;0) и (0;1/2), и 1 в противном случае. Найдите b1 – вес функции a1 с точностью до одного знака после запятой.
0,5
Нейрон i получает входной сигнал только от трех других нейронов с выходными сигналами 1, 2, -3 по связям с весами 0,3, 0,4, 0,5 соответственно. Смещение нейрона i равно 0,2. Функция активации нейрона i – логистическая функция с параметром a=1. Найдите выходной сигнал нейрона i с точностью до двух знаков после запятой.
0,45
Имеется стохастическая нейронная сеть машина Больцмана (Boltzmann machine - BM) с возможными состояниями нейронов 1/0. В некоторый фиксированный момент рассмотрим нейрон из скрытого слоя i, связанный только с нейронами i1, i2, i3, имеющими состояния 1, 1, 0 соответственно. Веса связей нейрона i с нейронами i1, i2, i3 равны 0,4, -0,3, 0,2 соответственно. Смещение нейрона i равно 0,5. Найдите, во сколько раз вероятность включения нейрона i P(i=1) выше при температуре T=1, чем при температуре T=10. Ответ укажите с точностью до двух знаков после запятой:
1,25
Сколько слоев может обработать одна ограниченная машина Больцмана (restricted Boltzmann machine - RBM)?
(1) 1
(2) 2
(3) 3
(4) Не больше 4, иначе сеть станет неустойчивой
(5) Зависит от числа нейронов в каждом слое
(6) Нет ограничений
Суть алгоритма Expectation-Maximization:
(1) Выбор вектора параметров для максимизации функции правдоподобия, соответствующей семейству параметрических моделей.
(2) Максимизация математического ожидания многомерного нормального распределения с неизвестными параметрами.
(3) Присваивание ожидаемых значений скрытым переменным на основании текущих оценок параметров и переоценка этих параметров с учетом обновленных ожидаемых значений.
(4) Вычисление математического ожидания максимума функции правдоподобия, построенной на входной выборке.
(5) Нет правильного ответа.
На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации. Расстояние между кластерами определите как полную связь (complete linkage). Определите точку, объединившуюся последней:
(1) A
(2) B
(3) C
(4) D
(5) E
(6) F
Дана случайная величина X, принимающая 2 значения с равными вероятностями 1/2 и случайная величина Y, принимающая 8 значений с равными вероятностями 1/8. Вычислите разность между энтропией случайной величины Y и энтропией случайной величины X с точностью до целых:
2
В документе d слово "кластер" встречается с частотой TF("кластер",d)=0,0125. Мы имеем возможность программным образом изучить миллион документов, и выяснить, что указанное слово встречается только в 100 из них. Вычислите TF-IDF слова "кластер" в документе d с точностью до двух знаков после запятой:
0,05
Имеются бактерии с двумя количественными признаками x1, x2, строится логистическая регрессия для определения вероятности, с которой бактерии относятся к одному из двух классов (видов) - y1 или y2. Предполагается нормальное распределение условных вероятностей, соответственно модель получается линейной, и p(y1|x)=1/(1+exp(-(w1*x1+w2*x2+w0))). В результате обучения были найдены следующие значения: w0=1, w1=3, w2=-4. Найдите, с какой вероятностью бактерия с признаками x1=1, x2=1 относится ко второму классу. Ответ укажите с точностью до одного знака после запятой:
0,5
Даны 6 обучающих примеров (x1,x2): (3;2), (2;6), (4;8), (3;6), (6;2), (6;4), первые три относятся к классу "1", оставшиеся – к классу "-1". Постройте решающую границу методом опорных векторов (SVM) со смягчением границ с константой регуляризации С=0,5. В качестве ответа укажите вторую компоненту получившегося вектора весов с точностью до трех знаков после запятой:
0,125
Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8). В результате применения метода главных компонент исходное пространство признаков свели к двумерному пространству признаков на плоскости. Найдите евклидово расстояние между примерами C и D в редуцированном пространстве с точностью до одного знака после запятой:
1,3
Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8), при этом известно, что первый и третий примеры относятся к классу "1", а второй и четвертый – к классу "0". Для обучения на данных примерах применяется метод случайных подпространств (RSM, random subspace method). Случайным образом были выбраны 5 различных двумерных наборов признаков: (1;4;-), (2;-;6), (-;3;8), (2;4;-), (2;-;8). Принадлежность к классу определяется голосованием – числом наборов, которые относят тот или иной пример к определенному классу. Сколько наборов относят тестовый пример E(2;4;6) к классу "0"? (Напишите ответ в виде целого числа.)
2
Какому этапу CRISP-DM соответствует Exploratory data analysis:
(1) Business Understanding
(2) Data Understanding
(3) Data Preparation
(4) Modeling
(5) Evaluation
(6) Deployment
Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Применим алгоритм градиентного бустинга (gradient boosting) с функцией потерь L(y,h)=ln(1+exp(-2*y*h)). Очевидно, h0(x)=const=0. Далее, выбираем в качестве a1 функцию, равную -1 левее разделяющей границы, проходящей через точки (1/2;0) и (0;1/2), и 1 в противном случае. Найдите итоговый коэффициент перед функцией a1 с учетом коэффициента регуляризации (shrinkage) 0,55.
(1) 0,1
(2) 0,3
(3) 0,5
(4) 1,0
(5) 1,5
(6) 2,0
Нейрон i в скрытом слое получает входной сигнал только от трех других нейронов i1, i2, i3 с выходными сигналами 1, 2, -3 по связям с весами 0,3, 0,4, 0,5 соответственно и по связи с весом 0,5 отдает выходной сигнал только нейрону j в выходном слое с выходным сигналом 0,8. Смещение нейронов равно нулю. Функция активации у всех нейронов – логистическая функция с параметром a=1. Желаемый отклик нейрона j равен 0,7. Пользуясь алгоритмом обратного распространения ошибки (back propagation) – градиентного спуска с параметром скорости обучения 0,5 и с функцией стоимости в виде среднеквадратичной ошибки, найдите вес связи между нейронами i3 и i после первой итерации с точностью до трех знаков после запятой.
0,503
Имеется стохастическая нейронная сеть ограниченная машина Больцмана (restricted Boltzmann machine - RBM) с возможными состояниями нейронов 1/0. Рассмотрим видимый нейрон i с состоянием Vi и скрытый нейрон j с состоянием Hj. Для определения изменения весов применим алгоритм Contrastive Divergence. Найдено следующее соответствие состояний нейронов для 6 моментов времени. t=0: Vi=0, Hj=1; t=1: Vi=1, Hj=1; t=2: Vi=0, Hj=1; t=3: Vi=1, Hj=1; t=4: Vi=0, Hj=0; t=5: Vi=1, Hj=1. Постройте 2 статистики для вычисления математических ожиданий произведений состояний нейронов i и j: одна из них (позитивная фаза) является средним из 6 чисел, другая (негативная фаза) - из 5. Найдите величину необходимого изменения веса связи между нейронами i и j, если параметр скорости обучения равен 0,4. Ответ укажите с точностью до двух знаков после запятой:
0,04
Выберите верные утверждения:
(1) Multimodal Deep Boltzmann machine моделирует совместное распределение изображения и текста
(2) Convolutional neural network применяется для распознавания изображений
(3) Deep autoencoder бинарным образом кодирует изображения
(4) Deep discriminative restricted Boltzmann machine ставит метки в соответствие изображениям
(5) Deep directed network легко обучаема
(6) Recurrent neural network применяется для распознавания голоса
На плоскости даны 8 точек с координатами A(1;1), B(2;2), C(2;4), D(3;3), E(4;2), F(4;4), G(5;5), H(6;6). Изначально центроиды находятся в точках (1;3), (6;4). Применив алгоритм 2-средних с евклидовой метрикой, определите точки, принадлежащие тому же кластеру, что и точка A, при достижении стационарного состояния.
(1) Кроме A точек нет
(2) A, B
(3) A, B, C
(4) A, B, C, D
(5) A, B, C, D, E
(6) A, B, C, D, E, F
На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации вплоть до момента, когда сформируются два кластера (два кластера объединять в один уже не нужно). Расстояние между кластерами определите как полную связь (complete linkage). Вычислите средний силуэт (silhouette) для всех 6 точек, используя евклидову метрику, с точностью до одного знака после запятой:
0,5
Дано исследование самоощущения собственного материального положения среди 200 человек. 100 из них оценили свое материальное положение как "ниже среднего" ("нс"), другие 100 - как "выше среднего" ("вс"). Также эти 200 человек ответили на вопросы о наличии у них дачи, автомобиля и детей. Дача – есть/нет. Дача есть: "нс" - 35 человек, "вс" – 75 человек. Автомобиль – есть/нет. Автомобиль есть: "нс" – 20 человек, "вс" – 70 человек. Дети - нет/1/больше 1. Нет детей: "нс" - 20 человек, "вс" – 40 человек; 1 ребенок: "нс" – 50 человек, "вс" – 50 человек. Требуется построить дерево по алгоритму CART, нечистота (impurity) вычисляется по Джини. Расположите признаки в порядке убывания по качеству разбиения в корне дерева:
(1) Дача, автомобиль, дети
(2) Дача, дети, автомобиль
(3) Автомобиль, дача, дети
(4) Автомобиль, дети, дача
(5) Дети, дача, автомобиль
(6) Дети, автомобиль, дача
На электронную почту пришло два подозрительных письма, одно из них (A) содержало слово "лотерея", второе (B) – слова "лекарство" и "похудение". Дано, что спам составляет 3% писем, доля писем, где встречается слово "лотерея": спам - 0,04%, не спам – 0,01%; слово "лекарство": спам - 0,02%, не спам – 0,01%; слово "похудение": спам - 0,01%, не спам - 0,0005%. Пользуясь наивным байесовским классификатором (Naive Bayes) с правдоподобием Бернулли (BernoulliNB), определить, какие из полученных писем являются спамом.
(1) Только A.
(2) Только B.
(3) A и B.
(4) Не A и не B.
Уравнение разделяющей гиперплоскости в пятимерном пространстве признаков имеет вид: x1+2*x2+3*x3+4*x4+5*x5=6. Найдите евклидово расстояние от разделяющей гиперплоскости до начала координат. Ответ укажите с точностью до одного знака после запятой:
0,8
Рассмотрим полиномиальное ядро второй степени с константой и двумерное пространство входов. Сколько измерений в результирующем пространстве признаков, суммарно линейных и квадратичных? (Напишите ответ в виде целого числа.)
6
Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8), при этом известно, что первый и третий примеры относятся к классу "1", а второй и четвертый – к классу "0". Проведите процедуру отбора признаков (feature selection) методом minimum redundancy maximum relevance (mRMR), используя логарифм по основанию 2. Укажите, какие признаки нужно оставить:
(1) Все три
(2) Первый и второй
(3) Первый и третий
(4) Второй и третий
(5) Только первый
(6) Только второй
(7) Только третий
Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8), при этом известно, что первый и третий примеры относятся к классу "1", а второй и четвертый – к классу "0". Для обучения на данных примерах применяется алгоритм случайный лес (random forest). Случайным образом были выбраны 5 наборов примеров и признаков: (1) пример 1 (признаки 1,2) + пример 2 (признаки 1,3); (2) пример 3 (признаки 2,3) + пример 4 (признак 1); (3) пример 2 (признаки 1,2,3) + пример 3 (признак 1); (4) пример 1 (признаки 1,3) + пример 2 (признак 1) + пример 3 (признак 3); (5) пример 1 (признаки 2,3) + пример 4 (признаки 2,3). Для этих пяти наборов были построены соответственно пять деревьев по алгоритму CART, нечистота (impurity) вычислялась по Джини. Принадлежность к классу определяется голосованием – числом деревьев, которые отнесли тот или иной пример к определенному классу. Сколько деревьев отнесут тестовый пример F(2;3;6) к классу "0"? (Напишите ответ в виде целого числа.)
3
Выберите лишний этап методологии CRISP-DM:
(1) Понимание бизнес-целей
(2) Понимание данных
(3) Подготовка данных
(4) Обучение модели
(5) Моделирование
(6) Оценка
(7) Внедрение
Выберите верное утверждение
(1) Бустинг не переобучается с увеличением числа итераций
(2) Бустинг использует только экспоненциальные базовые модели
(3) Бустинг использует веса, которые не обновляются с каждым новым построением модели
(4) Бустинг уменьшает обобщающую способность и увеличивает дисперсию
Сколько скрытых слоев Вы видите в данной нейронной сети? files
(1) 1
(2) 2
(3) 3
(4) 5
Укажите пропущенные слова в первом правиле Хебба: "Если два нейрона по разные стороны от синапсов активируются …, то "вес" синапса … "
(1) сигмоидой , не изменяется
(2) одновременно, уменьшится
(3) синхронно, слегка возрастает
(4) одной и той же функцией, изменяется в соответствии с функцией активации
Как можно решить проблему паралича сети?
(1) Увеличение количества скрытых слоев
(2) Тонкая настройка весов, используя алгоритм обратного распространения ошибки
(3) Использование ограниченной машины Больцмана
(4) Использование бустинга, используя алгоритм сэмплинга по Гиббсу
(5) Повышение весов первых слоев нейронной сети
Основная задача кластеризации:
(1) Отыскать "скрытую структуру" данных.
(2) Разделить набор данных на предопределенные классы.
(3) Определить центр набора данных
(4) Упорядочивание объектов в статистически однородные группы
Какие подходы иерархической кластеризации вы знаете?
(1) Агломеративный
(2) Классификационный
(3) Дивизионный
(4) Разделительный
Что из этого является видом модели классификации?
(1) Генеративные модели
(2) Дискриминантные модели
(3) Функции решения
(4) k-means
(5) Скользящая средняя
В результате действия чего из знаменитой фразы "to be or not to be" может удалиться все содержимое?
(1) Стоп-слова
(2) Приведение к нижнему регистру
(3) Стемминг
В модели линейной регрессии h(x,w) чем является w?
(1) Обучающая выборка
(2) Вектор весов
(3) Расширение обучающего объекта x до x = 1
(4) Вектор предположений о будущем состоянии объекта x
Чему равно расстояние между разделяющей поверхностью и объектом?
(1) math
(2) math
(3) math
(4) math
Укажите два основных подхода к снижению размерности.
(1) Feature Extraction
(2) Feature Extrapolation
(3) Feature Selection
(4) Feature Encoding
Что Вы видите на данном графике? files
(1) Переобучение модели
(2) Недообучение модели
(3) Выбор оптимальной степени полинома
(4) Настройка модели
Данные какой размерности представлены на данном графике? files
3
Укажите основные преимущества алгоритма адаптивного бустинга
(1) Простота алгоритма
(2) Хорошая обобщающая способность
(3) Идентифицирует шумовые объекты
(4) Не переобучается на "малом" количестве данных
(5) Накладные расходы бустинга минимальны
(6) Описывается экспонентой
(7) Минимизирует ошибку на каждом шаге
В чем задача функции активации?
(1) Описание выходного сигнала всей нейронной сети
(2) Выбор сигмоиды, описывающей выходной сигнал нейрона
(3) Перевести нейрон в рабочее состояние
(4) Ограничить амплитуду выходного значения нейрона
Продолжите фразу "Машина Больцмана - стохастический генеративный…"
(1) ...вариант перцептрона.
(2) ...вариант нейронной сети Хемминга.
(3) ...вариант сети Хопфилда.
(4) вариант сети Элмана
Выберите верное утверждение
(1) Машина Больцмана моделирует ошибку, а автоэнкодер моделирует вероятностное распределение
(2) Машина Больцмана моделирует вероятностное распределение, а автоэнкодер моделирует ошибку
(3) Машина Больцмана и автоэнкодер моделируют вероятностное распределение
(4) Машина Больцмана и автоэнкодер моделируют ошибку
Укажите этапы EM-алгоритма?
(1) Evaluation
(2) Estimation
(3) Expectation
(4) Minimisation
(5) Maximisation
Основной минус иерархической кластеризации
(1) В результате получаются несферические кластеры
(2) В результате получается более одного кластера
(3) Требуется много вычислительных ресурсов
О чем говорит no free lunch theorem?
(1) Не существует единственной лучшей модели, решающей все задачи
(2) Чем меньше описательных параметров модели при максимальной ее точности - тем лучше
(3) Количество степеней свободы модели не зависит от выбранного описательного полинома
Укажите преимущества байесовского классификатора.
(1) Генеративная модель
(2) Самостоятельно делает отбор признаков
(3) Стабильность при смещении выборки
(4) Предположения делаются при формировании модели
(5) Оптимальный по производительности
Выберите верное утверждение.
(1) Логистическая регрессия защищена от переобучения, как и линейные модели
(2) Логистическая регрессия, как и линейные модели, может быть подвержена переобучению
(3) Логистическая регрессия, в отличие от линейных моделей, защищена от переобучения
(4) Логистическая регрессия, в отличие от линейных моделей, может быть подвержена переобучению
Выберите верные свойства функции, присущие функции ядра
(1) Симметричность
(2) Отрицательная определенность
(3) Несимметричность
(4) Положительная определенность
Укажите верное утверждение
(1) Метод главных компонент использует меньшее количество компонент, в отличие от метода независимых компонент
(2) Метод главных компонент добивается ортогональности между полученными компонентами, а метод независимых компонент - не ортогональности
(3) Метод независимых компонент работает с коррелированными данными, в отличие от метода главных компонент
(4) Метод главных компонент применяется в основном для задач, где необходимо разделять сигналы, а метод независимых компонент - для визуального разделения данных
Укажите основные подходы к построению стохастических методов:
(1) Stacking
(2) Bootstrap aggregation
(3) Метод случайных подпространств
(4) Построение ансамблей классификаторов
Что из перечисленного является средством EDA?
(1) Histogram
(2) Scatter plot
(3) Visual estimation
(4) Piechart
Выберите верные утверждения
(1) Стохастические методы лучше работают для коротких обучающих выборках
(2) Для бустинга лучше строить короткие композиции из сильных моделей
(3) Бэггинг наиболее эффективен, когда данных очень много
(4) Бустинг предполагает последовательное построение композиции
(5) Бустинг лучше работает для больших обучающих выборок
(6) RSM наиболее эффективен, когда количество наблюдений значительно меньше размерности этих данных
Какая функция активации применяется наиболее удобна для описания выходного сигнала нейрона?
(1) Сигмоидальная
(2) Гистерезис
(3) Единичный скачок
(4) Арктангенсная
(5) Гиперболическая
Что из этого не нужно сэмплировать: скрытый слой, видимой слой, значения скрытого слоя, значения видимого слоя
(1) Сэмплировать нужно всё указанное
(2) Видимый слой
(3) Значения скрытого слоя
(4) Значения видимого слоя
(5) Скрытый слой
Зачем нужен backprop?
(1) Для минимизации ошибки
(2) Для корректировки веса сети
(3) Для определения обучающей тройки нейронов из обучающего множества
(4) Для определения целевого вектора
(5) Для обучения многослойных нейронных сетей
Как называется данный граф? files
(1) Граф состояний
(2) Дендрограмма
(3) Гистограмма
(4) Древо кластеров
На чем основана кластеризация DBSCAN?
(1) На отсутствии шумов в наборе данных
(2) На плотности объектов
(3) На выявлении граничных объектов
(4) На расширении кластеров
Что изображено на рисунке? files
(1) Иерархическая кластеризация
(2) Логическая классификация
(3) Дерево решений
(4) Алгоритм ID5
Что такое токенизация в обработке текстов?
(1) Один из этапов обработки текста
(2) Разбиение последовательности символов на последовательность слов
(3) Удаление знаков препинания из строки
(4) Добавление зашифрованных элементов к последовательности символов
(5) Расшифровка регулярных выражений
Объект 1 находится выше функции принятия решений, объект 2 - ниже функции принятия решений. Выберите верное утверждение.
(1) Объект 1 и объект 2 находятся в одном классе, если функция принятия решений больше нуля
(2) Объект 1 и объект 2 находятся в разных классах, если функция принятия решений больше нуля
(3) Объект 1 и объект 2 находятся в разных классах, знак функции принятия решений при этом не играет роль
(4) Объект 1 и объект 2 находятся в одном классе, знак функции принятия решений при этом не играет роль
Укажите плюсы метода опорных векторов
(1) Нелинейная разделяющая поверхность
(2) Глобальная оптимизация
(3) Разреженное решение
(4) Хорошая обобщающая способность
(5) Возвращает вероятность равную 0, 1, -1
(6) Не чувствителен к выбросам
(7) Быстрое обучение
(8) Есть алгоритм выбора ядра
Если в сети автоэнкодера находится всего один скрытый слой, то чему будет эквивалентен результат?
(1) PCA
(2) ICA
(3) BCA
(4) SVD
Укажите отрицательные стороны алгоритма Random Forest
(1) Легко переобучается
(2) Требует сложной настройки параметров
(3) Требует нормализации данных
(4) Модели получаются неинтерпретируемые
(5) Плохо работает с полиноминальными зависимостями
(6) Медленно работает с большим объемом данных
Для преобразования многомерного пространства в пространство низшей размерности и формирования малого количества признаков из большого количества признаков следует использовать следующий алгоритм:
(1) T-SNE
(2) DBSCAN
(3) PAM
(4) CWM
Можно ли использовать в качестве базовых моделей линайную регрессию для алгоритма AdaBoots?
(1) В ряде случаев;
(2) Да, во всех случаях;
(3) Нет, невозможно;
Слой нейронной сети – это:
(1) один или несколько нейронов, на входы которых подаются разные сигналы;
(2) один или несколько нейронов, на входы которых подается один и тот же общий сигнал;
(3) Количество нейронов зависит от типа нейронной сети;
На картине ниже представлена схема: files
(1) Поверхность, описываемая энергией сети Хопфилда;
(2) Дерево решений;
(3) Нейросеть Кохонена;
(4) Дифференцирование перекрестной энтропии;
Напишите название типа нейронной сети, представленной на схеме ниже: "Это ___ нейросеть с общими весами во времени" files
Глубинная
Напишите название подхода иерархической кластеризации, при использовании которого перед началом кластеризации все объекты считаются отдельными кластерами, а затем, в ходе алгоритма, объединяются.
Агломеративный
Иерархические дивизимные методы характеризуются следующим:
(1) Делением одного кластера на меньшие кластеры, в результате образуется последовательность расщепляющих групп;
(2) Последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров;
(3) В зависимости от исследуемого объекта возможно как деление, так и объединение групп;
Вычислить наилучшее бинарное разделение корневого узла по одному признаку, пользуясь gini impurity: files
(1) Пол;
(2) Образование;
(3) Работа;
(4) Косметика;
Укажите тип информации, извлечение которой осуществляется в Data Mining:
Неочевидный
В формуле линейной модели "W" означает следующее math
(1) Обучающий объект;
(2) Вектор весов;
(3) Базисные функции;
Класс алгоритмов, являющийся элегантной идей по построению разделяющей поверхности, а также осуществляющий переход в новое пространство значительно дешевле, чем вычисление всех обучающие объектов в новом пространстве напрямую:
(1) KKT-условия;
(2) SVM;
(3) ML;
(4) Функция Мерсера;
Выберите сферы применения PCA
(1) Визуализация данных;
(2) Построение деревьев решений;
(3) Обработка изображений;
(4) Выявление максимальной избыточности;
(5) Отбор признаков;
Если зависимая переменная принимает непрерывные значения, то дерево решений решает задачу:
(1) Численного прогнозирования;
(2) Решение невозможно;
(3) Логистического прогнозирования;
Выберите оптимальный параметр для следующей модели согласно принципу ML (Maximum Likelihood / Максимальное правдоподобие): "Вероятность того что идет дождь если есть тучи сильнее, чем вероятность того что идет дождь, если туч нет":
(1) Падают капли
(2) Наличие туч
(3) Не видно небо
(4) Мокрая земля
Укажите достоинства алгоритма AdaBoots:
(1) Простота
(2) Склонен к переобучению при наличии шума в данных
(3) Имеет хорошую обобщающую способность
(4) Переобучается при малом количестве данных
Напишите максимальное количество скрытых слоев, которое можно обучить согласно алгоритму обратного распространения
2
Укажите достоинства машины Боцмана:
(1) Существует возможность вычислить Z
(2) Невозможно использовать семплирование Гиббса
(3) Время, требуемое для обучения такой модели экспоненциально зависит от размера машины
Особенностью паралича сети является:
(1) Значение градиента затухает экспоненциально
(2) При больших значениях весов этот эффект усиливается
(3) При малых значениях весов значение градиента может экспоненциально возрастать
(4) Глубокие нейронные сети не сильно страдают от этого
Дендрограмма формируется как результат работы:
(1) Дивизимного кластерного анализа
(2) Метода Apriori
(3) Агломеративного кластерного анализа
(4) Численного прогнозирования
Укажите достоинства иерархической кластеризации:
(1) Разнообразие критериев
(2) Любые К из коробки
(3) Выявляют более высокую устойчивость по отношению к шумам и выбросам, некорректному выбору метрики, включению незначимых переменных в набор, участвующий в кластеризации
(4) Несферические кластеры
Выберите вариант, НЕ являющийся преимуществом вероятностных моделей
(1) Сильные предположения о природе данных
(2) Дисбаланс в выборке
(3) Отказ от классификации
Напишите название этапа обработки текста, скрытого на схеме ниже files
Нормализация
Основный принцип, который используется в машинном обучении – это принцип:
(1) Maximum Likelihood
(2) Интервал прогнозирования
(3) Численное прогнозирование
(4) Байесовской классификации
Напишите название теоремы, с помощью которой можно установить, что выбранная функция является функцией ядра
Мерсера
Укажите играть в гольф на открытой площадке или нет, основываясь на дерево решений ниже files
(1) Играть;
(2) Не играть;
Недостаток алгоритма Expectation Maximization (EM) заключается в следующем:
(1) На каждом из шагов возможно, как возрастание, так и убывание likelihood (вероятности)
(2) Невозможно оптимизировать аналитически
(3) Не гарантируется глобальная оптимизация
(4) В ряде случаев достигнуть экстремум невозможно
Что следует предпринять, если функция, которую стараемся оптимизировать, не дифференцируема?
(1) Заменить гладкой аппроксимацией, в которой минимум по гладкой аппроксимации;
(2) соответствует минимуму по функции;
(3) Использование алгоритмов невозможно;
(4) Данное условиет не влияет на оптимизацию функции;
Что является задачей функции активации?
(1) Увеличить амплитуду выходного значения нейрона
(2) Ограничить амплитуду выходного значения нейрона
(3) Сохранить амплитуду выходного значения нейрона
Сети с обратными связями – это
(1) сети Хопфилда (задачи ассоциативной памяти);
(2) Перцептрон;
(3) сети Кохонена (задачи кластерного анализа);
(4) Рекуррентные нейронные сети;
Ошибкой обучения нейронной сети называется:
(1) Возможности преобразования n-мерного пространства в пространство с любым количеством измерений;
(2) Разность между желаемым и полученным на выходе сигналами;
(3) Сумма между желаемым и полученным на выходе сигналами;
(4) Связь, в которой, в которой сигнал (возбуждения или торможения) поступает на синапсы следующих нейронов;
Укажите недостатки DBSCAN (возможен выбор нескольких вариантов):
(1) Не работает при разных плотностях кластеров;
(2) Не требует К;
(3) Не вполне детерминированный;
(4) Кластеры произвольной формы;
(5) Не учитывает выбросы;
Выберите ситуацию, при кластеризации которой, НЕ используется метод DBSCAN:
(1) Кластеризация домов в Сан-Франциско;
(2) Кластеризация царства животных;
(3) Выделение топ 10 используемых пользователями доменов;
Основной смысл теоремы "No free lunch theorem" заключается в следующем Есть модель, которая является оптимальной для решений всех задач:
(1) Возможно точно подобрать модель для решения любой проблемы, основываясь на предварительных вычислениях;
(2) Не существует единственной супермодели;
(3) Лучшая гипотеза данных – та, которая ведет к самому краткому их описанию;
Все переменные являются одинаково важными и статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой. Это свойства:
(1) наивной байесовской классификации
(2) Атрибута расщепления
(3) Метода "k-ближайших соседей"
(4) Сети Кохонена
Напишите название регрессии, используемой для предсказания вероятности возникновения некоторого события путём подгонки данных к логистической кривой
Логистическая
Выберите особенность SVM, о которой говорится ниже: SVM оптимизирует квадратичную функцию, которая является вогнутой и её максимум существует только один:
(1) Нелинейная разделяющая поверхность
(2) Глобальная оптимизация
(3) Разреженное решение
(4) Хорошая обобщая способность
Дан единичный интервал [0,1]. Сколько равномерно разбросанных точек будет достаточно, чтобы покрыть этот интервал с частотой не менее 0,01?
(1) 100
(2) 10
(3) 1000
(4) 100000
В синхронных нейронных сетях в каждый момент времени свое состояние меняет
(1) Все нейроны
(2) Один нейрон
(3) Произвольное количество нейронов
На практике, более какого числа раз имеет смысл проводить запуск алгоритма K-means ?
1000
В чем состоят ключевые идеи бустинга ?
(1) выбранная базовая модель , дает некоторые предсказания, но не сильно настраивается под данные
(2) "слабые" базовые модели последовательно применяются к данным обучающей выборки, но при этом сами данные каждый раз несколько меняются
(3) при добавлении очередной модели a(i), предыдущие i-1, модели несколько меняются
Для задачи функции активации - ограничить амплитуду выходного значения нейрона, чаще всего используется сигмоидальная (S-образная) функция(и) ?
(1) логистическая функция
(2) гиперболический тангенс
(3) синусоидальная функция
Какое утверждение можно отнести к первому правилу Хебба ?
(1) если два нейрона по разные стороны от синапсов активируются синхронно, то "вес" синапса, слегка возрастает
(2) если два нейрона по разные стороны от синапсов активируются aсинхронно, то "вес" синапса, слегка возрастает
(3) если два нейрона по разные стороны от синапсов активируются синхронно, то "вес" синапса, слегка уменьшается
(4) если два нейрона по разные стороны от синапсов активируются асинхронно, то "вес" синапса, слегка уменьшается
Согласно стандартной модели зрительной коры головного мозга, считается что?
(1) каждый следующий нейронный слой выучивает предыдущий нейронный слой
(2) каждый следующий нейронный слой выучивает новый уровень абстракции данных
(3) каждый следующий нейронный слой выучивает новый возникающий слой нейронов
При больших наборах данных MAP, какой из алгоритмов (мaximum likelihood, maximum a posteriori) будет эффективнее при условии нахождении глобальных максимумов?
(1) мaximum likelihood эффективнее
(2) результаты обоих алгоритмов равнозначны
(3) оба алгоритма не эффективны
(4) maximum a posteriori эффективнее
При больших наборах данных MAP, какой из алгоритмов (мaximum likelihood, maximum a posteriori) будет эффективнее при условии нахождении глобальных максимумов?
(1) мaximum likelihood эффективнее
(2) результаты обоих алгоритмов равнозначны
(3) оба алгоритма не эффективны
(4) maximum a posteriori эффективнее
Уважите преимущества вероятностных моделей (дискриминативные и генеративная модели ) ?
(1) отказ от классификации объектов
(2) дисбаланс в выборке
(3) вычислительная легкость
(4) ассамблея моделей (возможность комбинировать)
В задачах Text Mining, при извлечения очевидной информации, основные трудности для "машины" представляют ?
(1) Огромные объемы
(2) Отсутствие структуры в данных
(3) Отсутствие фазы "обучение с учителем"
(4) Порядковая сложность алгоритмов , по сравнению с Data Mining
По скольким параметрам определяется вид цветка ириса для набора данных в задаче Фишера ?
4
Максимальный зазор между классами Margin - это ?
(1) наименьшее расстояние между рабочей поверхностью и обучающим объектом
(2) среднеквадратичное расстояние для двух векторов и рабочей поверхностью
(3) наибольшее расстояние между рабочей поверхностью и обучающим объектом
Какая мотивация для сдерживания размерности признакового описания данных?
(1) визуализация + Отве. скорость обучения
(2) экономия при эксплуатации
(3) аппроксимация данных
(4) гибкость построения новых моделей
Где лучшая область применения нейронных сетей ?
(1) распознавание образов в видеопотоке и изображениях
(2) распознавание речи
(3) текстовая классификация
(4) информационный поиск данных
Пример задачи эффекта "проклятие размерности". Даны два случайных вектора x и y в пространстве размерности D. Как зависит математическое ожидание косинус-расстояния между x и y от размерности D, при наблюдениях, что числитель стремится к нулю, а знаменатель положительный ? Ответ укажите с точность до 2-го знака после запятой.
1,57
Факты об алгоритме бустинга. При нулевой ошибке на обучающей выборке, количество ошибок на тестовой выборке ?
(1) падает
(2) возрастает
(3) одинаково
Что можно сказать о нейронах в мозгу человека ?
(1) обладают способностью изменяться под действием опыта
(2) очень медленная модель для обработки информации
(3) очень узкоспециализированные нервные клетки
(4) сам по себе помимо сигналов ,генерирует и шум
Машина Больцмана представляет из себя полносвязный неориентированный граф, где ?
(1) любые две вершины из одной группы зависят друг от друга
(2) любые три вершины из одной группы зависят от остальных вершин слоя
(3) любые две вершины из разных групп зависят друг от друга
Решением проблемы паралича сети могут быть следующие идеи.
(1) если инициализировать веса таким образом, что бы образ оригинального изображения в скрытом пространстве описывал бы прообраз максимально точно
(2) именно это и делает ограниченная машина Больцмана
(3) если инициализировать веса таким образом, что бы образ оригинального изображения в открытом пространстве описывал бы прообраз максимально точно
Выберите составляющие шаги для агломеративного подхода в иерархической кластеризации?
(1) начинается с ситуации, когда каждый объект отдельный - кластер
(2) на каждом шаге совмещаем два наиболее близких кластера
(3) на каждом шаге разделяем два , один из кластеров пополам
(4) останавливаемся, когда получаем требуемое количество или единственный кластер
(5) останавливаемся, когда получаем требуемое количество или N кластеров
Выберите составляющие шаги для агломеративного подхода в иерархической кластеризации ?
(1) начинается с ситуации, когда каждый объект отдельный - кластер
(2) на каждом шаге совмещаем два наиболее близких кластера
(3) на каждом шаге разделяем два , один из кластеров пополам
(4) останавливаемся, когда получаем требуемое количество или единственный кластер
(5) останавливаемся, когда получаем требуемое количество или N кластеров
Для оценки "натренированной" модели на эффективность ее применения, используется тестирование на независимой выборке. Какой из алгоритмов проверки "тренируется" на всем количестве данных, при условии многократного повторения?
(1) кросс-валидация
(2) скользящий контроль по разделенным равным "кускам" выборки с тренировкой "без одного" и тестом по одному из "кусков"
(3) бутстреп
При обработке текстов, укажите подходы для приведения токенов к единому виду, чтобы избавиться от поверхностной разницы в написании ?
(1) сформулировать набор правил, по которым преобразуется токен
(2) явно хранить связи между токенами
(3) хранить связи меду токеном и образованным от него различные части речи
(4) всегда преобразовывать токен к существительному
Идея линейного классификатора определяется тем, что признаковое пространство может быть разделено гиперплоскостью на полупространства, в каждом из которых прогнозируется одно из двух значений целевого класса (линейная разделимость). Укажите число полупространств.
2
Преимущества SVM?
(1) находит разделяющую полосу максимальной ширины
(2) разреженное решение
(3) глобальная оптимизация
(4) нечувствителен к шумам и стандартизации данных
Какова идея метода главных компонент?
(1) поиск гиперплоскости заданной размерности, такой что бы ошибка проектирования выборки на данную гиперплоскость была минимальной
(2) поиск проекции на гиперплоскость с сохранением большей части дисперсии в данных
(3) проекция данных на гиперплоскость с критической ошибкой проектирования
Где лучшая область применения ансамблей деревьев решений ?
(1) информационный поиск данных
(2) текстовая классификация
(3) автопилотирование транспорта
(4) распознавание речи
Какие проблемы решают задачи кластеризации, отыскивая "скрытую структуру" исследуемых данных и не имея опорной целевой переменной?
(1) разметка данных "в ручную" очень дорого и трудозатратно
(2) построение признаков из очень большего количества данных
(3) возможность отслеживать эволюционные изменения
(4) поиск выбросов и шумов в исследуемых данных
(5) исследование и визуализация больших данных
Выберете верное утверждение про алгоритмы бустинга :
(1) для бустинга лучше строить короткие композиции из слабых моделей , чем длинные из сильных
(2) бустинг лучше работает для больших обучающих выборок в ситуациях когда в данных имеются сложные зависимости
(3) алгоритмы бустига наиболее эффективны в пространстве большей размерности
Нейроансамбль - это ?
(1) совокупность нейронов, составляющих функциональную группу в высших отделах мозга
(2) распределенный способ кодирования информации
(3) генерация шума от сигналов нейрона
В чем состоит основная идея обучения алгоритма Contrastive Divergence?
(1) математические ожидания заменяются вполне определенными значениями
(2) математические ожидания заменяются вероятностными значениями
(3) математические ожидания заменяются средним значением случайной величины
Жадный алгоритм предобучения включает этапы ?
(1) последовательно натренировать каждую пару слоев в глубокой сети (возможно кроме первого и второго скрытого слоя от выходного слоя);
(2) осуществить тонкую настройку весов, используя алгоритм обратного распространения ошибки;
(3) применить алгоритм Contrastive Divergence;
Для использования алгоритмов иерархической кластеризации текста, какие подходы существуют для выбора "типичного" представителя - кластроида в каждом из кластеров ?
(1) минимизируем сумму расстояний до других объектов к кластере
(2) минимизируем сумму квадратов расстояний до других объектов к кластере
(3) минимизируем сумму порядков расстояний до других объектов к кластере
(4) минимизируем максимальное расстояние до других объектов к кластере
Для использования алгоритмов иерархической кластеризации текста, какие подходы существуют для выбора "типичного" представителя - кластроида в каждом из кластеров ?
(1) минимизируем сумму расстояний до других объектов к кластере
(2) минимизируем сумму квадратов расстояний до других объектов к кластере
(3) минимизируем сумму порядков расстояний до других объектов к кластере
(4) минимизируем максимальное расстояние до других объектов к кластере
Версия какого алгоритма для построения деревьев решений использует числовые признаки как в CART, а номинальные - как в ID3 ? Ответ укажите с точность до целого значения.
5
Назовите преимущества "наивного Байесовского классификатора" ?
(1) генеративная модель
(2) стабилен при смещении выборки
(3) оптимален по производительности
(4) использует наивные предположения
(5) не требует отбора признаков
Принцип Maximum Likelihood math. Функция правдоподобия math. Максимизируя math, в результате имеем одну из составляющих ?
(1) math
(2) math,
(3) math
Недостатки SVM?
(1) чувствителен к шумам и стандартизации данных Отве. медленный метод нахождения решающих функций
(2) нет алгоритма выбора ядра
(3) медленное обучение
Каковы недостатки метода главных компонент?
(1) координаты объектов в новом пространстве определены не однозначно
(2) проблема с вычислением собственных векторов ковариационной матрицы, при большом количестве данных
(3) существует произвол в выборе координат объектов в новом пространстве
(4) общая сложность алгоритма
Назовите основные недостатки алгоритма Random Forest ?
(1) модели получаются большие и не интерпретируемые
(2) алгоритм требует сложной настройки параметров
(3) алгоритм плохо параллелится
(4) алгоритм плохо работает с полиномиальными зависимостями
Подходы к построению моделей Data Mining
(1) статистический и на основании машинного обучения
(2) на основании машинного обучения и вычислительный
(3) вычислительный и статистический
(4) все перечисленное
Укажите метод, который одновременно уменьшает смещение и дисперсию
(1) Беггинг
(2) Бустинг
(3) ни один из них
(4) оба метода
Сколько скрытых слоев нейронов применяют в реальной практике в соответствии с обычным алгоритмом обратного распространения ошибки
(1) 1
(2) 2
(3) любое количество
(4) нет правильного ответа
Для чего используется логарифм правдоподобия Бернулли?
(1) задачи регрессии
(2) задач классификации
(3) для обоих случаев
(4) нет правильного ответа
Выберете верное высказывание, характеризующее паралич сети для Backprop?
(1) Значение градиента затухает экспоненциально, сходимость замедляется
(2) При малых значениях весов эффект затухания усиливается
(3) При больших значениях весов значение градиента может экспоненциально возрастать, алгоритм расходится
(4) все перечисленное верно
Назовите причины использования алгоритмов кластеризации.
(1) заниматься разметкой данных бывает достаточно дешево
(2) позволяет разбить данные без разметки данных
(3) позволяет увеличить значимое количество признаков
(4) позволяет отслеживать изменения данных во времени
При каких условиях подход Maximum a posteriori (MAP) выигрывает перед Maximum Likelihood (ML)
(1) маленький набор данных
(2) возможность из коробки контролировать точность модели
(3) Проще реализация
(4) Проще натренировать
Назовите типы моделей классификации в порядке убывания сложности
(1) Дискриминативные-Генеративные-Функции решения
(2) Генеративные-Дискриминативная-Функции решения
(3) Генеративные-Функции решения-Дискриминативная
(4) Функции решения-Дискриминативные-Генеративные
Какие задачи может решать Text Mining
(1) Суммаризация текста
(2) Классификация и кластеризация документов
(3) Извлечение метаданных, выделение сущностей
(4) Все перечисленное
С помощью какого принципа можно справляться с переобучением методом ограничения весов
(1) Принцип регуляризации
(2) априорное распределение
(3) Перекрёстная проверка
(4) Вербализация
Какое из предложенных решений соответствует рисункам, когда мы ограничены только линейными классификаторами? files
(1) дискретное преобразование
(2) полиномиальное преобразование
(3) Преобразование координат
(4) Преобразование Фурье
Что может служить мотивацией для снижения размерности пространства
(1) Визуализация
(2) Скорость обучения
(3) Качество обучения
(4) все перечисленное
Выберите неверное высказывание про нейронные сети в сравнении с алгоритмическими композициям
(1) достаточно легко проводить эксперименты
(2) подбирать параметры зачастую достаточно сложно, если о структуре данных априори ничего не известно.
(3) обучение нейронных сетей процесс не быстрый
(4) обладают сложной топологией
На диаграмме процесса CRISP-DM после этапа Моделирование (Modeling) следует этап
(1) Понимание бизнес-целей (Business Understanding
(2) Подготовка данных (Data Preparation)
(3) Оценка (Evaluation)
(4) Внедрение (Deployment)
Укажите не верное высказывание про алгоритм AdaBoost
(1) Алгоритм прост
(2) Не склонен к переобучению при наличии шума в данных
(3) Показывает хорошую обобщающую способность
(4) Имеет возможность идентификации шумовых объектов
Что является задачей функции активации
(1) Ограничить амплитуду выходного значения нейрона
(2) Глобальная оптимизация
(3) Идентификации шумовых объектов
(4) нет правильного ответа
Выберете не верное высказывание характеризующее машину Больцмана?
(1) Время, требуемое для обучения модели, экспоненциально зависит от размера машины
(2) не приходится использовать семплирование Гиббса, в связи с топологией сети
(3) нет возможности вычислить нормирующую константу
(4) все перечисленное верно
Весь процесс обучения глубокой сети можно свести к процессу?
(1) Предобучение сети используя машину Больцмана
(2) Осуществить тонкую настройку весов, используя алгоритм обратного распростронения ошибки (fint turning)
(3) Оба варианта верны
(4) Не верен ни один вариант
Выберите алгоритмы которые решают задачи кластеризации
(1) K-средних
(2) Деревья решений
(3) EM-алгоритм
(4) К-медиан
Назовите основные подходы иерархической кластеризации
(1) корреляционный
(2) агломеративный
(3) дивизивный
(4) дисперсионный
Назовите плюсы использования вероятностных моделей против функций решений
(1) Отказ от классификации
(2) Дисбаланс в выборке
(3) Ансамбли моделей
(4) Сильные предположения о природе данных
(5) Излишняя (вычислительная) сложность
На диаграмме "Этапы обработки текста" этап токенизации идет следом за этапом…
(1) Удаление стоп-слов
(2) Нормализация
(3) Декодирование
(4) Стреминг
Назовите основные виды регуляризации
(1) Lasso регрессий
(2) Ridge регрессий
(3) Динамическая
(4) Elastic_net
В теореме Мерсера функция k(x;z) является ядром тогда и только тогда, когда она…
(1) симметрична
(2) асимметрична
(3) неотрицательно определена
(4) отрицательно определена
Укажите достоинство использования PCA
(1) Простой алгоритм
(2) Координаты объектов в новом пространстве определены однозначно
(3) Легкость с вычислением собственных векторов ковариационной матрицы в случае большого количества данных
(4) все перечисленное
Физический смысл соотношения между большим смещением и маленькой дисперсией характеризуется
(1) сложность модели недостаточно
(2) сложность модели избыточна
(3) хорошо предсказываем данные из обучающего множества и обобщаем на новые пример
(4) ни один из ответов не верен
Какие характерные активности этапа подготовки данных (Data Preparation) для процесса CRISP-DM
(1) Удаление шума
(2) Заполнение отсутсвующих значений
(3) Понять чем характеризуется задача
(4) какого результата нужно достичь
Что из указанного работает лучше для больших обучающих выборок в ситуациях когда в данных имеются сложные зависимости
(1) Бустинг
(2) Стохастические методы
(3) RSM
(4) Все перечисленное
Какой из режимов обучения для "Ограниченной машины больцмана" будет самым точным и давать истинный градиент?
(1) online learning
(2) batch learning
(3) full-batch learning
(4) нет правильного ответа
Выберете верное высказывание, характеризующее семплирование по Гиббсу?
(1) Не требуется явно выраженное совместное распределение, а нужны лишь условные вероятности для каждой переменной, входящей в распределение
(2) Алгоритм на каждом шаге берет одну случайную величину и выбирает ее значение при условии фиксированных остальных
(3) Можно показать, что последовательность получаемых значений образуют возвратную цепь Маркова.
(4) все перечисленное верно
Тип нейросетей которые на данный момент доминируют во всем компьютерном зрении?
(1) Сверточные нейросети
(2) Рекурентные нейронные сети
(3) Deep belief network
(4) deep Boltzmann machine
Решение проблемы чувствительности функции расстояния к преобразованиям в данных
(1) Преобразовать обучающую выборку так, чтобы оси совпадали с главными компонентами матрицы ковариации
(2) Преобразовать тестовую выборку так, чтобы оси не совпадали с главными компонентами матрицы ковариации
(3) Преобразовать обучающую выборку так, чтобы оси совпадали с второстепенными компонентами матрицы ковариации
(4) Преобразовать тестовую выборку так, чтобы оси не совпадали с второстепенными компонентами матрицы ковариации
Назовите основные плюсы иерархической кластеризации
(1) могут получаться несферические кластеры
(2) разнообразные виды расстояния между кластерами
(3) любые К из коробки
(4) не требует много ресурсов
В обобщенной формуле обучения модели learning= representation +Evaluation+ optimization критериями Evaluation являются
(1) constrained
(2) функция правдоподобия
(3) KL-дивергенция
(4) unconstrained (GD, Newton+)
(5) Эмпирический риск
Укажите основные плюсы использования Naive Bayes
(1) Генеративная модель
(2) Стабилен при смещении
(3) Оптимален по производительности
(4) Не требует отбора признаков
Какие значения q соответствуют контурам функции регуляризации files
(1) q1=1; q2=2; q3=3; q4=4;
(2) q1=0,5; q2=1; q3=2; q4=4;
(3) q1=1; q2=2; q3=4; q4=8;
(4) q1=0,5; q2=1; q3=2; q4=3;
Плюсы использования алгоритма SVM
(1) Глобальная оптимизация
(2) Разреженное решение
(3) Чувствительность к выбросам
(4) Быстрое обучение
Выберите неверное высказывание при использовании "Жадных алгоритмов отбора признаков"
(1) Не все признаки "полезны"
(2) Отбор признаков проводится по внешним критериям (CV)
(3) Для сокращения перебора хороши любые эвристики
(4) Не надо переобучать алгоритм
Укажите не верное выражение характеристики использования алгоритма RandomForest
(1) Алгоритм прост
(2) Не переобучается
(3) Хорошо параллелится
(4) "Быстро" работает для большого объема данных