Главная / Программное обеспечение / Введение в аналитику больших массивов данных

Введение в аналитику больших массивов данных - ответы на тесты Интуит

Правильные ответы выделены зелёным цветом.
Все ответы: Курс представляет возможность познакомиться с основными понятиями в области аналитической обработки больших данных. В нем изложены основы машинного обучения, визуализации и хранения больших данных. По результатам изучения курса читатель сможет переводить проблемы предметной области на язык технологий обработки больших данных.
Смотрите также:
На основе какого языка был создан R?
(1) C
(2) S
(3) Java
(4) Python
Приведите округленный результат прогнозирования пустого значения в таблице с помощью функции ТЕНДЕНЦИЯ:
Год1234
Тыс. руб67120160
209
Какая из следующих СУБД подходит для организации высоко-доступного и консистентного хранилища?
(1) Greenplum
(2) BigTable
(3) CouchDB
(4) Cassandra
большинство данных в мире в 2011 году содержалось:
(1) в цифровом виде
(2) в аналоговом виде
Клиент покупает билет на самолет через интернет. В момент покупки, он хочет знать насколько может упасть стоимость этого билета в ближайшем будущем и когда. К какому типу относится эта задача анализа данных?
(1) прогнозирование
(2) кластеризация
(3) классификация
(4) цензурирование
Присваивание в языке R можно осуществить с помощью оператора:
(1) =
(2) <-
(3) ->
(4) :=
Какое значение запишет функция Flash (Мгновенное заполнение) Excel в пропущенной ячейке:
123423
3212
134534
134
3
Какая из следующих СУБД подходит для организации высоко-доступного и распределённого хранилища?
(1) Cassandra
(2) Hbase
(3) MongoDB
(4) CouchDB
укажите фактор, способствовавший появлению тренда больших данных
(1) маркетинговые кампании крупных корпораций
(2) снижение издержек на хранение данных
(3) появление новых технологий обработки потоковых данных
(4) выпуск баз данных с обработкой данных в памяти
Инвестиционный фонд интересуется тем, почему часть финансируемых им проектов успешно переходят на второй год, а часть - нет. К какому типу относится эта задача анализа данных?
(1) поиск информативных признаков
(2) построение решающего правила
(3) классификация
(4) цензурирование
Как сделать вектор из трех чисел?
(1) (7,7,7)
(2) [7,7,7]
(3) {7,7,7}
(4) c(7,7,7)
Существуют ли встроенные ограничения в Excel 2013 на количество элементов данных в одном ряду данных для плоских диаграмм?
(1) да, не более 32 000
(2) да, не более 32 767
(3) да, не более 1 048 576
(4) нет, размер ограничен только объемом доступной оперативной памяти
Какая из NoSQL СУБД подходит для организации консистентного и распределённого хранилища?
(1) Redis
(2) Hbase
(3) BigTable
(4) Cassandra
Выберите верный ответ
(1) большие данные – это обработка или хранение более 1 Тб информации
(2) проблема больших данных – это такая проблема, когда при существующих технологиях хранения и обработки сущностная обработка данных затруднена или невозможна
(3) большие данные – это огромная PR-акция крупных вендоров и не более того
(4) большие данные – это явление, когда цифровые данные наиболее полно представляют изучаемый объект
Коммерческая клиника желает установить структуру своих клиентов с точки зрения вклада в доход клиники. К какому типу относится эта задача анализа данных?
(1) прогнозирование
(2) кластеризация
(3) классификация
(4) цензурирование
Для каких аргументов функция is.finite вернет true?
(1) 1
(2) NA
(3) NaN
(4) (+Inf)
Отметьте верное представление типа данных "очень плохо"-"плохо"-"средне"-"хорошо-"очень хорошо" в файле типа ARFF:
(1) @attribute estimation { “очень плохо”, плохо, средне, хорошо, “очень хорошо”}
(2) @attribute estimation { очень плохо, плохо, средне, хорошо, очень хорошо}
(3) @attribute estimation { [очень ]плохо, средне, [очень] хорошо}
(4) @attribute estimation { “[очень ]плохо”, средне, “[очень ]хорошо”}
Какая из следующих СУБД обладает свойством расширяемости записей?
(1) Cassandra
(2) Hbase
(3) Redis
(4) MySQL
Перечислите четыре основных характеристики Big Data:
(1) Virtualization, Volume, Variability, Vehicle
(2) Variety, Velocity, Volume, Value
(3) Verification, Volume, Velocity, Visualization
(4) Video, Value, Variety, Volume
Компания, проводящая социологические опросы, испытывает сложности с верификацией данных, поступающих от волонтеров непосредственно опрашивающих респондентов: многие анкеты заполнены не полностью; волонтеры фальсифицируют результаты опроса, самостоятельно заполняя часть анкет. К какому типу наиболее близка эта задача анализа данных?
(1) прогнозирование
(2) кластеризация
(3) классификация
(4) цензурирование
Что вернет следующее выражение sum(1:3>2)?
(1) 0
(2) 1
(3) 2
(4) 3. Ошибка
Основной целью процесса на приведенной диаграмме являетсяfiles
(1) произвести оценку качества работы алгоритма J48
(2) классифицировать выборку объектов алгоритмом J48
(3) оценить качество исходных данных
(4) выбрать наиболее релевантную обучающую выборку
Какой тип NoSQL решения наиболее эффективен для потоковой обработки логов кластера серверов и быстрого сохранения без требования оперативной аналитики?
(1) документоориентированные
(2) колоночно-ориентированные
(3) ключ-значение
(4) графовая
Принцип MapReduce состоит в том, чтобы
(1) производить вычисления на узлах, где информация изначально была сохранена
(2) использовать вычислительные мощности систем хранения
(3) использовать функциональное программирование для решения задач массивно-параллельной обработки
С некоторой периодичностью персонал предприятия списывает группы расходных материалов на различных участках учета. Для выявления ошибок, акты списания выборочно проверяются аудитором. Руководство компании заинтересовано в сокращении количества проверок, при сохранении точности выявления ошибочного списания на уровне 97%. Требуется выявлять сомнительные акты списания, подлежащие обязательной проверке аудитором. К какому типу относится эта задача анализа данных?
(1) прогнозирование
(2) кластеризация
(3) классификация
(4) цензурирование
p.x=1.y=2 Что выведет print(p)?
(1) (1,2)
(2) {x=1;y=2}
(3) NaN
(4) ошибка
Продукты аналогичные Knime, RapidMiner хорошо подойдут для
(1) быстрого прототипирования модели обработки данных
(2) создания гибкой интерактивной модели обработки данных
(3) визуализации данных
(4) для разработки новых алгоритмов
Отметьте СУБД, обладающие встроенной поддержкой MapReduce
(1) Cassandra
(2) Redis
(3) CouchDB
(4) MongoDB
Какие из следующих технологий СУБД не используют принцип MapReduce
(1) Hadoop
(2) Cassandra
(3) HDInsight
(4) Redis
Кардиологический центр исследовал возможность прогнозирования возникновения осложнений во время операционного вмешательства по до-операционным данным о пациенте: результатам физиологического и диагностического обследований. К какому типу задача анализа данных относится задача прогнозирования операционных осложнений?
(1) поиск информативных признаков
(2) кластеризация
(3) классификация
(4) цензурирование
Какая типизация в языке R?
(1) статическая
(2) динамическая
(3) статическая с элементами динамической
(4) типизация отсутствует
Какая из приведённых функций реализует алгоритм классификации
(1) kmeans()
(2) hcclust()
(3) randomForest()
(4) classify()
Чего не могут стандартные реляционные базы (MySQL, Oracle, MS SQL)?
(1) хранить данные с изменяющейся структурой
(2) хранить данные на нескольких физических серверах
(3) хранить большие объемы (терабайты+)
(4) обрабатывать запросы большого количества клиентов (миллионы)
Для чего аналитику необходима "песочница"?
(1) для высокопроизводительной аналитики за счёт использования оперативной памяти и inDB операций
(2) для хранения всех полученных от заказчика данных
(3) для построения отчётов о результатах анализа
(4) для снижения затрат, связанных с репликацией данных
К какому типу шкал относится шкала "очень плохо"-"плохо"-"средне"-"хорошо-"очень хорошо"?
(1) порядковая
(2) абсолютная
(3) бинарная
(4) номинальная
Операция с диапазонами x=1:3 y=4:6 Чему будет равно x+y?
(1) 5 7 9
(2) 1 2 3 4 5 6
(3) 5:9
(4) 1:6
Назовите преимущества R, как инструмента data mining, перед другими языками
(1) быстродействие
(2) большое кол-во библиотек алгоритмов ИАД и статистических пакетов
(3) удобная работа с данными
(4) работа с большими данными
Какие задачи решают графовые БД?
(1) хранение информации о графах
(2) распределенное хранение с учетом минимизации передачи информации
(3) использование графа серверов для распределенного хранения больших данных
(4) встроенная обработка данных сетевыми методами
Ниже приведена последовательность этапов проекта аналитики в соответствии с CRISP-DM, укажите первый этап.
(1) моделирование (Modeling)
(2) внедрение (Deployment)
(3) подготовка данных (Data Preparation)
(4) понимание бизнеса (Business understanding)
(5) оценка (Evaluation)
(6) понимание данных (Data Understanding)
Есть таблица со столбцами x, id, y, price. Какая формула описывает зависимость price от x,y?
(1) math
(2) math
(3) math
(4) math
Есть список на Python s = [1, 2, 3, 4, 6], что вернет выражение s[2:-2]
(1) [3]
(2) [2, 4]
(3) [1,2,4,6]
(4) [2,-2]
Пример благоразумного использования Hadoop
(1) анализ 10 Гб данных
(2) ежедневное сохранение данных температуры, поступающих со всех городов России (по одному показанию на город, всего городов 1100 шт)
(3) посекундное сохранение данных температуры, поступающих со всех городов России (по одному показанию на город, всего городов 1100 шт)
(4) построение графика пульса пациента в реальном времени
Необходимо провести предварительный анализ данных для их лучшего понимания, выберите наиболее подходящие инструменты
(1) Tableau, Weka/Knime/Rapidminer
(2) R
(3) Python
(4) HBase
Какие из перечисленных языков оказали влияние на R?
(1) Ruby
(2) Matlab
(3) Scheme
(4) S
Каким будет округленный результат прогнозирования пустого значения в таблице с помощью функции ТЕНДЕНЦИЯ:
Год1234
Тыс. руб67120160
(1) 209
(2) 210
(3) 220
(4) 301
Какие характеристики объединяют следующие СУБД: Greenplum и BigTable?
(1) высокая-доступность
(2) консистентность
(3) распределённость
(4) колоночная ориентация
В каком веке произошёл перевес объёмов накопленных человечеством данных в сторону цифровых?
20
Клиент покупает билет на самолет через интернет. Как бы в данном случае формулировалась задача прогнозирования?
(1) в момент покупки предсказать, насколько и когда может упасть стоимость этого билета в ближайшем будущем
(2) в момент покупки определить, к какому сегменту относится пользователь и предложить выгодные для него условия сделки
(3) выдать пользователю прогноз погоды для того места, куда он летит
(4) спрогнозировать вероятность дополнительных покупок (отель, страховка, туристический тур) и предложить наиболее вероятные пользователю
Присваивание в R нельзя осуществить с помощью оператора:
(1) =
(2) <-
(3) ->
(4) :=
Какое значение запишет функция Flash (Мгновенное заполнение) Excel в пропущенной ячейке: files
(1) война и мир
(2) роман
(3) сказка
(4) Фильм
Какие характеристики объединяют следующие СУБД: Cassandra и CouchDB?
(1) высокая-доступность
(2) консистентность
(3) распределённость
(4) колоночная ориентация
Какие вероятные разочарования тренда больших данных?
(1) из-за угрозы безопасности личной жизни (privacy) граждан будут усложнены процедуры сбора данных, что приведёт к падению ценности больших данных
(2) из-за угрозы безопасности личной жизни (privacy) граждан будут упрощены процедуры сбора данных, что приведёт к падению ценности больших данных
(3) нет
Инвестиционный фонд имеет ряд проектов, который успешно переходят на второй год финансирования и тех, кто не переходит. Как бы в данном случае формулировалась задача поиска информативных признаков?
(1) определить, почему ряд проектов успешно переходят на второй год, а ряд – нет
(2) определить для нового проекта, перейдёт ли он через год на второй этап финансирования или нет
(3) восстановить некоторые характеристики проектов, которые изначально не заполнялись
(4) определить критерий успешности
Чему равняется length(c(7,7,7))
3
Каково ограничение в Excel 2013 на количество строк при загрузке csv-файла? (Если считаете, что размер ограничен только объемом доступной оперативной памяти напишите 0).
1048576
Почему Hbase не подходит для большинства веб-приложений с высокой посещаемостью?
(1) там требуется высокая доступность, а HBase не обладает этим свойством
(2) из-за по колоночного хранения данных
(3) там требуется распределённость, а HBase не обладает этим свойством
(4) для большинства веб-приложений не требуется распределённость
Выберите неверный ответ:
(1) большие данные – это данные объёма свыше 1 Тб
(2) проблема больших данных – это проблема, когда при существующих технологиях хранения и обработки сущностная обработка данных затруднена или невозможна
(3) большие данные – это тренд в области ИТ, подогреваемый маркетинговыми кампаниями крупных вендоров
(4) большие данные как правило не структурированы
Коммерческая клиника обладает некоторыми данными о клиентах и о доходах от них. Как бы в данном случае формулировалась задача кластеризации?
(1) определить основные сегменты клиентов
(2) определить, сколько денег принесёт тот или иной клиент в следующем периоде
(3) определить, когда вернётся тот или иной клиент
(4) определить, к какой группе "инноватор"-"последователь"-"консерватор" относится данный клиент
Для каких аргументов функция is.finite вернет false?
(1) 1
(2) NA
(3) NaN
(4) (+Inf)
Какие из перечисленных признаков таблицы могут быть классификационными без предварительной обработки? files
(1) Temperature, Humidity
(2) Play, Outlook, Wind
(3) Play, Outlook, Temperature, Humidity, Wind
(4) Row No., Play, Outlook, Temperature, Humidity, Wind
В чём состоит свойство расширяемости записей СУБД?
(1) СУБД не имеет чёткой структуры, поэтому любую запись можно расширить
(2) СУБД имеет чёткую, но расширяемую структуру, в каждую запись можно добавить новую колонку, также как и узнать значение любой записи по добавленной колонке
(3) в любую таблицу СУБД можно добавить новую колонку, предварительно изменив структуру этой таблицы
(4) повышение отказоустойчивости системы при добавлении новых записей в СУБД
Выберите неверное высказывание:
(1) большие объёмы данных приводят к слабой их структуризации, поэтому появляется такое разнообразие данных
(2) увеличившаяся производительность телекоммуникационных каналов привела к росту объёмов передаваемой информации
(3) удешевление систем хранения на единицу информации привело к росту рынка больших данных
Компания, проводящая социологические опросы получает анкеты от волонтеров, непосредственно опрашивающих респондентов. При каких условиях разумна постановка задачи цензурирования?
(1) многие анкеты заполнены не полностью
(2) стало известно, что волонтеры фальсифицируют результаты опроса, самостоятельно заполняя часть анкет
(3) от заказчика поступило требование уничтожить часть анкет, содержащих информацию о руководителях страны
(4) Часть анкет пришла в негодность, что не позволяет считать информацию с них со 100% уверенностью
Каким образом можно сформировать вектор (FALSE, FALSE, TRUE)?
(1) c(FALSE, FALSE, TRUE)
(2) 2:4>3
(3) 2:4<3
(4) -c(TRUE, TRUE, FALSE)
Можно ли с помощью приведённой схемы произвести оценку качества работы алгоритма J48 на загруженных данных? files
(1) нет
(2) да, достаточно одного прогона
(3) да, только после 10 запусков
(4) да, только после 100 запусков
В каких из приведённых примеров наиболее эффективны NoSQL решения типа ключ-значение?
(1) потоковая обработка логов кластера серверов и быстрого сохранения без требования оперативной аналитики
(2) оперативная аналитика сохранённых логов кластера серверов
(3) кластеризация логов кластера серверов на основе заранее известных признаков лог-файла
(4) Хранение данных о клиентах международной корпорации
Выберите одно неверное высказывание про MapReduce:
(1) интерфейс для массово-параллельной обработки данных, где вычисления производятся на узлах, где информация изначально была сохранена
(2) MapReduce – это две операции: распределения и сборки данных
(3) MapReduce был придуман разработчиками Hadoop
(4) MapReduce был анонсирован разработчиками Google
С некоторой периодичностью персонал предприятия списывает группы расходных материалов на различных участках учета. Для выявления ошибок, акты списания выборочно проверяются аудитором. Как бы в данном случае формулировалась задача классификации?
(1) определить характерные признаки ошибочных списаний
(2) научиться автоматически выявлять ошибочные списания с ожидаемой ошибкой не ниже 97%
(3) классифицировать типичные ошибки и составить их список
(4) определить три категории: "ошибочные", "под сомнением", "безошибочные" и найти правило отнесения к этим категориям
Как правильно присвоить p значение типа данных, имеющих две координаты x=1 и y=2?
(1) p.x=1.y=2
(2) p = c(x=1, y=2)
(3) p = c(y=2, x=1)
(4) p(x,y)<-c(1,2)
В каком случае применение Tableau наиболее оправдано
(1) проведено исследование, результатом которого стала таблица объект-свойства, необходимо предоставить отчетность
(2) имеются данные, необходимо более получить ясное понимание этих данных
(3) необходимо реализовать гибкое интерактивное визуальное представление данных
(4) не оправдано
Отметьте СУБД, не обладающие встроенной поддержкой MapReduce
(1) CouchDB
(2) Redis
(3) Cassandra
(4) MongoDB
Какие СУБД полностью полагаются на оперативную память при хранении информации:
(1) Oracle Exalytics
(2) SAP HANA
(3) BigTable
(4) HBase
В кардиологическом центре проводятся операции. До и во время операционного вмешательства с пациента снимаются определённые показания. Известны случаи осложнений во время проведения операций, эти случаи описаны тем же набором данных. Как бы в данном случае формулировалась задача классификации?
(1) сгруппировать пациентов по похожим дооперационным показаниям
(2) спрогнозировать по дооперационным данным вероятность возникновения осложнений во время операции
(3) ранее были определены три группы риска среди пациентов. Все предыдущие случаи осложнений отнесены к определённым группам риска. Стоит задача определить группу риска для нового пациента, прошедшего дооперационные обследования
(4) часть данных о пациентах не содержит некоторых полей, требуется заполнить эти данные на основе статистики, чтобы включить данные об этих пациентах в выборку
Выберите неверные утверждения:
(1) язык R имеет статическую типизацию
(2) язык R имеет динамическую типизацию
(3) язык R имеет статическую типизацию с элементами динамической
(4) язык R не имеет типизации
Какая из функций реализует алгоритм кластеризации
(1) pam()
(2) nnet()
(3) party()
(4) cluster()
Назовите отличия RDBMS от NoSQL:
(1) изоляция транзакций
(2) RDBMS гарантирует консистентость, а NoSQL в общем случае – нет
(3) поддержка горизонтальной масштабируемости
(4) все данные имеют строго определённый тип
Какие из следующих средств разумно использовать для анализа данных, представленных единственным csv-файлом размера более 100Гб:
(1) Hadoop
(2) Data Warehouse
(3) "Песочница"
(4) Python
Какие из следующих шкал в точности являются порядковыми?
(1) "Слабо", "Сильно"
(2) "Красный", "Желтый", "Зеленый"
(3) "удовлетворительно", "хорошо", "отлично"
(4) показания термометра
Операция с диапазонами x=1:3 y=4:6 Чему будет равно x+y? (Введите цифры через пробел)
5 7 9
базовая библиотека для data science на Python
(1) Scipy stack (NumPy & SciPy)
(2) Theano
(3) MDP
(4) Mahout
В социальной сети пользователи пишут друг другу сообщения, какие данные логично хранить в графовой СУБД?
(1) сообщения
(2) профили пользователей
(3) географическую привязку места, откуда пользователь зашёл в сеть
(4) переходы пользователей по ссылкам
На каком из этапов процесса CRISP-DM происходит проверка гипотез?
(1) понимание бизнеса (Business understanding)
(2) понимание данных (Data Understanding)
(3) моделирование (Modeling)
(4) оценка (Evaluation)
Есть таблица со столбцами x, id, y, price. Что означает запись math?
(1) зависимость price от x,y
(2) независимость id от price
(3) зависимость price от x
Есть список на Python s = [1, 2, 3, 4, 6], что вернет выражение s[2:-2]
3
Начиная с каких размеров данных обоснованно применение кластера Hadoop для хранения данных?
(1) 100Гб
(2) 1Тб
(3) 100Тб
(4) 1Пб
Необходимо реализовать решение по анализу данных и передать его стороннему заказчику в эксплуатацию, выберите наиболее подходящие инструменты
(1) Weka
(2) R
(3) Python
(4) RapidMiner
R является:
(1) языком программирования для статистической обработки данных и работы с графикой, созданный на основе языка S
(2) свободной программной средой вычислений с открытым исходным кодом
(3) высокоуровневым языком программирования общего назначения, ориентированным на повышение производительности разработчика и читаемости кода
(4) языком программирования с динамической типизацией данных
Приведите округленный результат прогнозирования пустого значения в таблице с помощью функции РОСТ:
Год1234
Тыс. руб67120160
260
Какие типы СУБД поддерживают одновременно высокую-доступность, консистентность и распределённость?
(1) NoSQL
(2) RDBMS
(3) построенные на базе HDFS
(4) никакие
Объём накопленных человечеством цифровых данных на 2012 год измеряется:
(1) петабайтами
(2) зеттабайтами
(3) экзабайтами
(4) йоттабайтами
Клиент покупает билет на самолет через интернет. В момент покупки стоит задача определить вероятность дополнительных покупок (отель, страховка, туристический тур) и предложить наиболее вероятные пользователю. К какому типу относиятся эта задача анализа данных?
(1) заполнение пробелов
(2) классификация
(3) прогнозирование
(4) цензурирование
Какие из вариантов присвоения не вызовут ошибки:
(1) x -> 3
(2) x <- 3
(3) 3 <- x
(4) 3 -> x
Какое значение запишет функция Flash (Мгновенное заполнение) Excel в пропущенной ячейке files
Сказка
Какое максимальное количество свойств БД допускает CAP-теорема?
2
Отметьте значимые события, повлиявшие на формирование тренда больших данных:
(1) разработка Hadoop
(2) изобретение принципа MapReduce
(3) разработка языка Pyhton
(4) победа Deepblue в матче с Г.Каспаровым
Инвестиционный фонд имеет ряд проектов, который успешно переходят на второй год финансирования и тех, кто не переходит. Фонд поставил задачу определить критерий успешности проекта. К какому типу задач анализа данных наиболее близка эта задача?
(1) прогнозирование
(2) построение решающего правила
(3) поиск информативных признаков
(4) цензурирование
В каких из следующих случаях исполнение выдаст ошибку?
(1) (7,7,7)
(2) [7,7,7]
(3) {7,7,7}
(4) c(7,7,7)
Каково ограничение в Excel 2013 на количество строк при загрузке csv-файла?
(1) 1048576
(2) 65535
(3) нет, размер ограничен только объемом доступной оперативной памяти
(4) 2147483648
Какие характеристики объединяют СУБД Hbase и BigTable
(1) расширяемость записей
(2) распределённость
(3) высокая доступность
(4) консистентность
Отметьте те из вариантов, в которых данные структурированы:
(1) данные о продажах компании, представленные в виде помесячных отчётов в формате MS Word
(2) таблица с ежедневными показаниями температуры помещения за год в файле формата csv
(3) текст педагогической поэмы А.С. Макаренко, представленный в формате PDF
(4) библиотека фильмов, представленных в формате mpeg4 на одном жестком диске
Коммерческая клиника обладает некоторыми данными о клиентах и о доходах от них. Руководителем поставлена задача определить, к какой группе "инноватор"-"последователь"-"консерватор" относится данный клиент. К каким из типов задач анализа данных близка эта задача?
(1) кластеризация
(2) прогнозирование
(3) классификация
(4) таксономия
Какой результат будет у функции is.finite(Inf-Inf)?
(1) TRUE
(2) FALSE
(3) NAN
(4) ошибка
Какие из перечисленных признаков таблицы представлены в абсолютной шкале? files
(1) никакие
(2) Temperature
(3) Humidity
(4) Temperature, Humidity
В каких из перечисленных случаях требуется СУБД со свойством расширяемости записей?
(1) в проекте требуется индексировать веб-страницы интернета. Каждый месяц аналитики анализируют и добавляют новые признаки, которые вычисляются по проиндексированной веб-странице
(2) требуется сохранять логи кластера серверов без требования оперативной аналитики
(3) требуется добавлять оценки пользователей музыкальным композициям для целей дальнейшей выдачи рекомендаций
(4) требуется сохранять все сообщения электронной почты, проходящие через корпоративный узел
Отметьте неверное понимание Variety в контексте характеристик Big Data:
(1) высокая скорость генерирования данных
(2) разные типы данных в колонках таблиц реляционных СУБД
(3) разнообразие отраслей, являющихся источниками данных
(4) разнообразие типов данных, включающих в себя структурированные, полуструктурированные и неструктурированные
Компания, проводящая социологические опросы, испытывает сложности с верификацией данных, поступающих от волонтеров непосредственно опрашивающих респондентов: многие анкеты заполнены не полностью; волонтеры фальсифицируют результаты опроса, самостоятельно заполняя часть анкет. К какому типу задач анализа данных здесь прибегать не придётся?
(1) заполнение пробелов
(2) цензурирование
(3) прогнозирование
(4) классификация
Что вернет следующее выражение sum(1:3>1)?
2
Что выведет в приведённой схеме TextViewer? files
(1) число
(2) текст
(3) обучающую выборку
(4) контрольную и обучающую выборку
Какая из следующих СУБД не относится к типу документо-ориентированных?
(1) Cassandra
(2) MongoDB
(3) CouchDB
(4) Greenplum
Во сколько раз теоретически вырастет производительность при подсчёте числа слов в тексте при работе MapReduce при переходе от одного узла к двум? (Введите число.)
2
С некоторой периодичностью персонал предприятия списывает группы расходных материалов на различных участках учета. Для выявления ошибок, акты списания выборочно проверяются аудитором. Определены три категории: "ошибочные", "под сомнением", "безошибочные". К какому типу задач анализа данных относится задача о построении правила автоматического отнесения списаний к этим категориям.
(1) поиск информативных признаков
(2) кластеризация
(3) классификация
(4) цензурирование
Является ли ошибкой использование такой записи: x.x=1?
(1) да
(2) нет
Какой из языков наиболее богат библиотеками/фреймворками для интерактивной визуализации данных
(1) Java Script
(2) R
(3) Python
(4) с
Отметьте ту характеристику, которая объединяют СУБД Redis и CouchDB
(1) NoSQL
(2) поддержка MapReduce
(3) колоночная ориентированность
(4) высокая доступность
В чём преимущество колоночно-ориентированных СУБД?
(1) они позволяют выполнять более сложные SQL-запросы по сравнению с реляционными СУБД
(2) они позволяют динамически дополнять содержание записей новыми полями
(3) они имеют более гибкие возможности аналитики
(4) они позволяют эффективно делать межколоночные сравнения
В кардиологическом центре проводятся операции. До и во время операционного вмешательства с пациента снимаются определённые показания. Известны случаи осложнений во время проведения операций, эти случаи описаны тем же набором данных. Ранее были определены три группы риска среди пациентов. Все предыдущие случаи осложнений отнесены к определённым группам риска. Стоит задача определить группу риска для нового пациента, прошедшего дооперационные обследования. К какому типу относится эта задача анализа данных?
(1) прогнозирование
(2) кластеризация
(3) классификация
(4) цензурирование
Какая типизация в языке R?
динамическая
Алгоритм какого типа реализует функция randomForest()?
(1) кластеризации
(2) классификации
(3) регрессии
(4) визуализации в виде деревьев
Отметьте причины создания NoSQL баз данных:
(1) высокая стоимость горизонтальной масштабируемости RDBMS при сохранении требования высокой доступности
(2) недостаточная гибкость языка запросов SQL
(3) невозможность хранить большие объёмы данных
(4) дороговизна лицензий RDBMS
Выберите верное утверждение:
(1) Data Warehouse создаются для проверки гипотез при анализе больших данных
(2) "Песочница" используется для снижения нагрузки на основной Data Warehouse
(3) каждый Data Warehouse должен содержать "песочницу"
(4) "Песочница" необходима для любого процесса аналитики
Каким образом можно описать вектор (1,2,3,4,5,6)?
(1) 1:2+4:6
(2) 1:8-7:8
(3) 1:6
(4) 2:12/2
Имеет ли Python аналог Data Frame из R
(1) да, библиотека Pandas
(2) нет
(3) да, библиотека NumPy
(4) да, библиотека SciPy
Перечислите основные свойства графовых БД
(1) возможность хранить данные в качестве вершины графа с её свойствами
(2) возможность хранить данные в качестве ребра графа со свойствами
(3) возможность запускать адаптированные под графы алгоритмы обхода путей
(4) возможность хранить и обрабатывать триплеты RDF
Вы являетесь владельцем и аналитиком в компании из 10 человек, в которой требуется проанализировать продажи за 1 год (1 млн. продаж). Какие из этапов CRISP-DM можно опустить:
(1) понимание бизнеса (Business understanding)
(2) подготовка данных (Data Preparation)
(3) моделирование (Modeling)
(4) оценка (Evaluation)
Есть таблица со столбцами x, id, y, price. Выразите зависимость price от x,y?
(1) math
(2) math
(3) math
Что будет присвоено переменной res (Python) в следующем выражении res = [x for x in xrange(1,5, 2)]
(1) [1, 3]
(2) [1,2,3,4,5,1,2,3,4,5]
(3) [1,5,2]
(4) [152]
Hadoop – это:
(1) набор утилит, и программный каркас для выполнения распределённых программ, работающих на кластерах
(2) распределённая СУБД, позволяющая обрабатывать большие данные
(3) язык выполнения заданий в парадигме MapReduce
(4) распределённая файловая система, предназначенная для хранения файлов большого объёма
Необходимо реализовать интерактивную визуализацию данных, которая будет доступна широкому кругу людей, выберите наиболее подходящие инструменты
(1) Tableau
(2) JS фреймворк визуализации данных, например, D3
(3) Python matplotlib
(4) Weka
Основное преимущество Python перед R – это
(1) быстродействие
(2) элементы функционального программирования
(3) Python превосходит R, как язык программирования
(4) строго типизирован
Сколько Петабайт в Зеттабайте? Укажите число.
1024