Добавить вопрос
@mommyscience
Войти
Guest
Информация
Вопросы
Комментарии
Комментарий:
Ответ от Иван: Это диаграмма ящик с усами, которая используется для сравнения нескольких распределений между собой
к вопросу:
Что такое boxplot?
Комментарий:
Ответ от Nick: Основные фреймворки глубокого обучения на данный момент: Pytorch Tensorflow Keras Caffe/Caffe2 MXNet Thenao
к вопросу:
Какие фреймворки глубокого обучения вы знаете?
Комментарий:
Ответ от Nick: Хочу чтобы модель предсказывала заемщиков, которые не вернут кредит или вероятность, с которой заемщик вернет/не вернет кредит.
к вопросу:
Перевести на ML язык запрос менеджера: "хочу, чтобы модель выявляла почти всех "плохих" заемщиков"
Комментарий:
Ответ от Автор: Удобно на медицинском примере: ошибка I рода - не будем лечить больного, ошибка II рода - будем лечить здорового.
к вопросу:
Как объяснить бизнесу, что значат ошибки I и II рода?
Комментарий:
Ответ от pik94: Update: в линейной регрессии
к вопросу:
Какой функционал оптимизируется в задаче линейной регрессии? Как записать это в векторной записи?
Комментарий:
Ответ от Александр: Построить модель бинарной классификации
к вопросу:
Перевести на ML язык запрос менеджера: "хочу, чтобы модель выявляла почти всех "плохих" заемщиков"
Комментарий:
Ответ от Лось: Обозначим в выборке хорошего заёмщика за 0, плохого за 1. Тогда нужно построить модель, которая найдёт как можно больше единиц в данных, т.е. минимизировать false negative, т.е. максимизовать recall. На практике чистый recall оптимизируют редко, поэтосму лучше взять F-score с большим перекосом в сторону recall (т.е. beta > 1).
к вопросу:
Перевести на ML язык запрос менеджера: "хочу, чтобы модель выявляла почти всех "плохих" заемщиков"
Комментарий:
Ответ от pik94: Иван, плюс ещё сам ящик содержит в себе 50% выборки.
к вопросу:
Что такое boxplot?
Комментарий:
Ответ от AprendizEterno: Датасет - окружность outlier - её центр
к вопросу:
Дан 2-мерный датасет (2 признака). Нарисовать ситуацию, в которой outlier можно увидеть анализируя только 2 признака одновременно
Комментарий:
Ответ от AS: Nick, как банковский сотрудник уточню, кто такой "плохой заемщик" для банка - это заемщик, который пропустил три платежа подряд. "Мошенник" - тот, кто пропустил первый платеж (иногда - первый или второй).
к вопросу:
Перевести на ML язык запрос менеджера: "хочу, чтобы модель выявляла почти всех "плохих" заемщиков"
Комментарий:
Ответ от Никита: Автор, наоборот же. Ошибка первого рода - ложная тревога(мужчина забеременел, металоискатель сработал ложно). Ошибка второго рода уже опасней ошибки первого рода(женщина беременна, а ей говорят что нет, бомба прошла через металлоискатель, а он не сработал)
к вопросу:
Как объяснить бизнесу, что значат ошибки I и II рода?
Комментарий:
Ответ от Никита: Никита, ошибка первого рода (false positive) лечим здорового, ошибка второго рода(false negative) не лечим больного.
к вопросу:
Как объяснить бизнесу, что значат ошибки I и II рода?
Комментарий:
Ответ от Никита: Никита, если у нас нулевая гипотеза H0 - человек здоров.
к вопросу:
Как объяснить бизнесу, что значат ошибки I и II рода?
Комментарий:
Ответ от Greg: 3 * 128 * (5*5) + 128 = 9728 Поправьте, если не прав (впервые по памяти формулу вспоминаю)
к вопросу:
Число пареметров в conv2d(in_channels = 3, out_channels = 128, size = (5x5))?
Комментарий:
Ответ от Greg: Чтобы ускорить работу сетки, путём уменьшения размерности (числа каналов). Наглядный пример - googLeNEt (inception блоки).
к вопросу:
Зачем нужна свертка размером 1х1?
Комментарий:
Ответ от Max: Бросок монетки распределен за законом Бернулли. Из закона великих чисел мы знаем, что среднее значение n i.i.d. переменных сходится к теоретическому среднему значению при [code]n -> inf[/code]. То есть, если провести 5 экспериментов, записать среднее значение, потом провести еще 5 и записать среднее значение 10 проведенных экспериментов и продолжить этот процесс, можно увидеть, что записанные значения будут всё ближе и ближе к 0.6, то есть теоретическому среднему. Чтобы понять, сколько экспериментов надо провести, можно использовать центральную предельную теорему. Для этого можно переформулировать вопрос: сколько надо экспериментов, чтобы из заданной уверенностью ([code]1 - alpha[/code]) сказать что разница между эмпирическим и теоретическим средними достаточно мала или: [code] Pr(|Kn - mu| > eps) <= alpha[/code], где [code]Kn = (X1 + ... + Xn) / n, mu = E(Kn) = p[/code], [code]eps[/code] - допустимое различие. Далее [code] |Kn - mu| > eps <=> |Kn - mu| / std(Kn) > eps / std(Kn) => Pr(|Kn - mu| / std(Kn) > eps / std(Kn)) (approx.) = Pr(|Z| > eps / std(Kn)) = = Pr(|Z| > eps * sqrt(n)/p(1-p)) = 2Pr(Z > eps * sqrt(n)/p(1-p)) = = 2 (1 - Pr(Z <= eps * sqrt(n)/p(1-p))) = alpha [/code] [code] Pr(Z <= eps * sqrt(n)/p(1-p))[/code] - это кумулятивная функция распределения Z (то есть её значения заранее известны), a Z имеет стандартное нормальное распределение (из-за теоремы). Таким образом, единственное неизвестное здесь - n, и уравнение можно легко решить.
к вопросу:
Фальшивая монетка падает орлом в 60% случаев (а не в 50). За сколько подбрасываний и как можно определить что монетка фальшивая?
Комментарий:
Ответ от pik94: Никита, при Вашей гипотезе Вы все верно расписали. Я имел в виду H0 - человек болен. Надо было уточнить.)
к вопросу:
Как объяснить бизнесу, что значат ошибки I и II рода?
Комментарий:
Ответ от Kek: Хочу высокий recall
к вопросу:
Перевести на ML язык запрос менеджера: "хочу, чтобы модель выявляла почти всех "плохих" заемщиков"
Комментарий:
Ответ от Kirill: AprendizEterno, или, как вариант: все объекты лежат вдоль осей (как бы четвертью окружности), а outlier - в правом верхем
к вопросу:
Дан 2-мерный датасет (2 признака). Нарисовать ситуацию, в которой outlier можно увидеть анализируя только 2 признака одновременно
Комментарий:
Ответ от Kirill: надо смотреть на баланс классов. Это может быть бесполезный константный алгоритм на датасете с балансом классов 85 и 15. лучше смотреть на пресижн, реколл и auc-roc
к вопросу:
Если у алгоритма accuracy = 85%, то это хорошее качество?
Комментарий:
Ответ от Vladimir: Kirill, тогда сразу напрашиваемся вопрос «каким именно образом смотреть на указанные Вами метрики. Больше - лучше?»
к вопросу:
Если у алгоритма accuracy = 85%, то это хорошее качество?
Комментарий:
Ответ от Roma: Roc кривая - это график, позволяющий оценить качество бинарной классификации, отображает соотношение между долей объектов от общего количества носителей признака, верно классифицированных как несущие признак. Площадь под ROC-кривой AUC (Area Under Curve) является характеристикой качества классификации, не зависящей от соотношения цен ошибок. Чем больше значение AUC, тем лучше модель классификации. Данный показатель часто используется для сравнительного анализа нескольких моделей классификации.
к вопросу:
Объяснить, что такое ROC/AUC
Комментарий:
Ответ от Alex: Вероятность события равна 1/2*1/2 = 1/4 Соответственно, 4 броска, я думаю)
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от Egor: Alex, но события же независимые? или я ошибаюсь?
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от Egor: P-value — это величина, используемая при тестировании статистических гипотез, это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода). Обычно P-значение равно вероятности того, что случайная величина с данным распределением (распределением тестовой статистики при нулевой гипотезе) примет значение, не меньшее, чем фактическое значение тестовой статистики.
к вопросу:
Что такое p-value?
Комментарий:
Ответ от Alex: Egor, так вероятность последовательных независимых событий и равна произведению их вероятностей :)
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от Lony: Вот неплохая статья на эту тему на русском [title](https://neurohive.io/ru/vidy-nejrosetej/resnet-34-50-101/)
к вопросу:
В чем идея ResNet?
Комментарий:
Ответ от Egor: Alex, спасиб
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от Максим : В блоге Александра Дьяконова дано очень понятное определение roc_auc
к вопросу:
Объяснить, что такое ROC/AUC
Комментарий:
Ответ от Roman: 6
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от Ser: Roman, почему?
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от Pharmakon: Двоичная энтропия по Шеннону для независимых случайных событий с вероятностями [code]p1, p2, ..., p_n[/code] равна [code]-Sum(p_i*log(p_i)[/code] по всем [code]i[/code] от [code]1[/code] до [code]n[/code] (логарифм двоичный). Для k-нарной энтропии основание логарифма заменить на [code]n[/code]. P.S. А можно сюда TeX прикрутить какой-нибудь? Было бы здорово.
к вопросу:
Написать формулу энтропии
Комментарий:
Ответ от Roman: Пусть монетка в среднем бросается n раз. Тогда n = (1/2)*(n+1) + (1/4)*(n+2) + (1/4)*2
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от Максим : Это означает, что неправильно задан target. В этом случае нужно пересчитать полученные вероятности p, как 1-p. AUC_ROC получится больше 0.5
к вопросу:
Что значит AUC <0.5? Что с ним делать?
Комментарий:
Ответ от Ко-ко петух: Встречал эмпирическую зависимость lr=0.1*batch_size/256.
к вопросу:
Как связаны размер батча и learning rate? Что нужно сделать с learning rate при уменьшении размера батча?
Комментарий:
Ответ от lex-sey: Mean -среднее арифметичское median - медиана
к вопросу:
Mean/median/mode — что это?
Комментарий:
Ответ от Кирилл: Можно найти через мат ожидание до попадания в поглощающее состояние (второй бросок решки подряд) марковской цепи. Пусть О - кол-во бросков после выпадения орла, Р - после решки, получаем систему Р = 1 + 0.5*О; О = 1 + 0.5*О + 0.5*Р. Получив О = 6, Р = 4, находим время после первого броска 1 + 0.5*6 + 0.5*4 = 6
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от pik94: Тут есть два варианта решения. 1. Можно воспользоваться свойством "забывания" и составить систему из линейных уравнений. Если ее решить, то ответ будет 6. 2. Я решал "в лоб" через определение матожидания. Вероятность выпадения последовательности длины "n" с двумя решками на конце можно свести к подсчёту комбинаций, когда "n-3" местах ни одна из единиц не стоит рядом, что сводится к вычислению чисел Фибоначчи. В итоге получаем сходящийся ряд, и его сумма тоже будет 6.
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от Никита: n вроже выводится из формулы нахождения z или t статистики 
к вопросу:
Как вычислить минимальный размер выборки для проведения A/B теста?
Комментарий:
Ответ от Никита: https://yadi.sk/i/SWmXVEyDFIZhfg
к вопросу:
Как вычислить минимальный размер выборки для проведения A/B теста?
Комментарий:
Ответ от Ко-ко петух: Kirill, roc_auc с дисбалансом классов тоже так себе метрика
к вопросу:
Если у алгоритма accuracy = 85%, то это хорошее качество?
Комментарий:
Ответ от Максим Тарасов : Если f(x, x1, x2) = (x-x1)(x-x2), также f(x) = a*x^2 + b*x + c. Мы можем тренировать параметры x1 и x2 чтобы фитнуть MSE(f(x, x1, x2), f(x))
к вопросу:
Дано квадратное уравнение, имеющее ровно два корня. Как можно решить его с помощью градиентного спуска?
Комментарий:
Ответ от Pavel: AUC Precison Recal Cruve
к вопросу:
Какие метрики не чувствительны к несбалансированности классов?
Комментарий:
Ответ от Дмитрий Серебрянский: Одна из лучших иллюстраций, которую я видел и которая сразу запоминается:  Ошибка первого рода и второго соответственно.
к вопросу:
Как объяснить бизнесу, что значат ошибки I и II рода?
Комментарий:
Ответ от Max: pik94, 2 - это интересный подход. Можно поподробней?
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от pik94: Max, надеюсь, ТЕХ распарсится тут. Если описать вероятностное пространство, то оно будет состоять и последовательностей вида: 11 011 **011 ***011 и т.д, где вместо * - либо 0, либо 1, причем так, чтобы две единицы не стояли рядом. Введем случайную величину $$\ksi$$, которая возвращает число шагов до ожидаемого события. В данном случае $$\ksi = n $$, где n - длина фиксированной последовательности с выигрышной комбинацией. Теперь надо посчитать вероятность выпадения нашей выигрышной комбинации для каждого фиксированного n. Всего есть [latex]2^n[/latex] исходов. Теперь воспользуемся свойством чисел Фибоначчи: количество последовательностей из 0 и 1, в которых ни одна из единиц не стоит рядом, равна n+2 числу Фибоначчи. Это можно доказать по индукции. Правда, я посчитал в лоб через сочетания, а потом лишь наткнулся на это свойство. В силу того, что у нас последовательность всегда должна заканчиваться на 011, то получаем, что остаётся лишь n-3 места для применения этого свойства, т.е. вероятность выпадения комбинации равна [latex]F_{n-1}/2^n[/latex]. Тогда по определению матождания получим: [latex]\sum_{n=2}^{\infty} n F_{n-1}/2^n = 6[/latex]. Можно подобным образом рассуждать для случая, когда игра окончится при выражении 01. Тоже получится ряд, но более простой, и сходиться будет к 4.
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от pik94: Max, к сожалению, не распарсился. Ещё и ВП поломалось. 11 011 •011 ••011 И т.д.
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от Dmitry: В бустинге каждый следующий предиктор исправляет ошибки предыдущего, дополнительно настраивается learning rate
к вопросу:
В чем отличие градиентного бустинга над деревьями от случайного леса? Какие базовые параметры настраиваются?
Комментарий:
Ответ от Max: pik94, спасибо
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Ответ от Roman: хорошо, но можно лучше :)
к вопросу:
Как работает логистическая регрессия?
Комментарий:
Ответ от Nicky: А mode - признак имеющий наибольшую частоту в распределении.
к вопросу:
Mean/median/mode — что это?
Комментарий:
Ответ от Анна: Эта задача решается через формулу Байеса. 1) Сначала нужно найти вероятность (P(A)) того, что выбранный наугад житель города будет (!) больным: В - убеждение (гипотеза), что есть город, где 1% населения точно больны. Получается, вероятность P(B) = 0,01. Тогда остальные люди здоровы - P(B^) = 0,99 Вероятность того, что человек болен - P(A|B) = 0,99 , тогда вероятность того, что человек здоров - P(A^|B^) = 0,01. P(A) = P(B)*P(A|B) + P(B^)*P(A^|B^) = 0,01*0,99 + 0,99*0,01 = 0,0198 2) Теперь вычислим вероятность того, что выбранный наугад житель города болен, т.е. переоценим вероятность В. P(B|A) = (P(B)*P(A|B)) / P(A) = (0,01*0,99) / 0,0198 = 99/198 = 1/2 - вероятность того, что выбранный наугад житель города болен :)
к вопросу:
Есть тест, который определяет болен человек или нет с вероятностью 99%. Есть город, про который известно, что 1% населения точно больны. Найти вероятность, что выбранный наугад житель города болен?
Комментарий:
Ответ от сайентолог: хз
к вопросу:
Что такое скользящая средняя?
Комментарий:
Ответ от Александр: Анна, хм выглядит странно, чисто логически если 1% больных в городе, то как отбирая наугад жителей каждый второй будет болен? Судя по условию «найти что выбранный наугад житель болен» то скорее всего и будет 1%. Нам же не говорится о том что найти вероятность с которой тест правильно определит больных. Может быть ошибка в формулировке. В данном случае вероятность 1/2 это вероятность правильно определить больного.
к вопросу:
Есть тест, который определяет болен человек или нет с вероятностью 99%. Есть город, про который известно, что 1% населения точно больны. Найти вероятность, что выбранный наугад житель города болен?
Комментарий:
Ответ от Василий: Александр, при такой постановке вопроса выглядит, действительно, странно. Я думаю, что имелся ввиду вопрос: "Найти вероятность, что выбранный наугад житель города болен, <b>при условии, что тест положителен</b>?" Если вопрос ставить таким образом, то Анна права. А на вопрос в оригинале ответ 0.01
к вопросу:
Есть тест, который определяет болен человек или нет с вероятностью 99%. Есть город, про который известно, что 1% населения точно больны. Найти вероятность, что выбранный наугад житель города болен?
Комментарий:
Ответ от Vladimir: Обязательно нужны формулы чего-нибудь сложнее accuracy и RMSE. Бонусом будут достоинства и недостатки конкретных метрик.
к вопросу:
Виды метрик машинного обучения?
Комментарий:
Ответ от Автор: https://en.wikipedia.org/wiki/Reservoir_sampling
к вопросу:
Как получить равновероятный сэмпл из большого числа строк?
Комментарий:
Ответ от Anna : Задачка из профильного ЕГЭ по математике
к вопросу:
Есть тест, который определяет болен человек или нет с вероятностью 99%. Есть город, про который известно, что 1% населения точно больны. Найти вероятность, что выбранный наугад житель города болен?
Комментарий:
Ответ от Vladimir: Делают, у xgboost есть booster=gblinear.
к вопросу:
Почему не делают бустинг над линейными моделями?
Комментарий:
Ответ от Vladimir: F1 Какая-то статья про это: https://medium.com/usf-msds/choosing-the-right-metric-for-evaluating-machine-learning-models-part-2-86d5649a5428
к вопросу:
Какие метрики не чувствительны к несбалансированности классов?
Комментарий:
Ответ от Автор: Кидаем нашу монетку 2 раза. ОР считаем за 1, РО считаем за 0, ОО и РР перебрасываем.
к вопросу:
Как с помощью нечестной монетки получить два равновероятных исхода
Комментарий:
Ответ от Pharmakon: LabelEncoding кодирует текстовые фичи числами ('A' -> 1, 'B' -> 2, 'B' ->2, 'C' -> 3), а FrequencyEncoding — частотами ('A' -> 0,25, 'B' -> 0,5, 'C' -> 0,25).
к вопросу:
Что такое LabelEncoding и FrequencyEncoding ?
Комментарий:
Ответ от Pharmakon: Это метрика качества теста, одинаково учитывающая precision и recall. Формула: F=2*precision*recall/(precision+recall).
к вопросу:
Что такое F-score и зачем его используют?
Комментарий:
Ответ от Pharmakon: Лол, не подумал, про две звездочки. Ну понятно, что там умножение, короч.
к вопросу:
Что такое F-score и зачем его используют?
Комментарий:
Ответ от Pharmakon: Чтобы фичи с разными абсолютным значениями имели один и тот же вес.
к вопросу:
Зачем нормировать данные для линейных моделей?
Комментарий:
Ответ от Антон : В случайном лесе, бустинге лучше короткие) 1-6 веток) в других задачах нужно строить переобученное дерево, затем подрезать и смотреть качество
к вопросу:
Какие деревья лучше брать: низкие или высокие?
Комментарий:
Ответ от Антон : Когда признаков сто тыщ миллионов или данные разряжены
к вопросу:
Когда случайный лес работает хуже линейной классификации?
Комментарий:
Ответ от Алексей: Антон, а разве в random forest не глубокие деревья строятся? А с переобучением справляется усреднение по большому числу деревьев, не?
к вопросу:
Какие деревья лучше брать: низкие или высокие?
Комментарий:
Ответ от rgalyeon: Нужно решить задачу бинарной классификации с высоким значением полноты (recall). Фиксируем recall (уточняем, какой процент удовлетворяет заказчика) и пытаемся максимизировать precision
к вопросу:
Перевести на ML язык запрос менеджера: "хочу, чтобы модель выявляла почти всех "плохих" заемщиков"
Комментарий:
Ответ от Автор: Ожидают рассказ с упоминанием о том, что это конструктор класса, который вызывается при создании объекта класса.
к вопросу:
Что такое метод __init__ в Питоне?
Комментарий:
Ответ от Автор: [code]language x = True y = False z = False if not x or y: print(1) elif x and not y and z: print(2) elif not x or not y or x and not z: print(3) else: print(4) [/code]
к вопросу:
Что выведет программа (2)?
Комментарий:
Ответ от Автор: [code]language a = 1, 2, 3, 4, 5 b = a b2 = 1 print(a) b4 = 1 print(b) [/code]
к вопросу:
Что выведет программа?
Комментарий:
Ответ от Максим: Смотря в каком алгоритме они применяются - если градиентный бустинг, то строятся неглубокие деревья (max_depth от 2 до 6 обычно). Идея в том, что такие деревья дают сильное смещение и с помощью суммы прогнозов потом мы это смещение уменьшаем. В случайном лесе наоборот строятся глубокие деревья (max_depth 16 и выше обычно), каждое из которых обладает очень большой дисперсией и усреднение прогнозов потом ее уменьшает. Ну и да - подрезка деревьев, а также такие параметры как subsample, solsample by list/tree, alfa/gamma/lambda (для XGBOOST) также направлены на борьбу с переобучением.
к вопросу:
Какие деревья лучше брать: низкие или высокие?
Комментарий:
Ответ от Vladimir: Ну тогда сразу - чем `__init__` отличается от `__new__`? - что должны возвращать `__init__` и `__new__`? - можно ли вызвать `__init__` у уже созданного объекта? - можно ли создать объект без вызова его `__init__`? - вызовется ли `__init__` при распикливании объекта?
к вопросу:
Что такое метод __init__ в Питоне?
Комментарий:
Ответ от Boosting: Boosting
к вопросу:
Какие понятия позволяют строить ансамбли алгоритмов?
Комментарий:
Ничего не произойдёт
к вопросу:
Есть линейная регрессия и xgboost Есть матрица объект-признак где есть один супер информативный признак. Мы берём и создаём 10 копий этого признака + случайных шум. Что станет с моделями?
Комментарий:
3*x^2 * y*2 = [latex]6x^2y[/latex] (Это что, вопрос с подвохом? Нужно догадаться что y*2 это на самом деле [latex]y^2[/latex]?)
к вопросу:
Вычислите производную по x
Комментарий:
Все кроме a) линейная регрессия.
к вопросу:
Алгоритмы классификации
Комментарий:
Алексей, обычное умножение ведь. Имеется ввиду [latex] 2x^3y + 3y^2 [/latex]
к вопросу:
Вычислите производную по x
Комментарий:
Guest, из этого и исходил. Но, [latex]x^3 y 2[/latex] – кто ж так пишет?
к вопросу:
Вычислите производную по x
Комментарий:
Guest, В бустинге короткие, а в случайном лесе - глубокие.
к вопросу:
Какие деревья лучше брать: низкие или высокие?
Комментарий:
От 0 (ключи абсолютно разные) до N * K (если все ключи 2 таблицы равны одному значению и все ключи 1 таблицы равны этому же значению)
к вопросу:
Inner Join таблиц
Комментарий:
Мб стоит добавить сюда же: квартили(персентили) сигму размах выбросы
к вопросу:
Mean/median/mode — что это?
Комментарий:
Болен автор вопроса, с вероятностью 1.0
к вопросу:
Есть тест, который определяет болен человек или нет с вероятностью 99%. Есть город, про который известно, что 1% населения точно больны. Найти вероятность, что выбранный наугад житель города болен?
Комментарий:
Не знаю задумано так или нет, но вернет [code]SyntaxError: invalid syntax[/code] потому что [code]yield[/code] а не [code]yeld[/code] )
к вопросу:
Что вернёт функция:
Комментарий:
1. Нужно найти вероятность того, что никто 5 не любит пиво. Вероятность того, что человек не любит пиво => 1 - 0.2 = 0.8 2. Вероятность того, что никто из 5 не любит пиво => P = 0.8 ^ 5 = 0.32768 3. Вероятность, что хотя бы один любит пиво: 1 - P => 1 - 0.32768 = 0.67232
к вопросу:
Есть 5 любителей пива. Каждый из них любит футбол с вероятностью Р = 0.2. Какова вероятность, что хоть один из них любит футбол?
Комментарий:
0
к вопросу:
Есть квадратное уравнение (см. описание). Найти вероятность Р(х) при которой уравнение имеет только один корень
Комментарий:
Что-то не понятно: функция от двух переменных, и нужно лишь вычислить производную по одной из них? (я так понимаю, уравнение изменилось с момента предыдущих комментариев)
к вопросу:
Вычислите производную по x
Комментарий:
[30,40,50]
к вопросу:
Что вернёт функция:
Комментарий:
1:2
к вопросу:
В городе живет N семей
Комментарий:
Рауф, почему?
к вопросу:
В городе живет N семей
Комментарий:
Resampling Techniques — Oversample minority class Resampling techniques — Undersample majority class Generate synthetic samples (SMOTE)
к вопросу:
Методы борьбы с дисбалансом классов
Комментарий:
Регуляризацией! Штрафовать модель за слишком большие веса.
к вопросу:
Как бороться с переобучением?
Комментарий:
1:2
к вопросу:
В городе живет N семей
Комментарий:
Очевидно пополам, возьмем например 100 семей, на первой итерации у нас будет 50 мальчиков к 50 девочкам, соотношение 1 к 1, на второй итерации 50 семей заводят еще ребенка и у нас снова поровну девочек и мальчиков, соотношение не меняется, и так до самого низа.
к вопросу:
В городе живет N семей
Комментарий:
Guest, разве вероятность ошибки первого рода (или уровень значимости) это не [latex]\alpha[/latex]?
к вопросу:
Что такое p-value?
Комментарий:
Alex-geniy, не правильно. Напиши код, увидишь.
к вопросу:
В городе живет N семей
Комментарий:
[latex] x^2 [/latex][code][/code]
к вопросу:
В городе живет N семей
Комментарий:
SyntaxError: invalid syntax
к вопросу:
Что вернёт функция:
Комментарий:
9x^2*y^4
к вопросу:
Вычислите производную по x
Комментарий:
1/5
к вопросу:
Есть 5 любителей пива. Каждый из них любит футбол с вероятностью Р = 0.2. Какова вероятность, что хоть один из них любит футбол?
Комментарий:
Все зависит от статистики рождаемости мальчиков и девочек. Если допустить, что всегда рождается одинаковое количество, то ответ 1:1. Можно вывести разные значения при разных коэффициентах: [code] for i in range(1, 10): N = 100 boys = 0 girls = 0 coefficient = i/10 while boys < 100: boys += (coefficient * N) girls += ((1-coefficient) * N) print(f"{coefficient}: {boys}, {girls}, {boys/girls}") [/code] [code] 0.1: 100.0, 900.0, 0.1111111111111111 0.2: 100.0, 400.0, 0.25 0.3: 120.0, 280.0, 0.42857142857142855 0.4: 120.0, 180.0, 0.6666666666666666 0.5: 100.0, 100.0, 1.0 0.6: 120.0, 80.0, 1.5 0.7: 140.0, 60.00000000000001, 2.333333333333333 0.8: 160.0, 39.99999999999999, 4.000000000000001 0.9: 180.0, 19.999999999999996, 9.000000000000002 [/code]
к вопросу:
В городе живет N семей
Комментарий:
SyntaxError: invalid syntax
к вопросу:
Что вернёт функция:
Комментарий:
1
к вопросу:
Сколько операций в О-нотации требуется для доступа к элементам:
Комментарий:
Уточню предыдущий ответ: Доступ по индексу для list и tuple занимает константное время и не требует обхода элементов. Доступ в dict по ключу тратит время на вчисление хэша, что тоже можно считать константным, и не тратит время на поиск обходом. Для set - нельзя получить доступ к элементу по индексу, поэтому худший вариант - n
к вопросу:
Сколько операций в О-нотации требуется для доступа к элементам:
Комментарий:
Если рождение мальчика или девочки равновероятно, то соотношение будет 1:1. Была такая же задача в Форд-Боярде математиком в Fless'a
к вопросу:
В городе живет N семей
Комментарий:
1:1
к вопросу:
В городе живет N семей
Комментарий:
Это параметрический тест, а значит это должно быть нормальное распределение + равенство дисперсий + минимальое количество наблюдений в каждой группе, в идеале штук 30
к вопросу:
АБ тесты. Когда можно применять t-тест? (перечислить требования к данным для t-теста)
Комментарий:
Если исправить yeld на yield то вернет [30, 40, 50]
к вопросу:
Что вернёт функция:
Комментарий:
Деление пополам даст искомую сложность
к вопросу:
Есть два списка одинакового размера
Комментарий:
Эта вероятность есть отношение значения ко всему множеству, в данном случае, т.к значений в множестве бесконечно - то вероятность = 0.
к вопросу:
Есть квадратное уравнение (см. описание). Найти вероятность Р(х) при которой уравнение имеет только один корень
Комментарий:
соотношение будет: на 1,5 мальчика - 1 девочка.
к вопросу:
В городе живет N семей
Комментарий:
0.03 Квадратное уравнение имеет один корень <=> дискриминант = 0 => a = 4b => P(a=4b)=P(b<=0.25)=(0.5*0.25^2)/(1-0.5*0.25^2) ~~ 0.03
к вопросу:
Есть квадратное уравнение (см. описание). Найти вероятность Р(х) при которой уравнение имеет только один корень
Комментарий:
Ответ 0,0198 По формуле полной вероятности P(A) = P(B)*P(A|B) + P(B^)*P(A^|B^) = 0,01*0,99 + 0,99*0,01 = 0,0198
к вопросу:
Есть тест, который определяет болен человек или нет с вероятностью 99%. Есть город, про который известно, что 1% населения точно больны. Найти вероятность, что выбранный наугад житель города болен?
Комментарий:
Каждый следующий алгоритм в градиентном бустинге обучается так, чтобы исправить ошибки предыдущих базовых алгоритмов, которыми могут быть неглубокие деревья. Базовые параметры - размер шага, число итераций. Случайный лес — композиция глубоких деревьев, которые строятся независимо друг от друга. Базовые параметры - максимальное число признаков, количество деревьев
к вопросу:
В чем отличие градиентного бустинга над деревьями от случайного леса? Какие базовые параметры настраиваются?
Комментарий:
Временной ряд y1, . . . , yT называется стационарным, если для любого s (ширина окна) распределение yt, . . . , yt+s не зависит от t, т.е. его свойства не зависятот времени. Из этого определения следует, что ряды, в которых присутствует тренд, являются нестационарными
к вопросу:
Какой ряд называется стационарным?
Комментарий:
Kamo Petrosyan, [code]set[/code] -- это хеш-таблица в Python. Поэтому поиск и проверка будет за амортизированные O(1).
к вопросу:
Сколько операций в О-нотации требуется для доступа к элементам:
Комментарий:
Пусть [latex]H_0[/latex] - нулевая гипотеза, [latex]H_1[/latex] - альтернатива. Тогда статистическая мощность равна вероятности отклонения нулевой гипотезы при условии, что альтернатива верна, то есть [latex]power = P( \overline{H_0} \: | \: H_1)[/latex]. Также статистическая мощность равна [latex]1 - \beta[/latex], [latex]\beta[/latex] - вероятность ошибки второго рода
к вопросу:
Что такое статистическая мощность?
Комментарий:
Зависит от нашего способа построения доверительного интервала. Если мыпредполагаем, что наша выборка взята из нормального распредления, то дляпостроения доверительного интервала хватит и небольшого числа эксперимен-тов. В случае использования Центральной Предельной Теоремы необходимообеспечить достаточно высокую скорость сходимости к норальному распределению, поэтому количество экспериментов должно быть большим.
к вопросу:
Сколько нужно провести экспериментов, чтобы построить доверительный интервал?
Комментарий:
Временной ряд [latex] X_t[/latex] называется стационарным, если [latex] \mathbb{E}X_t = const[/latex] и [latex] cov(X_t, X_s) = f(t - s)[/latex] для всех [latex] t \geqslant s[/latex] и некоторой функции [latex] f[/latex] .
к вопросу:
Какой ряд называется стационарным?
Комментарий:
Минимальный уровень значимости, при котором нулевая гипотеза отвергается. [latex]p-value[/latex] используется при проверке статистических гипотез, а именно нулевая гипотеза отвергается, если [latex]p-value[/latex] меньше, чем используемый уровень значимости.
к вопросу:
Что такое p-value?
Комментарий:
Для задачи линейной регрессии [latex]Y = X w + \varepsilon[/latex], где [latex]\varepsilon \sim \mathcal{N}(0, \Sigma)[/latex] и не зависит от [latex]X[/latex] задача минимизации функционала ошибки в случае регуляризации выглядит следующим образом: [latex]\Vert Y - X w\Vert^2_2 + \lambda \Vert w \Vert^p_p \rightarrow \min_w,[/latex] где [latex]\Vert \cdot \Vert_p [/latex] - [latex]L_p[/latex]- норма. [latex]p = 1[/latex], в случае [latex]L_1[/latex] - регуляризации, [latex]p = 2[/latex], в случае [latex]L_2[/latex] - регуляризации. В случае [latex]L_1[/latex] - регуляризации решение в явном виде не может быть выписано, однако некоторые [latex]w_i[/latex] могут обнулиться, тем самым [latex]i[/latex]-й признак не имеет вклада в предсказание целевой переменной. В случае [latex]L_2[/latex] - регуляризации [latex]w[/latex] находится аналитически по формуле [latex]w = (\lambda I + X^T X)^{-1} X^T Y[/latex]. Используется по умолчанию во многих алгоритмах, поскольку при вырожденности матрицы [latex]X^T X[/latex] решение оказывается не единственным, а при ее плохой обусловленности неустойчивым.
к вопросу:
Как работает регуляризация для линейной регрессии?
Комментарий:
Пусть [latex]\{A_i\}_{i=1}^{n}[/latex] - последовательность независимых в совокупности событий, имеющих вероятность [latex]\{p_i\}_{i=1}^{n}[/latex] соответственно. Тогда двоичная энтропия по Шеннону равна: [latex]H(p_1, ..., p_n) = -\sum_{i=1}^n p_i \log_2 p_i.[/latex] Ссылка: https://en.wikipedia.org/wiki/Entropy\_(information\_theory)
к вопросу:
Написать формулу энтропии
Комментарий:
Метрические алгоритмы, разновидностью которых являются линейные модели, делают выводы, исходя из расстояния между объектами. Этим обусловлена чувствительность к масштабу, так как бОльшие по модулю значения делают бОльший вклад. Именно поэтому необходимо сначала масштабировать признаки.
к вопросу:
Зачем нормировать данные для линейных моделей?
Комментарий:
Критерий Джини: https://victorzhou.com/blog/gini-impurity/ Критерий Кульбака-Лейбнера: https://www.countbayesie.com/blog/2017/5/9/kullback-leibler-divergence-explained
к вопросу:
Какие критерии разбиения используются в random forest?
Комментарий:
Stacking - использования нескольких алгоритмов для решения одной задачи машинного обучения. Bagging - композиционный метаалгоритм обучения. Boosting - композиционный метаалгоритм обучения, состоит из итеративного обучения слабых алгоритмов с целью сборки их в сильный алгоритм.
к вопросу:
Какие понятия позволяют строить ансамбли алгоритмов?
Комментарий:
Байесовский классификатор, нейронная сеть, случайный лес, SVC, логистическая регрессия. https://habr.com/ru/company/iticapital/blog/262155/
к вопросу:
Алгоритмы классификации
Комментарий:
Каждая строка одной таблицы сопоставляется с каждой строкой второй таблицы, после чего для полученной «соединённой» строки проверяется условие соединения (вычисляется предикат соединения). Если условие истинно, в таблицу-результат добавляется соответствующая «соединённая» строка. Таблица 1 - ключ 'key' - N строк Таблица 2 - ключ 'key' - K строк Делаем inner join по ключу 'key'. Назовите минимальную и максимальную размерность результирующей таблицы. Inner join соответствует конкатенации по пересечению множеств ключей двух таблиц, поэтому минимальный размер результирующей таблицы равен 0, если пересечение пусто, а максимальный [latex]\min(K, N)[/latex].
к вопросу:
Inner Join таблиц
Комментарий:
Выбор именно этой функции можно обосновать, рассматривая логистическую регрессию, как обобщённую линейную модель в предположении, что зависимая переменная распределена по закону Бернулли. Воспользуемся формулой Байеса: [latex]P(y = 1 | x) = \dfrac{P(x | y = 1) P(y = 1)}{P(x)} = \dfrac{P(x | y = 1) P(y = 1)}{P(x | y = 1) P(y = 1) + P(x | y = 0) P(y = 0)} = [/latex] Если зависимая переменная распределена по закону Бернулли, то [latex]P(y = 0) = P(y = 1) = 0.5[/latex] Следовательно, [latex]= \dfrac{P(x | y = 1)}{P(x | y = 1) + P(x | y = 0)} = \dfrac{1}{1 + \dfrac{P(x | y = 0)}{P(x | y = 1)}} = \dfrac{1}{1 + e^{- \log \dfrac{P(x | y = 1)}{P(x | y = 0)}}} = \dfrac{1}{1 + e^{-z}}[/latex], где [latex]z = \log \dfrac{P(x | y = 1)}{P(x | y = 0)}[/latex].
к вопросу:
Почему в логистической регрессии используется именно сигмоида?
Комментарий:
В линейной моделе столкнемся с проблемой мультиколлинеарности признаков, и общее качество упадет. xgboost же успешно справится с мультиколлинеарностью признаков и удалит соответствующие колонки.
к вопросу:
Есть линейная регрессия и xgboost Есть матрица объект-признак где есть один супер информативный признак. Мы берём и создаём 10 копий этого признака + случайных шум. Что станет с моделями?
Комментарий:
Случайный лес: чем больше деревьев, тем лучше качество, но время настройки и работы также пропорционально увеличиваются. Обратите внимание, что часто при увеличении N_estimators качество на обучающей выборке повышается, а качество на тесте выходит на асимптоту. Бустинг достаточно устойчив к увеличению количества деревьев, однако все-таки модель может переобучиться при столь значительном увеличении числа деревьев.
к вопросу:
Есть случайный лес и есть бустинг. Оба уже настроены с какими-то параметрами Берём и увеличиваем число деревьев в 10 раз. Что с каждым из алгоритмов станет?
Комментарий:
Данные о данных. Например, информация о параметрах алгоритма и обученной модели. Также метаданными служат типы признаков в матрице объект-признак, местоположение, отношения между признаками, качество данных, их описание.
к вопросу:
Что такое метаданные?
Комментарий:
Для градиентного бустинга используются невысокие деревья. Для случайного леса используются высокие переобученные деревья, которые потом
к вопросу:
Какие деревья лучше брать: низкие или высокие?
Комментарий:
Во-первых, потому что сигмоидальная функция удовлетворяет всем свойствам функции распределения, то есть она монотонно не убывает и ограничена от 0 до 1, и пределы значений сигмоиды при стремлении аргумента к плюс и минус бесконечности равны 0 и 1 соответственно. Во-вторых, потому что значение коэффициентов логистической модели выводятся, пользуясь методом максимального правдоподобия, который используется для оценки неизвестных параметров распределения с помощью функции правдоподобия.
к вопросу:
Почему лог. регрессия хорошо оценивает вероятность?
Комментарий:
[latex]F(\theta) \rightarrow \min_{\theta \in \chi},[/latex] где [latex]F[/latex] - функция потерь, [latex]\theta[/latex] - параметр модели, [latex]\chi[/latex] - множество параметров. То есть мы вводим функционал качества, который измеряет отклонение прогнозов нашей модели от реальных данных. Простейшим примером является метод наименьших квадратов в моделе линейной регрессии. Мы минимизируем сумму квадратов расстояний от ожидаемой плоскости до реальных данных по множеству параметров, определяющих плоскость.
к вопросу:
Опишите машинное обучение как задачу минимизации функционала ошибки
Комментарий:
Как получить равновероятный сэмпл из большого числа строк? Предположим, мы видим последовательность элементов, но по одному элементу за 1 раз. Мы хотим сохранить один элемент в памяти, и мы хотим, чтобы он был выбран случайным образом из данной последовательности. Если мы знаем общее количество элементов (n), то есть простое решение: выбрать индекс i между 1 и n с равной вероятностью, и выбрать i-ый элемент. Проблема заключается в том, что мы не всегда знаем n заранее. Возможное решение заключается в следующем: 1. Сохранить первый элемент в памяти. 2. Когда получим [latex]i[/latex]-й элемент (для [latex]i > 1[/latex]): с вероятностью [latex]\dfrac{1}{i}[/latex] сохранить первый элемент в памяти. с вероятностью [latex]1 - \dfrac{1}{i}[/latex] сохранить текущий элемент и отбросить новый элемент. Пример: когда есть только один элемент, он сохранится с вероятностью 1; когда есть 2 элемента, каждый из них сохранится с вероятностью [latex]\dfrac{1}{2}[/latex]; когда есть 3 элемента, третий элемент сохранится с вероятностью [latex]\dfrac{1}{3}[/latex], а каждый из предыдущих 2 пунктов также сохранится с вероятностью [latex](\dfrac{1}{2})(1-\dfrac{1}{3}) = (\dfrac{1}{2})(\dfrac{2}{3}) = \dfrac{1}{3}[/latex]; по индукции легко доказать, что при наличии [latex]n[/latex] элементов, каждый элемент сохранится с вероятностью [latex]\dfrac{1}{n}[/latex]. https://en.wikipedia.org/wiki/Reservoir\_sampling
к вопросу:
Как получить равновероятный сэмпл из большого числа строк?
Комментарий:
Начнем со всей обучающей выборки [latex]X[/latex] и найдем наилучшее ее разбиение на две части [latex]R_1(j,t) = \{x|x_j < t\}[/latex] и [latex]R_2(j,t) = \{x|x_j \geq t \}[/latex] с точки зрения заранее заданного функционала качества [latex]Q(X,j,t)[/latex]. Найдя наилучшие значения [latex]j[/latex] и [latex]t[/latex], создадим корневую вершину дерева, поставив ей в соответствие предикат [latex][x_j < t][/latex]. Объекты разобьются на две части — одни попадут в левое поддерево, другие в правое. Для каждой из этих подвыборок рекурсивно повторим процедуру, построив дочерние вершины для корневой, и так далее. В каждой вершине мы проверяем, не выполнилось ли некоторое условие останова — и если выполнилось, то прекращаем рекурсию и объявляем эту вершину листом. Когда дерево построено, каждому листу ставится в соответствие ответ. В случае с классификацией это может быть класс, к которому относится больше всего объектов в листе, или вектор вероятностей (скажем, вероятность класса может быть равна доле его объектов в листе). Для регрессии это может быть среднее значение, медиана или другая функция от целевых переменных объектов в листе. Выбор конкретной функции зависит от функционала качества в исходной задаче. После того, как дерево построено, можно провести его стрижку (pruning) — удаление некоторых вершин с целью понижения сложности и повышения обобщающей способности. https://www.hse.ru/mirror/pubs/share/215285956
к вопросу:
Как строится регрессионное дерево?
Комментарий:
Lable Encoding: однозначное сопоставление категориалных признаков и числовых значений. FrequencyEncoding: создание нового признака, равного частоте встречания исходного категориального признака в тренировочной выборке.
к вопросу:
Что такое LabelEncoding и FrequencyEncoding ?
Комментарий:
Конструирование признаков — это процесс использования предметной области данных для создания признаков, которые нужны для обучения моделей. Конструирование признаков является фундаментом для приложений машинного обучения, трудным и затратным.
к вопросу:
Как и зачем генерировать новые признаки?
Комментарий:
Конструирование признаков — это процесс использования предметной области данных для создания признаков, которые нужны для обучения моделей. Конструирование признаков является фундаментом для приложений машинного обучения, трудным и затратным. Признаки в ваших данных важны для используемых прогнозных моделей и влияют на результат, который вы собираетесь получить. Качество и количество признаков оказывают большое влияние на качество модели, будет она хорошей или нет. Можно сказать, что чем лучше признаки, тем лучше будет результат. Это не совсем полная правда, поскольку результат будет зависеть от модели и данных, не просто от выбранных признаков. Но отбор правильных признаков остаётся очень важным делом. Более качественные признаки могут дать более простую и более гибкую модель и часто они дают лучшие результаты. Процесс конструирования признаков состоит из: Метод мозгового штурма или проверка признаков; Решение, какие признаки создавать; Создание признаков; Проверка, какие признаки работают с вашей моделью; Улучшение признаков, если требуется; Возврат к методу мозгового штурма/создание других признаков, пока работа не будет завершена.
к вопросу:
Как и зачем генерировать новые признаки?
Комментарий:
[latex]A[/latex] - житель болен. [latex]B[/latex] - тест показал, что человек болен. [latex]P(A|B) = \dfrac{P(B|A)P(A) }{P(B|A)P(A) + P(B|\overline{A})P(\overline{A})} = 0.5 [/latex]
к вопросу:
Есть тест, который определяет болен человек или нет с вероятностью 99%. Есть город, про который известно, что 1% населения точно больны. Найти вероятность, что выбранный наугад житель города болен?
Комментарий:
Делается предположение о том, что вероятность наступления события [latex]y = 1[/latex] равна: [latex]\mathbb{P}(y = 1 | x = 1) = f(z)[/latex], где [latex]z = \theta_0 + \theta_1 x_1 + ... + \theta_n x_n[/latex], [latex]f(z) = \dfrac{1}{1 + \exp(-z)}[/latex] Тогда [latex]\mathbb{P}(y = 0 | x = 0) = 1 - f(z)[/latex]. [latex]\mathbb{P}(y | x) = f^y (z) (1 - f(z))^{1-y}[/latex], [latex]y \in \{0, 1\}.[/latex] Далее, с помощью метода максимального правдоподобия подбираются параметры [latex]\{\theta_k\}_{k=0}^n[/latex]. При решении задачи классификации,если [latex]\mathbb{P}(y = 1 | x) > 0.5[/latex], то объект относится к классу 1, и к классу 0 в противном случае.
к вопросу:
Как работает логистическая регрессия?
Комментарий:
Квадратное уравнение возникает при приравнивании квадратного трехчлена к нулю. Пусть он является производной многочлена третьей степени с нулевым свободным членом. Тогда задача сводится к нахождению локальных минимумов многочлена третьей степени с помощью градиентного спуска.
к вопросу:
Дано квадратное уравнение, имеющее ровно два корня. Как можно решить его с помощью градиентного спуска?
Комментарий:
Вероятность закончить игру на [latex]n[/latex]-м шаге ([latex]n\geq 3[/latex]) есть вероятность того, что последние два - решки, перед ними - орел, а в предшествующих [latex]n - 3[/latex] испытаниях не встретилось двух решек подряд, т.е [latex]P(\xi = n) = \dfrac{F_{n-1}}{2^3 2^{n-3}}[/latex], где [latex]F_{n-1} - n-1[/latex] число Фибоначчи. [latex]P(\xi = 2) = \dfrac{1}{4}[/latex] Как известно, число Фибоначчи [latex]F_{n+2}[/latex] равно числу двоичных наборов длиной n, в которых нигде не стоит двух единиц подряд. Рассмотрим представление чисел Фибоначчи через формулу Бине: [latex]F_{n} = \dfrac{(\dfrac{1 + \sqrt{5}}{2})^n - (\dfrac{1 - \sqrt{5}}{2})^n}{\sqrt{5}}[/latex] Тогда [latex]\mathbb{E} \xi = \dfrac{1}{2} + \sum_{n = 3}^{+ \infty} n \dfrac{(\dfrac{1 + \sqrt{5}}{2})^{n-1} - (\dfrac{1 - \sqrt{5}}{2})^{n-1}}{\sqrt{5}} \dfrac{1}{2^n} =[/latex] [latex]= \dfrac{1}{2} + \dfrac{1}{2 \sqrt{5}} (\sum_{n = 3}^{+ \infty} n \dfrac{(\dfrac{1 + \sqrt{5}}{2})^{n-1}}{2^{n-1}} - \sum_{n = 3}^{+ \infty} n \dfrac{(\dfrac{1 - \sqrt{5}}{2})^{n-1}}{2^{n-1}})[/latex]. Для суммирования необходимо рассмотреть соотношение для ряда [latex]\sum_{n=3}^{+ \infty} x^n = \dfrac{x^3}{1 - x}[/latex], который допускает почленное дифференцирование. Тогда [latex]\sum_{n=3}^{+ \infty} n x^{n - 1} = \dfrac{(3-2x)x^2}{(1 - x)^2}[/latex] Подставляя вместо [latex]x[/latex] [latex]\dfrac{(\dfrac{1 + \sqrt{5}}{2})}{2}[/latex] и [latex]\dfrac{(\dfrac{1 - \sqrt{5}}{2})}{2}[/latex] соответственно, после некоторых алгебраических преобразований получаем [latex]\mathbb{E} \xi = \dfrac{1}{2} + \dfrac{11 \sqrt{5}}{2 \sqrt{5}} = 6[/latex]
к вопросу:
Монетка бросается до тех пор, пока не выпадет две решки подряд. Сколько в среднем бросков надо сделать?
Комментарий:
Обе матрицы должны быть симметричны, и одна их них положительная определена. Тогда по теореме о диагонализации пары квадратичных форм, существует ортонормированный базис, в котором они обе диагональны. Матрица перехода между ортонормированными базисами ортогональная. Изначально матрицы записаны в стандартном базисе. http://scask.ru/q\_lect\_alg.php?id=84
к вопросу:
Как должны быть связаны между собой две матрицы, чтобы их можно было диагонализировать одним оператором поворота?
Комментарий:
Хорошая статья, в которой приводятся все шаги тестирования и даны ссылки на калькуляторы размера выборки. https://academy.yandex.ru/posts/kak-provesti-a-b-testirovanie-6-prostykh-shagov
к вопросу:
Как вычислить минимальный размер выборки для проведения A/B теста?
Комментарий:
Случайный лес: строится большое количество неглубоких деревьев, предсказания которых усредняются. n_estimators = количество деревьев max_features = макимальное число рассматриваемых признаков для принятия решения в дереве max_depth = максимальная глубина деревьев min_samples_split = минимальное число строк данных, используемых в узле для разбиения min_samples_leaf = минимальное число строк данных, достаточных для листа дерева bootstrap = метод для извлечения подвыборок из данных Бустинг: каждый следующее дерево пытается исправить ошибки предыдущего. n_estimators = количество деревьев max_features = макимальное число рассматриваемых признаков для принятия решения в дереве max_depth = максимальная глубина дерева min_samples_split = минимальное число строк данных, используемых в узле для разбиения min_samples_leaf = минимальное число строк данных, достаточных для листа дер
к вопросу:
В чем отличие градиентного бустинга над деревьями от случайного леса? Какие базовые параметры настраиваются?
Комментарий:
Ошибку первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием. Если, например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня, то принятая гипотеза не верна, а следовательно совершена ошибка первого рода. Слово «ложноположительный» в данном случае не имеет отношения к желательности или нежелательности самого события. Соответственно, ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием. Человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов).
к вопросу:
Как объяснить бизнесу, что значат ошибки I и II рода?
Комментарий:
MSE: [latex]\Vert Y - X \hat{\beta}\Vert_2 = \dfrac{1}{n} \sum_{i = 1}^n (y_i - x_i * \beta)^2[/latex] - средняя квадратичная ошибка. MAE: [latex]\Vert Y - X \hat{\beta} \Vert_1 = \dfrac{1}{n} \sum_{i = 1}^n | y_i - x_i * \beta |[/latex] - средняя абсолютная ошибка.
к вопросу:
Какой функционал оптимизируется в задаче линейной регрессии? Как записать это в векторной записи?
Комментарий:
Генетические алгоритмы, метод роя частиц. https://stackoverflow.com/questions/3900577/multiple-parameter-optimization-with-lots-of-local-minima
к вопросу:
Какие алгоритмы оптимизации находят сразу несколько локальным минимумов?
Комментарий:
Метрики классификац: TP - истино-положительное решение; TN - истино-отрицательное решение; FP - ложно-положительное решение; FN - ложно-отрицательное решение. Accuracy = [latex]\dfrac{TP + TN}{TP + TN + FP + FN}[/latex] Precision = [latex]\dfrac{TP}{TP + FP}[/latex] Recall = [latex]\dfrac{TP}{TP + FN}[/latex] [latex]F = 2\dfrac{Precision * Recall}{Precision + Recall}[/latex] ROC-AUC https://habr.com/ru/company/ods/blog/328372/ Метрики регрессии: Meen squared error, mean absolute error https://towardsdatascience.com/20-popular-machine-learning-metrics-part-1-classification-regression-evaluation-metrics-1ca3e282a2ce
к вопросу:
Виды метрик машинного обучения?
Комментарий:
Tensorflow, Torch, Keras, Caffe, Theano https://proglib.io/p/dl-frameworks
к вопросу:
Какие фреймворки глубокого обучения вы знаете?
Комментарий:
https://habr.com/ru/company/ods/blog/328372/
к вопросу:
Как объяснить бизнесу метрику машинного обучения?
Комментарий:
Mean - матожидание случайной величины. Median: [latex]\mathbb{P}(\xi < median) = \mathbb{P}(\xi > median) = 0.5[/latex]. Mode: [latex]mode = max_{x \in \mathbb{R}} p(x),[/latex] где [latex]p(x)[/latex] - плотность распределения случайной величины.
к вопросу:
Mean/median/mode — что это?
Комментарий:
[latex]\alpha[/latex]-квантиль: [latex]\mathbb{P}(X \leqslant x_\alpha) \geqslant \alpha[/latex] [latex]\mathbb{P}(X \geqslant x_\alpha) \geqslant 1 - \alpha[/latex] 0.25 - квантиль называется нижним квартилем. 0.75 - квантиль называется верхним квартилем. Интерквартильный размах: разность между верхним и нижним квартилями.
к вопросу:
Что такое интерквантили?
Комментарий:
График, использующийся в описательной статистике, компактно изображающий одномерное распределение вероятностей. Такой вид диаграммы в удобной форме показывает медиану (или, если нужно, среднее), нижний и верхний квартили, минимальное и максимальное значение выборки и выбросы.
к вопросу:
Что такое boxplot?
Комментарий:
Двухсторонние: [latex]H_0: \theta = \theta_0[/latex] [latex]H_1: \theta \not = \theta_0[/latex] Односторонние: [latex]H_0: \theta < (>) \theta_0[/latex] [latex]H_1: \theta > (<) \theta_0[/latex] Непараметрические
к вопросу:
Виды тестов на проверку гипотез
Комментарий:
Равно среднему арифметическому значений исходной функции за установленный период со сдвигом окна вычисления на единицу.
к вопросу:
Что такое скользящая средняя?
Комментарий:
График, позволяющий оценить качество бинарной классификации, отображает соотношение между долей объектов от общего количества носителей признака, верно классифицированных как несущие признак, и долей объектов от общего количества объектов, не несущих признака, ошибочно классифицированных как несущие признак при варьировании порога решающего правила. https://en.wikipedia.org/wiki/Receiver\_operating\_characteristic
к вопросу:
Объяснить, что такое ROC/AUC
Комментарий:
Введем следующие обозначения: TP - истино-положительное решение; TN - истино-отрицательное решение; FP - ложно-положительное решение; FN - ложно-отрицательное решение. Precision = [latex]\dfrac{TP}{TP + FP}[/latex] Recall = [latex]\dfrac{TP}{TP + FN}[/latex] [latex]F = 2\dfrac{Precision * Recall}{Precision + Recall}[/latex] Понятно что чем выше точность и полнота, тем лучше. Но в реальной жизни максимальная точность и полнота не достижимы одновременно и приходится искать некий баланс. Поэтому, хотелось бы иметь некую метрику, которая объединяла бы в себе информацию о точности и полноте нашего алгоритма. Именно такой метрикой является F-score.
к вопросу:
Что такое F-score и зачем его используют?
Комментарий:
В нормированном пространстве площадь под кривой эквивалентна вероятности, что классификатор присвоит больший вес случайно выбранной положительной сущности, чем случайно выбранной отрицательной. Соответственно если AUC < 0.5, то имеет смысл реверсировать предсказания модели, то есть теперь в качестве ответа выдавать 1 - [latex]y\_pred[/latex], где [latex]y\_pred[/latex] - предсказание обученной модели.
к вопросу:
Что значит AUC <0.5? Что с ним делать?
Комментарий:
Статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). Линейный коэффицент корреляции между двумя случайными величинами: [latex]corr(X, Y) = \dfrac{cov(X, Y)}{\sqrt{D_X D_Y}},[/latex] где [latex]cov(X, Y) = \mathbb{E}XY - \mathbb{E}X \mathbb{E}Y[/latex], [latex]D[/latex] - дисперсия. Если коэффициент корреляция равен [latex]\pm 1[/latex], то одна величина линейно зависит от другой. На графике для двух выборок такая зависимость выглядит как прямая линия.
к вопросу:
Что такое корреляция, как считается, график корреляции?
Комментарий:
Математический метод, применяемый для решения различных задач, основанный на минимизации суммы квадратов отклонений некоторых функций от искомых переменных. [latex]\Vert Y -X \beta\Vert_2 \rightarrow min_{\beta \in \mathbb{R}^n}[/latex]
к вопросу:
Что такое метод наименьших квадратов?
Комментарий:
[latex]K = 1 - \beta[/latex], где [latex]\beta[/latex] - вероятность ошибки второго рода. Заметим, что определение совпадает с определением в пункте 2.
к вопросу:
Что такое мощность статистического теста?
Комментарий:
Кросс-валидация более предпочтительна для тестирования различных моделей, потому что при таком методе алгоритм обучается и тестируется на различных данных, что позволяет лучше исследовать модель и избежать переобучения. С другой стороны для огромных выборок или при маленьком количестве времени для обучения используется валидация на отложенной выборке. Также кросс-валидацию нельзя применять при работе с временными рядами, поскольку при это фактически произойдет заглядывание в будущее. http://www.machinelearning.ru/wiki/index.php?title=CV
к вопросу:
Когда применять валидацию на отложенной выборке, когда кросс-валидацию, что надежнее?
Комментарий:
Реализация алгоритма была разработана для эффективности вычислительных ресурсов времени и памяти. Цель проекта заключалась в том, чтобы наилучшим образом использовать имеющиеся ресурсы для обучения модели. Некоторые ключевые функции реализации алгоритма включают: Различные стратегии обработки пропущенных данных. Блочная структура для поддержки распараллеливания обучения деревьев. Продолжение обучения для дообучения на новых данных. Особенности модели XGBoost поддерживает все возможности таких библиотек как scikit-learn с возможностью добавлять регуляризацию. Поддержаны три главные формы градиетного бустинга: 1. Стандартный градиентный бустинг с возможностью изменения скорости обучения(learning rate). 2. Стохастический градиентный бустинг с возможностью семплирования по строкам и колонкам датасета. 3. Регуляризованный градиентный бустинг с [latex]L_1[/latex] и [latex]L_2[/latex] регуляризацией. Библиотека предоставляет систему для использования в различных вычислительных средах: 1. Параллелизация построения дерева с использованием всех ваших ядер процессора во время обучения. 2. Распределенные вычисления для обучения очень крупных моделей с использованием кластера машин. 3. Вычисления для очень больших наборов данных, которые не вписываются в память. 4. Кэш Оптимизация структуры данных и алгоритма для наилучшего использования аппаратного обеспечения. https://stats.stackexchange.com/questions/282459/xgboost-vs-python-sklearn-gradient-boosted-trees
к вопросу:
Почему в свое время так выстрелил XGBoost и чем он отличается от sklearn.GBM?
Комментарий:
Процедура последовательного построения композиции алгоритмов машинного обучения, когда каждый следующий алгоритм стремится компенсировать недостатки композиции всех предыдущих алгоритмов. Бустинг представляет собой жадный алгоритм построения композиции алгоритмов. https://en.wikipedia.org/wiki/Boosting\_(machine\_learning)
к вопросу:
Что такое бустинг?
Комментарий:
https://otexts.com/fpp2/decomposition.html
к вопросу:
Как бы Вы провели декомпозицию временного ряда ? (с нуля)
Комментарий:
(Видимо, речь идет об оценках параметров распределения) Пусть [latex]\hat{\theta}_n[/latex] - оценка параметра [latex]\theta[/latex] некоторого распределения, из которого взята конечная выборка размера [latex]n[/latex]. Expected value: [latex]\mathbb{E} \hat{\theta}_n[/latex]. Bias: [latex]\theta - \mathbb{E}\hat{\theta}_n[/latex].
к вопросу:
Что такое expected value, bias?
Комментарий:
Множество точек, расположенных на окружности, и одна точка - outlier в центре окржности. https://hackernoon.com/where-do-outliers-live-f730f46beaba
к вопросу:
Дан 2-мерный датасет (2 признака). Нарисовать ситуацию, в которой outlier можно увидеть анализируя только 2 признака одновременно
Комментарий:
https://blog.statsbot.co/time-series-anomaly-detection-algorithms-1cef5519aef2
к вопросу:
Как устроен поиск аномалий во временных рядах
Комментарий:
TP - истино-положительное решение; TN - истино-отрицательное решение; FP - ложно-положительное решение; FN - ложно-отрицательное решение. Accuracy = [latex]\dfrac{TP + TN}{TP + TN + FP + FN}[/latex] Precision = [latex]\dfrac{TP}{TP + FP}[/latex] Recall = [latex]\dfrac{TP}{TP + FN}[/latex] [latex]F = 2\dfrac{Precision * Recall}{Precision + Recall}[/latex] ROC-AUC https://habr.com/ru/company/ods/blog/328372/
к вопросу:
Метрики бинарной классификации
Комментарий:
Метод маркетингового исследования, суть которого заключается в том, что контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько показателей были изменены, для того, чтобы выяснить, какие из изменений улучшают целевой показатель. https://en.wikipedia.org/wiki/A/B\_testing
к вопросу:
Что такое А/Б тесты?
Комментарий:
В обеях задачах минимизируется один и тот же функционал MSE. Линейная регрессия сразу предоставляет точную формулу для параметров для минимизации этого функционала. С другой стороны при применении бустинга мы каждый раз будем решать ту же задачу для линейной регресии, что и при обычной регрессии, и итоговый ответ будет не лучше, чем если бы мы сразу применили линейную модель. https://stats.stackexchange.com/questions/186966/gradient-boosting-for-linear-regression-why-does-it-not-work
к вопросу:
Почему не делают бустинг над линейными моделями?
Комментарий:
Нулевая гипотеза: [latex]H_0 : p = 0.5[/latex]. Альтернатива: [latex]H_1: p \not = 0.5[/latex]. Уровень значимости: [latex]1 - \alpha[/latex]. Случайная величина, равная количеству выпадений орла, имеет биномиальное распределение и равна сумме Бернуллевский случайных величин [latex]X_i[/latex]. Пусть [latex]\overline{X}= \dfrac{1}{n} \sum_{i=1}^n X_i[/latex]. По центральной предельной теореме,[latex] \sqrt{n} \dfrac{\overline{X} - p}{\sqrt{p(1 - p)}} \rightarrow^d \mathcal{N}(0, 1)[/latex] Таким образом, надо выбрать такое [latex]n[/latex], что значение [latex]\sqrt{n} \dfrac{X - 0.5}{0.5}[/latex] будет больше критического значения [latex]Z_{\dfrac{\alpha}{2}}[/latex], где [latex]Z_{\dfrac{\alpha}{2}}[/latex] - Z-score, соответствующий [latex]\dfrac{\alpha}{2}[/latex].
к вопросу:
Фальшивая монетка падает орлом в 60% случаев (а не в 50). За сколько подбрасываний и как можно определить что монетка фальшивая?
Комментарий:
Увеличение обучающей выборки, регуляризация, кросс-валидация, валидация по отложенной выборке, усложнение модели. https://sok.susu.ru/courses/MachineLearnig/lectures/07\%20Overfitting.pdf
к вопросу:
Как бороться с переобучением?
Комментарий:
Обратить внимание на корреляцию дополнительной и объясняемой переменных. Также можно построить линейную регрессию с дополнительной переменной и проверить гипотезу о значимости коэффициента при этой переменной. https://basegroup.ru/community/articles/feature-selection
к вопросу:
Как понять, какие фичи не стоит включать в линейную модель?
Комментарий:
В ResNet есть специальный слой, называемый соединением быстрого доступа (shortcut connections), который пропускает один или несколько слоев и выполняют сопоставление идентификаторов. Их выходы добавляются к выходам stacked layers. Используя ResNet, можно решить множество проблем, таких как: ResNet относительно легко оптимизировать: «простые» сети (которые просто складывают слои) показывают большую ошибку обучения, когда глубина увеличивается. ResNet позволяет относительно легко увеличить точность благодаря увеличению глубины, чего с другими сетями добиться сложнее. https://neurohive.io/ru/vidy-nejrosetej/resnet-34-50-101/
к вопросу:
В чем идея ResNet?
Комментарий:
Число параметров вычисляется по формуле [latex](in\_chanells * size[0] * size[1] + 1) * out\_channels[/latex] [latex](3 * 5 * 5 + 1) * 128 = 9728[/latex]. https://medium.com/@iamvarman/how-to-calculate-the-number-of-parameters-in-the-cnn-5bd55364d7ca
к вопросу:
Число пареметров в conv2d(in_channels = 3, out_channels = 128, size = (5x5))?
Комментарий:
Обычно, сигналы представлены в 2-х мерном пространстве, поэтому свёртка 1х1 не имеет смысла (это всего лишь точечное изменение масштабов). Однако в свёрточных нейронных сетях всё обстоит совершенно иначе, потому что стоит всегда помнить о том, что в свёрточных нейронных сетях мы оперируем с 3-х мерным представлением, где фильтры применяются всегда по всей глубине входного представления. Например, если входное представление размером 32х32х3, а над ним выполняется операция свёртки с размером фильтра 1х1, то, по факту, мы выполняем скалярное произведение единичных значений по 3м измерениям (R, G, B — три канала, глубина). http://arxiv.org/abs/1312.4400
к вопросу:
Зачем нужна свертка размером 1х1?
Комментарий:
Если классы несбалансированы, то данное качество ни о чем не говорит. Результат можно считать хорошим только при примерном равенстве количества объектов, принадлежащим к разным классам.
к вопросу:
Если у алгоритма accuracy = 85%, то это хорошее качество?
Комментарий:
https://www.machinelearningmastery.ru/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/
к вопросу:
Как бороться с несбалансированности классов?
Комментарий:
Precision, recall, F-score. https://habr.com/ru/post/349078/
к вопросу:
Какие метрики не чувствительны к несбалансированности классов?
Комментарий:
Минимизация ошибки второго рода, то есть максимизация recall или F-score, в котором recall имеет больший вес, нежели чем precision.
к вопросу:
Перевести на ML язык запрос менеджера: "хочу, чтобы модель выявляла почти всех "плохих" заемщиков"
Комментарий:
Сравнение различных алгоритмов: https://towardsdatascience.com/catboost-vs-light-gbm-vs-xgboost-5f93620723db
к вопросу:
Как работает xgboost? В чем разница между xgboost/lightgbm/catboost?
Комментарий:
При увеличении размера батча градиент становится менее зашумленными, поэтому целесообразно увеличивать learning rate. https://stackoverflow.com/questions/53033556/how-should-the-learning-rate-change-as-the-batch-size-changea
к вопросу:
Как связаны размер батча и learning rate? Что нужно сделать с learning rate при уменьшении размера батча?
Комментарий:
Временная сложность зависит от количества итераций алгоритма, которая равна [latex]\mathcal{O}(k\_components * n\_features * n\_samples\_test)[/latex]. https://scikit-learn.org/stable/modules/neighbors.html
к вопросу:
Какая алгоритмическая сложность алгоритма ближайшего соседа?
Комментарий:
MDS_Team, почему B - тест показал, что человек болен ? Об этом ничего не говорится, тест еще ничего не показал, так как не был выбран человек и не проверили на нем тест. На мо
к вопросу:
Есть тест, который определяет болен человек или нет с вероятностью 99%. Есть город, про который известно, что 1% населения точно больны. Найти вероятность, что выбранный наугад житель города болен?
Комментарий:
На мой взгляд, именно в этом вопросе к задаче, нужно найти только полную вероятность. Если я ошибаюсь, прошу объяснить)
к вопросу:
Есть тест, который определяет болен человек или нет с вероятностью 99%. Есть город, про который известно, что 1% населения точно больны. Найти вероятность, что выбранный наугад житель города болен?
Комментарий:
Чтобы привести данные к единому масштабу. Это нужно для линейных моделей. Такие модели как Randomforest и градиентный бустинг не требуют масштабирования. И перед стандартизацией необходимо сделать логарифмирование DF. Так как стандартизация не борется с выбросами.
к вопросу:
Зачем нужна стандартизация данных?
Комментарий:
Оба работают на построения ансамбля деревьев. Случайный лес строит одновременно много деревьев и усредняет из значения. Градиентный бустинг строит последовательно деревья. И каждый последующий алгоритм градиентного бустинга пытается минимизировать ошибки всех предыдущих
к вопросу:
Чем похожи и в чем отличия случайного леса от градиентного бустинга?
Комментарий:
[code]hui[/code][latex] x^2 [/latex]
к вопросу:
Какое отношение в сложности операций для сверточных сеток?
Комментарий:
Думаю, что 2:1, так как в итоге мальчики будут у всех
к вопросу:
В городе живет N семей
Комментарий:
Lidiia, во-первых, Р(а=4б^2), а во-вторых, даже так, это уравнение в квадрате [0,1]^2 задает кривую, которая имеет меру нуль в R^2, собственно, и вероятность тоже нуль.
к вопросу:
Есть квадратное уравнение (см. описание). Найти вероятность Р(х) при которой уравнение имеет только один корень
Комментарий:
Lidiia, ну и преход от одной вероятносии ко второй у вас накрылся тазом
к вопросу:
Есть квадратное уравнение (см. описание). Найти вероятность Р(х) при которой уравнение имеет только один корень
Комментарий:
Обнулится тот, проекция на который мнк-решения будет большей
к вопросу:
В случае мультиколлинеарности двух признаков какому из них линейная модель с L1-регуляризацией обнулит вес?
Комментарий:
Явление, когда при увеличении размерности, точки "сгущаются" возле краев области, в которой они лежат
к вопросу:
Что такое проклятие размерности?
Комментарий:
Точно так же, как и кв. уравнене, которое имеет сколько угодно корней. Находим производную, получаем 2ах+б, подставляем любую точку вместо икса, получаем число. Если оно меньше нуля - двигаем в лево, если больше - в право.
к вопросу:
Дано квадратное уравнение, имеющее ровно два корня. Как можно решить его с помощью градиентного спуска?
Комментарий:
Предположим, что в городе нету свингеров и генетечиской предрасположенности к определенного пола детям. Тогда для одной семьи: [latex]p(0\, girls) = 0.5[/latex] [latex]p(1\, girl) = 0.5(1-0.5)[/latex] [latex]p(2\, girls) = 0.50.5(1-0.5)[/latex] ... Просумировав, получим матожидание числа девочек в одной семье: [latex]E(girls) = \sum_{n = 0}^{\infty} 0.5^n = 1[/latex] Нету свингеров - семьи статистически независимы, а значит N girls : N boys А значит 1:1.
к вопросу:
В городе живет N семей
Комментарий:
1) обычная сертка [latex]K\times K[/latex] проходит [latex]N\times N[/latex] за [latex](N-K+1)^2[/latex] шагов, каждый из которых состоит из [latex]K^2[/latex] операций, значит обычная сверта потратит (для простоты по 1 слою, не pointwise же) [latex]O(K^2(N-K+1)^2)[/latex] 2) depthwise-separable (ds), о которой я первый раз прочитал 5 мин назад, имеет матрицу с одним не нулевым собственным значением, соответсвенно представляется левым и правым собственными векторами размером [latex]1\times K[/latex]. Для правого вертора проходов будет [latex]K\times(N-K+1)\times N[/latex] левый вектор пройдет по его результатам за [latex]K\times (N-K+1)^2[/latex] общее соответсвенно [latex]O(K\times (N-K+1)(2N-K+1))[/latex] Итог: conv : ds --- [latex]O(K\times (N-K+1)) : O(2N-K+1) [/latex]
к вопросу:
Какое отношение в сложности операций для сверточных сеток?
Комментарий:
Думаю во 2 и 3 случаях будет проблема проклятия размерности (зависимось между количеством признаков и данных которых будет достаточно для хорошей модели экспоненциально). В первом случаи думаю всё нормально.
к вопросу:
Имеется массив данных для классификации размером MxN где M - число строк, N - число признаков. Есть три случая:
Комментарий:
Декоратор это обертка на функцию чтобы задать дополнительное поведение основной функции. Итератор это класс, который дает возможность проходиться по какой-либо структуре данных.
к вопросу:
Чем итератор отличается от декоратора?
Комментарий:
Если исходы равновероятны, то: Количество девочек в семье: [latex] p(0) = \frac{1}{2} [/latex] [latex] p(1) = \frac{1}{2^2} [/latex] [latex] p(2) = \frac{1}{2^3} [/latex] ... [latex] E(X) = 1\frac{1}{2^2} + 2\frac{1}{2^3} + 3\frac{1}{2^4} + ... = 1[/latex] Количество мальчиков в семье: [latex] p(0) = 0 [/latex] [latex] p(1) = 1 [/latex] [latex] E(X) = 1[/latex] Соотношение 1:1
к вопросу:
В городе живет N семей
Комментарий:
meow, а если условие a[mid] == b[mid] выполнится случайно, несмотря на то, что порядок поменялся раньше?
к вопросу:
Есть два списка одинакового размера
Комментарий:
[latex] D = a^2 - 4b [/latex] – дискриминант Условие существования ровно одного корня: [latex] D = 0 => b = \frac{a^2}{4}[/latex] Изобразим эту линию на плоскости (горизонтальная ось - a, вертикальная - b): выше этой линии [latex] D < 0 [/latex] и действительных корней 0; ниже неё - [latex] D > 0 [/latex] и действительных корней 2; на самой линии [latex] D = 0 [/latex] и корень 1. [latex] p(D=0) [/latex] равна отношению площади линии к площади квадрата 1x1 (по условию a,b ∈ [0;1]). Площадь линии равна 0, значит, вероятность иметь только один корень равна 0.
к вопросу:
Есть квадратное уравнение (см. описание). Найти вероятность Р(х) при которой уравнение имеет только один корень
Комментарий:
Lasso regression: [latex] L_{1}=\sum _{i}{(y_{i}-y(t_{i}))}^{2}+\lambda \sum _{i}{|a_{i}|}. [/latex] Ridge regression: [latex] L_{2}=\sum _{i}{(y_{i}-y(t_{i}))}^{2}+\lambda \sum _{i}{a_{i}}^{2}. [/latex] Переобучение в большинстве случаев проявляется в том, что в получающихся многочленах слишком большие коэффициенты. Соответственно, необходимо добавить в целевую функцию штраф за слишком большие коэффициенты.
к вопросу:
Какие бывают типы регуляризации линейных моделей? Как они работают?
Комментарий:
Первый вариант: [code] # salary_dict - исходный словарь с данными salary_top = sorted(salary_dict.items(), key=lambda x: x[1], reverse=True)[:10] for i, employee in enumerate(salary_top): name, salary = employee print(f'№{i} employee: {name}, salary: {salary}') [/code] Второй вариант - можно просто прочитать словарь с помощью pandas, отсортировать датафрейм по зарплате и вывести через .head() первые десять строк.
к вопросу:
Есть словарь, где ключ это сотрудник, а значение - его ЗП. Вывести top-10 людей по уровню зарплаты.
Комментарий:
Извиняюсь, я немного ошибся. В enumerate нужно поставить начало отсчета с единицы, иначе в выводе топ будет начинаться с нуля.
к вопросу:
Есть словарь, где ключ это сотрудник, а значение - его ЗП. Вывести top-10 людей по уровню зарплаты.
Комментарий:
Задача решается в предположении, что рождения мальчика и девочки равновероятны. Тогда вероятность того, что в конкретной семье по истечении достаточно долгого времени (когда в каждой семье уже родился мальчик и ситуация установилась) будет один ребёнок (мальчик) [latex]P(kids=1) = 0,5[/latex] Для того, чтобы в семье было два ребёнка, нужно, чтобы сначала родилась именно девочка, а потом именно мальчик: [latex]P(kids=2) = 0,5 \cdot 0,5[/latex] По аналогии можно получить [latex]P(kids=n) = 2^{-n}[/latex] Т.к. каждая семья - это независимый эксперимент, чтобы посчитать среднее количество детей в семье, надо вычислить мат. ожидание количества детей: [latex]E(kids) = \sum_{i = 1}^\infty\left[ P(kids=i) \cdot i \right] = \sum_{i = 1}^\infty\frac{i}{2^i} = 2[/latex] В каждой семье в среднем по два ребёнка, т.е. один мальчик и одна девочка. Следовательно, соотношение детей равно 1.
к вопросу:
В городе живет N семей
Комментарий:
Возможная реализация односвязного списка вместе с методом поиска n-того с конца элемента (аналогично взятию отрицательного индекса у list): [code] class Node: def __init__(self, value, previous=None): self.value = value self.next = None if previous is not None: previous.next = self def find_from_back(self, n): back_node = self node = self for i in range(n): node = node.next if node is None: raise IndexError('Length of linked list is less than n') while node is not None: node = node.next back_node = back_node.next return back_node[/code] Работает за O(n), где n - длина списка.
к вопросу:
Имеется связанный список. Написать алгоритм, который находит n-ый элемент с конца
Комментарий:
"В библиотеке sklearn для регрессии реализованы два критерия: “mse” и “mae”, соответствуют функциям ошибки, которые они минимизируют" "Для классификации реализованы критерии “gini” и “entropy”, которые соответствуют классическим критериям расщепления" Цитаты взяты из вот этой статьи https://dyakonov.org/2016/11/14/%D1%81%D0%BB%D1%83%D1%87%D0%B0%D0%B9%D0%BD%D1%8B%D0%B9-%D0%BB%D0%B5%D1%81-random-forest/
к вопросу:
Какие критерии разбиения используются в random forest?
Комментарий:
Краткое объяснение: https://ru.bccrwp.org/compare/gradient-boosting-decision-trees-xgboost-vs-lightgbm-and-catboost-cb674e/
к вопросу:
Как работает xgboost? В чем разница между xgboost/lightgbm/catboost?
Комментарий:
sorted(dict, key=lambda x: -dict[x])
к вопросу:
Есть словарь, где ключ это сотрудник, а значение - его ЗП. Вывести top-10 людей по уровню зарплаты.
Комментарий:
Актуальные и популярные: Tensotflow (Keras входит теперь в него) PyTorch (Caffe2 входит с 2018 года в PyTorch) Apache MXNet Microsoft CNTK Неактуальные: Caffe - не актуален с 2017 Theano - поддержку прекратили в 2018 году
к вопросу:
Какие фреймворки глубокого обучения вы знаете?
Комментарий:
Ошибку синтаксиса. Потому что должно быть yield
к вопросу:
Что вернёт функция:
Комментарий:
1. Exhaustive cross-validation. 2. Non-exhaustive cross-validation. 3. k*l-fold cross-validation. 4. k-fold cross-validation with validation and test set.
к вопросу:
Виды кросс-валидации
Комментарий:
По идее должен занулиться тот, норма которого наименьшая, это позволит включить второй признак с меньшим по модулю коэффициентом и уменьшить L1 норму вектора коэффициентов
к вопросу:
В случае мультиколлинеарности двух признаков какому из них линейная модель с L1-регуляризацией обнулит вес?
Комментарий:
Можно попробовать решить в общем виде, если изначально предположить что вероятность рождения мальчика это p, а девочки q = 1-p . Тогда задачу можно свести к геометрическому распределению, которое говорит нам, что в среднем вероятность успешного завершения эксперимент(рождения мальчика) наступает на n = 1/p попытке, то есть мальчики рождаются в среднем 1/p-ими в очереди, а кол-во девочек в семье равно в среднем (1/p - 1). Так выходит что отношение мальчиков к девочкам 1 : 1/p - 1. Хз может ошибся где-то, но если подставить p=0.5 ответ сходится с остальными
к вопросу:
В городе живет N семей
Комментарий:
Скорее всего имелось в виду произведение. 1. Берём по порядку элемент х; 2. Проверяем сет с х-ми, если есть в нём, то шаг 1, если нет, добавляем и идём дальше; 3. Делим 12/х, получаем у; 4. Ищем у по массиву у; 4. (не) Добавляем в результат (х, у) и у в сет; 5. Идём на следующий х. Работает алгоритм за O(n!)
к вопросу:
Массив "а" состоит любых положительных чисел (не обязательно целых). Найти все, производные которых равны 12
Комментарий:
На самом деле все. Зависит от используемой функции потерь.
к вопросу:
Алгоритмы классификации
Комментарий:
Есть алгоритм SVD, позволяющий разложить матрицу признаков и тем самым снизить её размерность.
к вопросу:
Задача понижения размерности
Комментарий:
Syntax error
к вопросу:
Что вернёт функция:
Комментарий:
Если дисперсия выборки неизвестна. Нужно выборочное стандартное отклонение вместо дисперсии. Такая статистика имеет уже не стандартное нормальное нулевое распределение, а распределение Стьюдента с числом степеней свободы n−1.
к вопросу:
АБ тесты. Когда можно применять t-тест? (перечислить требования к данным для t-теста)
Комментарий:
1:1
к вопросу:
В городе живет N семей
Комментарий:
Декоратор - это паттерн проектирования, который который позволяет расширить поведение объекта, без изменения его исходного кода. Итератор - это интерфейс, который предоставляет доступ к элементам структуры данных и навигацию по ним.
к вопросу:
Чем итератор отличается от декоратора?
Комментарий:
Ошибку. Так как в функции нет return
к вопросу:
Что вернёт функция:
Комментарий:
производная константы равна нулю, следовательно, ответ - пустое множество))
к вопросу:
Массив "а" состоит любых положительных чисел (не обязательно целых). Найти все, производные которых равны 12
Комментарий:
1:1
к вопросу:
В городе живет N семей