Решение задач по Машинному обучению на Python в Jupiter Notebook

11.05.2024 00:48

«Фрилансим»

Задача 1. Реализация собственных классов и функций

⚠️ Замечание. 1) Нельзя пользоваться готовыми реализациями sklearn; 2) чтобы избежать случая с вырожденной матрицей при оценке параметров добавьте незначительную регуляризацию по умолчанию или используйте lstsq из пакета numpy или др. способ; 3) используйте random_state=0

Реализуйте класс, предназначенный для оценки параметров линейной регрессии с регуляризацией совместимый с sklearn. Передаваемые параметры: 1) коэффициент регуляризации (alpha). Использовать метод наименьших квадратов с регуляризацией.
Реализуйте класс для стандартизации признаков в виде трансформации совместимый с sklearn. Передаваемые параметры: 1) has_bias (содержит ли матрица вектор единиц), 2) apply_mean (производить ли центровку)
Реализуйте функции для расчета MSE и R^2 при отложенной выборке (run_holdout) и кросс-валидации (run_cross_val). Для кросс-валидации используйте только класс KFold. Выходными значениями должны быть MSE и R^2 для обучающей и тестовой частей.

Шаблон кода:
```
def run_holdout(model, X, y, train_size, random_state) -> dict:
    ...
    return scores
def run_cross_val(model, X, y, n_splits, shuffle, random_state) -> dict:
    ...
    return scores
```
Используя класс Pipeline, выполнить обучение линейной регрессии с предварительной стандартизацией с коэффициентом регуляризации равным 0 и 0.01. Выведите значения параметров обученной модели. Выведите значения MSE и R^2, полученные посредством функций run_holdout и run_cross_val. Отобразите график предсказание ( $\hat{�}$ ) - действительное значение ( $�$ ) для разных коэффициентов регуляризации для обучающего и текстового множества. Использовать следующие параметры:
- train_size=0.75,
- n_splits=4,
- shuffle=True,
- random_state=0

⚠️ Замечание. При формировании исходных данных использовался полином 16 степени одномерных данных.

Задача 2. Классификация и кросс-валидация

⚠️ Замечание:

Используйте класс логистической регрессии из sklearn со следующими параметрами:
- penalty='l2'
- fit_intercept=True
- max_iter=100
- C=1e5
- solver='liblinear'
- random_state=12345
Разбейте исходные данные на обучающее и тестовое подмножества в соотношении 70 на 30, random_state=0
Для выбора гиперпараметров используйте два подхода: 1) с отложенной выборкой, 2) с кросс-валидацией
Для кросс-валидации использовать функцию cross_validate из sklearn
Параметры разбиения для выбора гиперпараметров используйте те, что в п.4 задачи 1

Дано множество наблюдений (см. набор данных к заданию), классификатор - логистическая регрессия. Найти степень полинома с минимальной ошибкой на проверочном подмножестве. Для лучшего случая рассчитать ошибку на тестовом подмножестве. В качестве метрики использовать долю правильных классификаций. Сделать заключение о влиянии степени полинома на качество предсказания.

Построить:

диаграмму разброса исходных данных
зависимость доли правильных классификаций от степени полинома для обучающего и проверочного подмножеств (две кривые на одном графике)
результат классификации для наилучшего случая (степень полинома) для обучающего и тестового подмножеств с указанием границы принятия решения

Задача 3. Классификация текстовых документов

файл: `data/reviews.tsv`

Загрузите исходные данные
Разбейте исходные данные на обучающее (train, 80%) и тестовое подмножества (test, 20%)
Используя стратифицированную кросс-валидацию k-folds ( $� = 4$ ) для обучающего множество с метрикой Balanced-Accuracy, найдите лучшие гиперпараметры для следующих классификаторов:
- K-ближайших соседей: количество соседей ( $�$ ) из диапазона np.arange(1, 150, 20)
- Логистическая регрессия: параметр регуляризации ( $�$ ) из диапазона np.logspace(-2, 10, 8, base=10)
- Наивный Байес: сглаживающий параметр модели Бернулли ( $�$ ) из диапазона np.logspace(-4, 1, 8, base=10)
- Наивный Байес: сглаживающий параметр полиномиальной модели ( $�$ ) из диапазона np.logspace(-4, 1, 8, base=10)
Отобразите кривые (параметры модели)-(Balanced-Accuracy) при обучении и проверке для каждой классификатора (две кривые на одном графике для каждого классификатора)
Если необходимо, выбранные модели обучите на всём обучающем подмножестве (train) и протестируйте на тестовом (test) по Balanced-Accuracy, R, P, F1. Определите время обучения и предсказания.
Выполните пункты 3-5 для n-gram=1, n-gram=2 и n-gram=(1,2)
Выведите в виде таблицы итоговые данные по всем методам для лучших моделей (метод, n-gram, значение параметра модели, время обучения, время предсказания, метрики (Balanced-Accuracy, R, P, F1))
Сделайте выводы по полученным результатам (преимущества и недостатки методов)

⚠️ Замечание:

Для всех объектов/методов/моделей random_state = 123
Для выбора гиперпараметров можно использовать стандартные утилиты sklearn

!!!Всё выполнить в Jupiter Notebook, пример выполнения с другими задачами прикреплен!!!

Новости от наших партнёров в Вашем городе

Ria.city

123ru.net

Политолог Данилин: Визит Путина в КНДР позволит России укрепить систему безопасности на Дальнем Востоке

СМИ: актер Алексей Бардуков попал в больницу с ботулизмом

Лесопарк «Шишкин лес» встречает гостей и жителей Истры после открытия

Востоковед Тарасов: в возможной войне Израиля и Ливана ставки очень высоки

Музыкальные новости

Bigpot.news

Театр и Цирк, Культура и Концерт, Россия и Дети: «Волшебные башмачки Элли» - эта постановка создана по мотивам знаменитой сказки Александра Волкова «Волшебник Изумрудного города»

Филипп Киркоров, Люся Чеботина, SHAMAN – 25 ярких звезд в Открытой студии «Авторадио» на «Премии МУЗ-ТВ 2024»

Российские флаги снова вывесили на матче Евро-2024 между Англией и Сербией

«Волшебные башмачки Элли» - эта постановка создана по мотивам знаменитой сказки Александра Волкова «Волшебник Изумрудного города» - Театр и Цирк, Культура и Концерт, Россия и Дети

Новости России

29ru.net

Лучших сотрудников онкодиспансера Подмосковья наградили благодарностями Госдумы

Грозы и сильный ветер ожидаются в Москве в четверг, возможны смерчи — Собянин

Лесопарк «Шишкин лес» встречает гостей и жителей Истры после открытия

СМИ: актер Алексей Бардуков попал в больницу с ботулизмом

Экология в России и мире

Life24.pro

Gucci, коллекция menswear весна-лето 2025

PREMIER проведет фестиваль «Лето PREMIER» по всей России

Blumarine, коллекция Resort 2025

Россиянам предложили премиальные туры сразу в 2 страны: рейсы начнутся из 8 российских городов

Спорт в России и мире

News.tennis

Теннисисты Медведев и Рублев сохранили позиции в рейтинге ATP

Саснович победила на старте квалификации турнира WTA-500 в Берлине

Самсонова обыграла Александрову и вышла в финал турнира WTA в Хертогенбосхе

Курникова показала трогательные фото Энрике Иглесиаса

Moscow.media

News24.pro

В Ступине реализован на торгах самый бюджетный участок в аренду за 34 тыс рублей

Свыше 1,2 тыс человек приняли участие в массовом заплыве в Подмосковье

В 11 муниципалитетах Подмосковья протестировали тепловые сети

Участок БКЛ «Деловой центр» — «Шелепиха» — «Хорошевская» временно закроют с 22 июня

Задача 1. Реализация собственных классов и функций

Задача 2. Классификация и кросс-валидация

Задача 3. Классификация текстовых документов

файл: data/reviews.tsv

Читайте на 123ru.net

Здоровье

Ru24.net

Game24.pro

Разное на 123ru.net

Частные объявления в Вашем городе, в Вашем регионе и в России

Новости от наших партнёров в Вашем городе

Политолог Данилин: Визит Путина в КНДР позволит России укрепить систему безопасности на Дальнем Востоке

СМИ: актер Алексей Бардуков попал в больницу с ботулизмом

Лесопарк «Шишкин лес» встречает гостей и жителей Истры после открытия

Востоковед Тарасов: в возможной войне Израиля и Ливана ставки очень высоки

Филипп Киркоров, Люся Чеботина, SHAMAN – 25 ярких звезд в Открытой студии «Авторадио» на «Премии МУЗ-ТВ 2024»

Российские флаги снова вывесили на матче Евро-2024 между Англией и Сербией

Лучших сотрудников онкодиспансера Подмосковья наградили благодарностями Госдумы

Грозы и сильный ветер ожидаются в Москве в четверг, возможны смерчи — Собянин

Лесопарк «Шишкин лес» встречает гостей и жителей Истры после открытия

СМИ: актер Алексей Бардуков попал в больницу с ботулизмом

Gucci, коллекция menswear весна-лето 2025

PREMIER проведет фестиваль «Лето PREMIER» по всей России

Blumarine, коллекция Resort 2025

Россиянам предложили премиальные туры сразу в 2 страны: рейсы начнутся из 8 российских городов

Теннисисты Медведев и Рублев сохранили позиции в рейтинге ATP

Саснович победила на старте квалификации турнира WTA-500 в Берлине

Самсонова обыграла Александрову и вышла в финал турнира WTA в Хертогенбосхе

Курникова показала трогательные фото Энрике Иглесиаса

Башенный комплекс "Ний" (Ингушетия)

Страхование грузов: 7 правил безопасной перевозки

На Азина рухнул расселенный дом

Как Россия уступила Азербайджану значительные территории Дагестана и два села

Топ новостей на этот час

В Москве умер единственный сын Вячеслава Зайцева

Издателя "Медузы"* оштрафовали на 14 тысяч рублей

В Москве разработали 10 чат-ботов для более быстрого поиска информации

Название для новой железнодорожной станции выберут в Химках

файл: `data/reviews.tsv`