План курса "Анализ лингвистических данных: квантитативные методы и визуализация"
НИУ ВШЭ, магистратура "Теория языка и компьютерная лингвистика"Авторы: Илья Щуров, Ольга Ляшевская, Георгий Мороз
24 лекции, 40 семинаров. 2 модуль: 20 часов, 3 модуль: 44 часа. Экзамен в конце 3 модуля.
Расписание Данные Учебники
Основные умения
- типы данных и их распределение
- формулирование и проверка гипотез
- описательная статистика
- инференционная статистика
- визуализации
Темы первого модуля
- Л1: Типы данных. Порядковые шкалы. Распределение данных. Описательная статистика. (Средние, медианы, квартили, дисперсия, стандартное отклонение). Конспект
- С1: Базовые возможности R, R как калькулятор. Загружаем csv. Гистограммы. Скаттерплоты. Подписывание графиков и осей. Материалы Домашнее задание Здесь принимаются ответы Дедлайн: до начала следующего семинара.
- Л2: Визуализации и разные типы лингвистических данных. Возможные трансформации данных (log, inverse). презентация
- С2: Визуализации. домашнее задание|HW 2 Data Visualization
- Л3: Корреляция. Коэффициенты Корреляции Пирсона, Спирмена и Кенделла. Конспект.
- C3: Задачи на корреляцию. материалы домашнее задание
- HW 3 Correlations
- Л4 + C4: Парная линейная регрессия, метод наименьших квадратов. Коэффициент при независимой переменной (slope) и константа (intercept) [Baayen], §4.3.2. Проверка статистических гипотез. Нулевая гипотеза. one-tail и two-tailed тесты [односторонние/двусторонние тесты]. Разница между параметрическими и непараметрическими тестами. Тест Стьюдента.
- HW 4 Regressions and t-test
- Л5: Независимость. Хи-квадрат. Разные величины эффектов.
- С5: t-тест. хи-квадрат семинар И.В.Щуров
- Л6: Дисперсионный анализ (ANOVA), поправки на множественные сравнения. Вариация внутри групп и между группами. [Baayen], §4.3.3.
- С6: ANOVA, t-test.
Темы второго модуля
- Л7. Регрессии: несколько переменных, нелинейные слагаемые, значимость коэффициентов регрессии. Линейная регрессия с dummy-переменными. Кодирование категориальных данных dummy-переменными. Нелинейные слагаемые в линейной регрессии. Взаимодействия (interactions). [Baayen], pp. 102-105.
- HW 5 Chi-squared and linear regression (форма)
- C7. Визуализации — 2.
- Л8 + С8. Обобщённые линейные модели (GLM). Логит-регрессия. [Baayen, §6.3.1 ] семинарские задачи Пример logit, Levshina §12
- HW 6 Shiny and Logistic regression (форма).
- Л9 + С9. PCA (Метод главных компонент). конспект лекции, [Baayen, §5.1.1 ]. семинар. Скрипт для семинара.
- Л10 + С10. Доверительные интервалы. Иерархический кластерный анализ. [Baayen, §5.1.5 ]. опрос по доверительным интервалам Визуализация про доверительные интервалы. Cкрипт для семинара. Разметка значений слова блок (Скриншот). Метод pvclust. Пример HCA, Levshina §15
- С 11. MCA (Анализ множественных соответствий). Скрипт для семинара. Данные Презентация [Greenacre, Nenadic 2011]. Пример MCA, Levshina §19.2
- HW 7: PCA, MCA, hierarchical cluster analysis and CI задание. [[ |Решения]]
- С12. Деревья решений скрипт для семинара Пример CART, Levshina §14
- С13. Polytomous (multinomial) regression скрипт для семинара Пример polytomous, mlogit, Levshina §13
- С14. Mixed-effects models код
- С15. Plotly.
- С16. Квантитативные подходы в филогенетических исследованиях. Презентация
Пожелания студентов
**