План курса "Анализ лингвистических данных: квантитативные методы и визуализация"

НИУ ВШЭ, магистратура "Теория языка и компьютерная лингвистика"
Авторы: Илья Щуров, Ольга Ляшевская, Георгий Мороз
24 лекции, 40 семинаров. 2 модуль: 20 часов, 3 модуль: 44 часа. Экзамен в конце 3 модуля.
Ссылка на курс R для бакалавров Данные Учебники Ведомость

“Не будучи в состоянии вскрыть закономерности живой природы, * вынуждены прибегать к теории вероятности и, не понимая конкретного содержания * процессов, превращают *** науку в голую статистику.” Академик Т.Д.Лысенко, 1948 г. ссылка


Основные умения

  • типы данных и их распределение
  • формулирование и проверка гипотез
  • описательная статистика
  • инференционная статистика
  • визуализации

Темы

1 Л1: Типы данных. Порядковые шкалы. Возможные трансформации данных (log, inverse). Распределение данных. Описательная статистика. (Средние, медианы, квартили, дисперсия, стандартное отклонение).
2 С1: Базовые возможности R, R как калькулятор. Загружаем csv. Гистограммы. Скаттерплоты. Подписывание графиков и осей.
3 Л2: Визуализации и разные типы лингвистических данных. Парная линейная регрессия, метод наименьших квадратов.
4 С2: Визуализации
5 Л3: Проверка статистических гипотез. Нулевая гипотеза. one-tail и two-tailed тесты [односторонние/двусторонние тесты]
Разница между параметрическими и непараметрическими тестами. Тест Стьюдента.
6 С3: t-тест
7 Л4: Независимость. Хи-квадрат. Разные величины эффектов.
8 С4: хи-квадрат
9. Л5: Дисперсионный анализ (ANOVA), поправки на множественные сравнения. Вариация внутри групп и между группами. [Baayen], §4.3.3.
10 С5: ANOVA

11. Л5. Корелляция. Регрессии: несколько переменных, нелинейные слагаемые, значимость коэффициентов регрессии.
8: PCA (Метод главных компонент). [Baayen], §5.1.1.
9: MCA (анализ множественных соответствий).
10: 3D-визуализации.
  • Парная линейная регрессия. Коэффициент при независимой переменной (slope) и константа (intercept) [Baayen], §4.3.2.
  • Линейная регрессия с несколькими независимыи переменными. Значимость коэффициента регрессии. [1]
  • Линейная регрессия с dummy-переменными. Кодирование категориальных данных dummy-переменными.
  • Взаимодействия (interactions).
  • Нелинейные слагаемые в линейной регрессии. [Baayen], pp. 102-105.
  • Обобщённые линейные модели (GLM). Логит-регрессия. [Baayen], §6.3.1.
+ Polytomous regression
  • Mixed-effects models
+linear mixed-effects nested models
+cumulative link model
  • Иерархический кластерный анализ. [Baayen], §5.1.5.
  • Деревья решений.
Обзор классификаторов в машинном обучении.

Пожелания студентов

*
*

Ссылки