План курса "Анализ лингвистических данных: квантитативные методы и визуализация"
НИУ ВШЭ, магистратура "Теория языка и компьютерная лингвистика"
Авторы: Илья Щуров, Ольга Ляшевская, Георгий Мороз
24 лекции, 40 семинаров. 2 модуль: 20 часов, 3 модуль: 44 часа. Экзамен в конце 3 модуля. Ссылка на курс R для бакалавровДанныеУчебникиВедомость
“Не будучи в состоянии вскрыть закономерности живой природы, * вынуждены прибегать к теории вероятности и, не понимая конкретного содержания * процессов, превращают *** науку в голую статистику.” Академик Т.Д.Лысенко, 1948 г. ссылка
Основные умения
типы данных и их распределение
формулирование и проверка гипотез
описательная статистика
инференционная статистика
визуализации
Темы
1 Л1: Типы данных. Порядковые шкалы. Возможные трансформации данных (log, inverse). Распределение данных. Описательная статистика. (Средние, медианы, квартили, дисперсия, стандартное отклонение).
2 С1: Базовые возможности R, R как калькулятор. Загружаем csv. Гистограммы. Скаттерплоты. Подписывание графиков и осей.
3 Л2: Визуализации и разные типы лингвистических данных. Парная линейная регрессия, метод наименьших квадратов.
4 С2: Визуализации
5 Л3: Проверка статистических гипотез. Нулевая гипотеза. one-tail и two-tailed тесты [односторонние/двусторонние тесты]
Разница между параметрическими и непараметрическими тестами. Тест Стьюдента.
6 С3: t-тест
7 Л4: Независимость. Хи-квадрат. Разные величины эффектов.
8 С4: хи-квадрат
9. Л5: Дисперсионный анализ (ANOVA), поправки на множественные сравнения. Вариация внутри групп и между группами. [Baayen], §4.3.3.
10 С5: ANOVA
План курса "Анализ лингвистических данных: квантитативные методы и визуализация"
НИУ ВШЭ, магистратура "Теория языка и компьютерная лингвистика"Авторы: Илья Щуров, Ольга Ляшевская, Георгий Мороз
24 лекции, 40 семинаров. 2 модуль: 20 часов, 3 модуль: 44 часа. Экзамен в конце 3 модуля.
Ссылка на курс R для бакалавров Данные Учебники Ведомость
“Не будучи в состоянии вскрыть закономерности живой природы, * вынуждены прибегать к теории вероятности и, не понимая конкретного содержания * процессов, превращают *** науку в голую статистику.” Академик Т.Д.Лысенко, 1948 г. ссылка
Основные умения
Темы
1 Л1: Типы данных. Порядковые шкалы. Возможные трансформации данных (log, inverse). Распределение данных. Описательная статистика. (Средние, медианы, квартили, дисперсия, стандартное отклонение).2 С1: Базовые возможности R, R как калькулятор. Загружаем csv. Гистограммы. Скаттерплоты. Подписывание графиков и осей.
3 Л2: Визуализации и разные типы лингвистических данных. Парная линейная регрессия, метод наименьших квадратов.
4 С2: Визуализации
5 Л3: Проверка статистических гипотез. Нулевая гипотеза. one-tail и two-tailed тесты [односторонние/двусторонние тесты]
Разница между параметрическими и непараметрическими тестами. Тест Стьюдента.
6 С3: t-тест
7 Л4: Независимость. Хи-квадрат. Разные величины эффектов.
8 С4: хи-квадрат
9. Л5: Дисперсионный анализ (ANOVA), поправки на множественные сравнения. Вариация внутри групп и между группами. [Baayen], §4.3.3.
10 С5: ANOVA
11. Л5. Корелляция. Регрессии: несколько переменных, нелинейные слагаемые, значимость коэффициентов регрессии.
8: PCA (Метод главных компонент). [Baayen], §5.1.1.
9: MCA (анализ множественных соответствий).
10: 3D-визуализации.
- Парная линейная регрессия. Коэффициент при независимой переменной (slope) и константа (intercept) [Baayen], §4.3.2.
- Линейная регрессия с несколькими независимыи переменными. Значимость коэффициента регрессии. [1]
- Линейная регрессия с dummy-переменными. Кодирование категориальных данных dummy-переменными.
- Взаимодействия (interactions).
- Нелинейные слагаемые в линейной регрессии. [Baayen], pp. 102-105.
- Обобщённые линейные модели (GLM). Логит-регрессия. [Baayen], §6.3.1.
+ Polytomous regression- Mixed-effects models
+linear mixed-effects nested models+cumulative link model
- Иерархический кластерный анализ. [Baayen], §5.1.5.
- Деревья решений.
Обзор классификаторов в машинном обучении.Пожелания студентов
**
Ссылки