Онлайн-массивы текстов для разных языков
Национальный корпус русского языка (ruscorpora.ru)
На этом сайте помещен корпус современного русского языка объемом более 140 млн слов. Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме.
Corpora.Yandex.ru - Национальный корпус русского языка на Яндексе
Британские словари и корпуса - текст в формате Power Point - (corpora.iling.spb.ru)
Британский национальный корпус - 90 млн.слов (письм.)
- информация- 70% 1975-1990-ые
- книги (50%), - периодика (20-30%)
- международные дела - 15%, социально-общественные дела - 15%
- творчество - 30% 1960-1974 (25%) и 1975-1990-ые (75%)
5 млн. слов письменных и неопубликованных текстов
Корпуса английского языка - полезные ссылки на английском языке (appling.kent.edu/resources.html)
ECI/MCI - European Corpus Initiative
Linguee.de - Интернет в качестве словаря. Массивы параллельных текстов: немецкий, английский, французский, испанский, португальский
Worldlingo.com - многоязычный архив текстов
Статьи и учебники по корпусной лингвистике
Корпусная лингвистика - статья в Википедии
Корпусная лингвистика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники.
Лингвистическим корпусом называют совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).
Захаров В.П. Корпусная лингвистика. Учебное пособие (2005) (Фонд "Ломоносов" - lomonosov-fund.ru)
Учебное пособие для студентов и аспирантов, специализирующихся в области прикладной лингвистики и автоматизированных систем обработки текста. Содержит описание предмета, а также включает программу учебной дисциплины «Корпусная лингвистика» отделения структурной и прикладной лингвистики Санкт-Петербургского государственного университета.
Киселев М.В., Шмулевич М.М., Эрлих А.И. Метод автоматической кластеризации текстов и его применение
Статья опубликована в выпуске журнала № 2 за 2008 год. [ 24.06.2008 ] (wsys.ru)
Одним из перспективных направлений повышения эффективности работы алгоритмов, использующих древовидные структуры для кластеризации текстов, является расширение пространства правил, находящихся в узлах деревьев.
Простейшими видами сущностей являются имена, даты, названия организаций, географические названия. Для их выделения используем регулярные выражения. После выделения сущностей происходит их нормализация, занесение в таблицу сущностей и включение соответствующих им правил в список правил для кластеризации.
Помимо регулярных выражений, для выделения сущностей в алгоритме используются тезаурус WordNet и набор словарей.
Одна из важнейших областей применения метода автоматической кластеризации текстов с помощью выделения стандартных сущностей и учета совместной встречаемости в документах ключевых терминов – анализ динамики тематической структуры потока новостей.
Рахилина Е.В. Корпус как творческий проект. Научная статья (2009) (Фонд "Ломоносов" - lomonosov-fund.ru)
Рыков.В.В. (Москва). Сопоставление корпусной и традиционной лингвистик (russian.slavica.org)
Корпус текстов:
- некоторый филологический объект;
- организованное словесное множество, элементами которого являются определённым образом отобранные тексты;
- организованное определённым образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов.
Рыков В.В., Клименко С.В. Три статьи по корпусной лингвистике (rykov-cl.narod.ru)
- Прагматически ориентированный корпус текстов
- Корпус текстов как принцип самоорганизации предметной области
- Логическяя индукция и дедукция как принципы отражения предметной области в корпусе текстов.
Последним и самым важным свойством является представительность (РП). Оно определяет – какую внекорпусную реальность отражает корпус (или желает отразить его составитель). ...тексты, входящие в корпус текстов Пушкина, газету Известия и даже специально отобранные для машинного корпуса пословиц, строго говоря, отражают только самих себя. Вернее, они отражают, соответственно, мир образов, понятий, лингвистические и прочие особенности текстов Пушкина, газеты «Известия» или русских пословиц.
Д.В. Сичинава. К задаче создания корпусов русского языка (mccme.ru/ling/mitrius/article.html)
Работа с корпусами, то есть с массивами текстов, представленными в компьютерном виде, давно уже стала одним из основных, если не основным методом лингвистических исследований, при помощи которого могут решаться самые разные задачи. Между тем отечественная лингвистика, как известно, отстаёт в этом отношении от современного состояния зарубежных исследований; созданный еще в 1960-е годы (и то вне России) Уппсальский корпус русских текстов остаётся, насколько нам известно, единственным завершённым и активно используемым проектом такого рода.
Не говоря уже об устарелости его материалов и ограниченности объёма (1 млн. словоупотреблений), нужно указать прежде всего на то, что он не является лингвистически аннотированным (то есть в нём не указаны морфологические, синтаксические, семантические свойства тех или иных сегментов текста, что затрудняет поиск по нему), в то время как современная лингвистика оперирует в основном аннотированными корпусами (treebanks). Начиная с 1980-1990-е годы работа над созданием компьютерных баз данных по русскому языку ведется в рамках Машинного фонда русского языка при Институте русского языка РАН под руководством В. М. Андрющенко
Соснина Е.П. Корпусная лингвистика и корпусный подход в обучении иностранному языку // Corpus Linguistics and Corpus-Based Approach in Foreign Language Teaching (ling.ulstu.ru)
Электронные корпусы в языковом обучении. Параллельные корпусы в обучении языку и переводу. Учебные корпусы в исследованиях по освоению языка. Программы-конкордансы в прикладной лингвистике.
В настоящее время особенно распространены корпусы (или параллельные тексты) художественной литературы, хотя для обучения переводу в вузе следует разрабатывать корпусы разных жанров и стилей и в первую очередь ориентироваться на научно-технические, публицистические и деловые тексты.