Библиотеки
<<  Обучающее сочинение мы в библиотеке 4 класс Знакомство с библиотекой школы ГБОУ Школа №460  >>
Корпус и проблемы графики и орфографии: наблюдения из опыта работы по
Корпус и проблемы графики и орфографии: наблюдения из опыта работы по
Библиотека лексикографа
Библиотека лексикографа
ИПС archivarius3000
ИПС archivarius3000
Структура библиотеки
Структура библиотеки
Примеры использования
Примеры использования
Примеры
Примеры
Орфография
Орфография
Орфография
Орфография
Проблемы со стороны морфологии
Проблемы со стороны морфологии
Google books NGram Viewer
Google books NGram Viewer
Русский корпус Google books
Русский корпус Google books
GOOLE books: дореволюционная орфография
GOOLE books: дореволюционная орфография
Поиск в БД Google Books c учетом старой орфографии
Поиск в БД Google Books c учетом старой орфографии
Выборочный просмотр ссылок
Выборочный просмотр ссылок
Выборочный просмотр ссылок (1 том «Journal d’un officier de marine»)
Выборочный просмотр ссылок (1 том «Journal d’un officier de marine»)
Дореволюционная орфография в НКРЯ
Дореволюционная орфография в НКРЯ
Дореволюционная орфография в НКРЯ
Дореволюционная орфография в НКРЯ
Орфографические варианты слов
Орфографические варианты слов
Совмещение «орфографий»
Совмещение «орфографий»
Заключение
Заключение
Thank you for your attention
Thank you for your attention

Презентация: «Корпус и проблемы графики и орфографии: наблюдения из опыта работы по созданию «Библиотеки Лексикографа»». Автор: Victor. Файл: «Корпус и проблемы графики и орфографии: наблюдения из опыта работы по созданию «Библиотеки Лексикографа».ppt». Размер zip-архива: 466 КБ.

Корпус и проблемы графики и орфографии: наблюдения из опыта работы по созданию «Библиотеки Лексикографа»

содержание презентации «Корпус и проблемы графики и орфографии: наблюдения из опыта работы по созданию «Библиотеки Лексикографа».ppt»
СлайдТекст
1 Корпус и проблемы графики и орфографии: наблюдения из опыта работы по

Корпус и проблемы графики и орфографии: наблюдения из опыта работы по

созданию «Библиотеки Лексикографа» corpus and problems of graphics and orthography: OBSERVATIONS FROM THE EXPERIENCE OF compiling of the «lexicographer LIBRARY»

А.А. Бурыкин, В.П. Захаров, А.Ц. Масевич (Институт лингвистических исследований РАН) A.A. Burykin, V.P. Zakharov, A.C. Masevich (Institute for Linguistics Studies of the Russian Academy of Sciences)

2 Библиотека лексикографа

Библиотека лексикографа

Доклад является результатом работы над проектом «Библиотека лексикографа» ­­– собранием русских текстов для лексикологических исследований и лексикографической практики, который создан и реализуется в Словарном отделе Института лингвистических исследований РАН с 2008 г. В настоящее время «Библиотека лексикографа» включает более 42 тыс. текстов разных жанров и различной тематики. Суммарный объем ресурса – около 1,7 млрд. словоформ (Ср.: основной корпус НКРЯ, 86 тыс. текстов и 230 млн с/у)

3 ИПС archivarius3000

ИПС archivarius3000

язык булевой логики (И, ИЛИ, НЕ); позволяет просматривать все словоупотребления запрашиваемого слова во всех текстах; нет ограничения на количество просматриваемых цитат; доступ к каждому конкретному тексту с возможностью скопировать из текста цитату любого объема

4 Структура библиотеки

Структура библиотеки

Хронология (каждый век – 3 периода) Жанры: Художественная литература Мемуары, дневники Переписка Документы, официальные материалы Газетно-журнальная периодика История Науки о земле и человеке Путешествия, география, страноведение Бытовые практики Точные и естественные науки Производство, техника, строительство Связь, информационные технологии Транспорт Военное дело, Военное искусство Морское дело Воздухоплавание и авиация и др.

5 Примеры использования

Примеры использования

Слово слоеватый – были выданы ответы у Ломоносова и у Г. Шторма (1950-е годы) в ином значении – не слоистый, а слоеный. Слово снохач – в немногочисленных примерах обнаружилось неизвестное значение «муж, пришедший в дом к жене» Слово лубок – при трудностях разведения художественного и медицинского значений достигнут результат: слово лубок как название картинок фиксируется в 18 веке. Слово ходя – прозвище китайцев: при сложностях с отождествлением данной формы с глаголом «ходить» было найдено 12 примеров, в картотеке 1 цитата. Слово вогул (старое название манси) в картотеке нет, найдено более 120 употреблений.

6 Примеры

Примеры

Слово пыжьян – название рыбы – в картотеке отсутствует: в нашей библиотеке более 20 употреблений. Слова козетка и рекамье как названия предметов мебели – обнаруживаются в современных романах. Выборочный просмотр материалов словаря «Редкие слова в произведениях авторов 19 века» Р.П. Рогожниковой и Т.С. Карской (1998) для многих слов существенно увеличивает число примеров и сдвигает границы фиксации иногда в 18 век, часто на несколько десятилетий в более раннее время. Глагол матевировать (обругать матом) не является новацией ни 1970-х годов (анекдоты о Чапаеве), ни 1930-х годов (встречается у Артема Веселого), его изобрел Н.С. Лесков (Заячий ремиз). Выражение «муж на час» введено в оборот В.В. Розановым.

7 Орфография

Орфография

Проблема «буквы Ё» Знаки дореволюционной гражданской кириллицы Буква i Конечный ъ Слитно раздельно

8 Орфография

Орфография

Филологические «шедевры» - например, тексты произведений В.И. Даля, где сохраняются ять, ъ, i, и т.п., но при этом оказывается расставленным Ё, отсутствующее в оригинальных текстах.

9 Проблемы со стороны морфологии

Проблемы со стороны морфологии

Каждый очередной текст в старой русской орфографии побуждает к размышлениям: заменить отмененные в 1918 г. буквы и привести текст к современной орфографии или дождаться появления более совершенных программ, которые будут нивелировать различия между дореформенным и послереформенным написанием слов.

10 Google books NGram Viewer

Google books NGram Viewer

Google books N Gramm Viewer представляет собой информационную систему, наполнение которой образует несколько корпусов размеченных текстов книг на 8 языках. Все корпуса имеют две версии - 2009 и 2012 года. На 2012 г. суммарный объем - приблизительно 8 миллионов книг (текстов), что составляет около 6% всех когда-либо опубликованных печатных книг. Книги получены из 40 университетских библиотек различных стран. Кроме того, некоторые издательства предоставили экземпляры своей продукции, как в печатном, так и в электронном виде. При введении печатного документа каждый текст подвергается сканированию с последующим оптическим распознаванием. Файл каждой книги снабжается метаданными, во введенных текстах осуществляется метатекстовая и частично грамматическая разметка.

11 Русский корпус Google books

Русский корпус Google books

591310 документов (книг), 67 137 666 353 словоупотреблений Со второго десятилетия XVIII века по 2008 г. Результат поиска зависит от использования заглавной или строчной буквы Осуществляется поиск по слову в той грамматической форме, в которой оно введено в поисковое окно Отбор материала и построение графиков осуществляется только по году издания книги. Возможны операции над графиками - сложение, вычитание, умножение и деление. Возможен поиск одновременно в нескольких корпусах разных языков

12 GOOLE books: дореволюционная орфография

GOOLE books: дореволюционная орфография

Тексты представлены как в современной, так и в старой системе письма. Однако при поиске текстов в старой системе письма имеются проблемы Тексты Google books получены посредством оцифровки и распознавания оригинальных печатных изданий. Поэтому в текстах книг, изданных до 1919 года (в определенных случаях более поздних изданиях), мы сталкиваемся со старой системой письма. Некоторые знаки старой системы русского письма, такие как і (код Unicode-0456), ? (код Unicode-0463), ? (код Unicode-0473) поисковой системой Ngram viewer не распознаются, и поиск по словам, содержащим эти знаки невозможен. Так поиск триграммы ?едоръ Михайловичъ Достоевскій, в системе не дает результатов.

13 Поиск в БД Google Books c учетом старой орфографии

Поиск в БД Google Books c учетом старой орфографии

14 Выборочный просмотр ссылок

Выборочный просмотр ссылок

15 Выборочный просмотр ссылок (1 том «Journal d’un officier de marine»)

Выборочный просмотр ссылок (1 том «Journal d’un officier de marine»)

16 Дореволюционная орфография в НКРЯ

Дореволюционная орфография в НКРЯ

17 Дореволюционная орфография в НКРЯ

Дореволюционная орфография в НКРЯ

Бог

Богъ

2012

19

2000

1

2011

95

1996

1

2010

125

1987-2000

1

2009

167

1978

4

2008

135

1921

1

20007

212

1846-1857

45

2006

19

1846

4

2005

95

1755

8

18 Орфографические варианты слов

Орфографические варианты слов

Изучение орфографических вариантов слов по корпусам текстов и по «Библиотеке лексикографа», безусловно, сопряжено с рядом сложностей. Во-первых, далеко не все тексты этого периода существуют в электронном виде в авторской орфографии: априори чаще всего в них представлена орфография последнего издания, хотя есть возможность вводить в корпус отдельные тексты, преобразованные из форматов PDF и Djvu. Чтобы обнаруживать те или иные написания в корпусе, надо иметь их список, который пока в научном обороте отсутствует. Тем не менее, корпусы и здесь составляют альтернативу классической словарной картотеке, поскольку мы не располагаем данными, сохранялись ли в картотеках и в каком объеме авторские написания слов.

19 Совмещение «орфографий»

Совмещение «орфографий»

Разработка русских шрифтов вполне могла бы базироваться не на современном русском алфавите, а на дореволюционном, то есть во всех компьютерах мог бы использоваться комплект знаков, соответствующий современной русской графике, но те же шрифты позволяли бы читать и редактировать тексты в дореволюционной орфографии

20 Заключение

Заключение

Так или иначе, исследование графико-орфографических вариантов слов при помощи корпусов текстов или «Библиотеки лексикографа» намного – на несколько порядков – увеличивает объем доступного материала, хотя и оставляет желать много лучшего в отношении исходных данных. Исторические словари русской орфографии как жанр в отечественной лексикографической традиции пока отсутствуют.

21 Thank you for your attention

Thank you for your attention

«Корпус и проблемы графики и орфографии: наблюдения из опыта работы по созданию «Библиотеки Лексикографа»»
http://900igr.net/prezentacija/literatura/korpus-i-problemy-grafiki-i-orfografii-nabljudenija-iz-opyta-raboty-po-sozdaniju-biblioteki-leksikografa-225660.html
cсылка на страницу

Библиотеки

35 презентаций о библиотеках
Урок

Литература

183 темы
Слайды
900igr.net > Презентации по литературе > Библиотеки > Корпус и проблемы графики и орфографии: наблюдения из опыта работы по созданию «Библиотеки Лексикографа»