Перейти к основному содержанию
На сайті проводяться технічні роботи. Вибачте за незручності.

Научить компьютер грамотному украинскому

Столичные программисты разработали первый аннотированный GEC-корпус для украинского языка
25 января, 19:29

Украинская IT-компания Grammarly представила первый анонтований GEC-корпус (grammatical error correction) украинского языка и выложила его в открытый доступ для общего пользования. Похожие корпуса существуют для многих языков, но до сих пор не было такого аннотированного корпуса для изучения украинского языка. Команда Grammarly считает, что созданный корпус может положительно повлиять на создание новых онлайн-систем исправления грамматики в украиноязычных текстах. Эти данные будут полезны любому - от студента-ученого к частной компании - и для исследовательской работы, и для создания или улучшения собственного онлайн-приложения, продукта и тому подобное.

Как объясняют разработчики, исправлением ошибок, например, в английском языке занимается не одно поколение исследователей, которые насобирали значительные объемы данных. Для большинства языков, в частности, для украинского, такого количества языковых ресурсов просто нет. Поэтому в Grammarly Kyiv решили устранить этот пробел.

В августе прошлого года команда инициировала сбор первого GEC-корпуса,  целью ставили сбор хотя бы 10 тысяч предложений для создания первой версии. В декабре удалось собрать свыше 20 тысяч предложений. Наполнение корпуса текстами продолжается — можно послать свое эссе на избранную тему, перевести часть текста или послать свой текст. Главное условие — не пользоваться словарями, правописаниями, не вычитывать тексты, но и не делать лексические и грамматические ошибки преднамеренно.

Эти тексты потом проработают профессиональные украинские лингвисты. «Это один из маленьких шагов, которые приближают нас к замечательной цели, — научить компьютер еще лучше понимать украинский язык. Именно это и вдохновляет всю нашу команду, — идет речь на сайте  Grammarly Kyiv. — Проект становится постоянным и будет частицей нашего вклада в развитие украинского NLP. Это значит, что мы продолжим собирать и добавлять тексты в корпус. Ведь чем больше данных в корпусе, то больше возможностей для последующего использования».

Delimiter 468x90 ad place

Подписывайтесь на свежие новости:

Газета "День"
читать