Перейти до основного вмісту

Навчити комп’ютер грамотної української

Столичні програмісти розробили перший анотований GEC-корпус для української мови
25 січня, 19:28

Українська IT-компанія Grammarly презентувала перший анонтований GEC-корпус (grammatical error correction) української мови  і виклала його у відкритий доступ для загального користування. Схожі корпуси існують для багатьох мов, але до сьогодні не було такого анотованого корпусу для вивчення української мови. Команда Grammarly вважає, що створений корпус може позитивно вплинути на створення нових онлайн-систем виправлення граматики в українськомовних текстах. Ці дані будуть корисні будь-кому, — від студента-науковця до приватної компанії — і для дослідницької роботи, і для створення або поліпшення власного онлайн-додатка, продукту тощо. 

Як пояснюють розробники, виправленням помилок, приміром, в англійській мові займається не одне покоління дослідників, які назбирали значні обсяги даних. Для більшості мов, зокрема, для української, такої кількості мовних ресурсів просто немає. Тому в Grammarly Kyiv вирішили залатати цю прогалину.

У серпні минулого року команда ініціювала збір першого GEC-корпусу, за мету ставили збір хоча б 10 тисяч речень для створення першої версії. У грудні вдалося зібрати понад 20 тисяч речень. Наповнення корпусу текстами триває — можна надіслати своє есе на обрану тему, перекласти частину тексту або надіслати свій текст. Головна умова — не користуватись словниками, правописами, не вичитувати тексти, але й не робити лексичні та граматичні помилки навмисно.

Ці тексти потім опрацюють професійні українські лінгвісти. «Це один із маленьких кроків, які наближають нас до чудової мети — навчити комп’ютер ще краще розуміти українську мову. Саме це і надихає всю нашу команду, — ідеться на сайті  Grammarly Kyiv. — Проєкт стає постійним і буде частинкою нашого внеску у розвиток українського NLP. Це означає, що ми продовжимо збирати і додавати тексти до корпусу. Адже що більше даних у корпусі, то більше можливостей для подальшого використання».

Delimiter 468x90 ad place

Підписуйтесь на свіжі новини:

Газета "День"
читати