Український пошук: знайти «вікіпедію»

6 липня 2010, 14:06

Раніше наш україномовний пошук вмів шукати різні словоформи лише для слів зі словника. Таких приблизно 200 тис. Звісно, що лексична система української мови значно багатша. Зокрема, до класичних словників не входять такі відносно нові поняття чи складні слова, як «вікіпедія» або «укрзалізниця».

Досі Яндекс шукав подібні слова тільки в тій формі, в якій їх вказав сам користувач. Отже, за запитом [вікіпедія] неможливо було знайти документи, де це слово фігурує в інших відмінках — «вікіпедію» чи «вікіпедії».

Тепер ми навчилися автоматично визначати, як може відмінюватися слово, якого немає у словнику, і шукати всі його форми.

Наприклад, для слова [порохотяга] ми знаходимо і «порохотяг», і «порохотягу» та решту словоформ:

 

А шукаючи щось [на ютубі], ви знайдете і «україномовний ютуб», і «відео з ютуба» (ну і, насамперед, сам YouTube, але це вже інша історія). 

Як визначаємо такі словоформи? Аналізуємо їхню схожість зі словами, які вже є у словнику. Зокрема, дивимося на:

1) Типові набори закінчень слів у словнику.

Ми порівнюємо закінчення «нового» слова із таким самим закінченням слова зі словника і робимо припущення, що «нове» слово відмінюється так само, як і словникове.

Рідкісні закінчення за зразок не беремо — слова з такими закінченнями зазвичай відносяться до мовного ядра, нові слова за такими шаблонами практично не утворюються. Виняток становлять тільки слова, утворені від словникових слів з рідкісними закінченнями за допомогою типових словотвірних префіксів. Наприклад, тепер ми знаємо, що «антикрилом» — це форма слова «антикрило».

2) Останні літери слова перед закінченням.

Вони можуть впливати на те, які відмінкові закінчення має слово, або чергуватися при відмінюванні слова (наприклад, руКА – в руЦІ, ноГА – в ноЗІ, дуб – дубА, але лікар - лікарЯ).

Тож тепер в Яндексі можна шукати [вікіпедію] з [укрзалізницею] — навіть і в таких формах.

 

Наталія Журавльова, Олена Грунтова і команда веб-пошуку Яндекса