Немає країни для старих

Деякі думки з приводу поточного стану комп'ютерної лінгвістики

Річард спротив

Червень 2009

Найважча річ про те, піонер не піонерський. Це правильно, один раз кордон вже не кордони, а частина мегаполісу. Для деяких з нас, хто займається комп'ютерної лінгвістики з 1980-х років, коли багато районів малонаселені, поїздки на конференції, такі як NAACL почуває себе зараз, як поїздка у велике місто.

Таким чином, ви не зрозумійте мене неправильно, в (неявно) стверджують, що бути піонером, я не беручи участь в зарозумілість: можна бути піонером, не будучи Деніел Бун. Існували тисячі піонерів американського Заходу, більшість з яких ми ніколи не чули. Я вимагаю, щоб бути одним з них. Претензії не без підстав: коли я почав працювати на китайський назад сегментації слів в кінці 80-х було не так багато до роботи. У тому ж дусі, коли я працював з обчислювальної морфології на початку 1990-х років, там були, звичайно, було пару десятиліть до роботи, але поле було ще малонаселеній. Коли я працював над кінцевим числом станів методами текст нормалізації разом з іншими колегами AT & T, я був одним з людей, що беруть участь в просуванні використанням кінцево-statery за її відносно обмежені до використання в таких областях, як морфологія. Я пам'ятаю, як сказав свого часу деякі люди НЛП в крупній софтверної компанії в Редмонді, штат Вашингтон, що з кінцевим числом станів методи були частиною минулого, і помер у 1970-х роках. Час показав, щоб вони були приголомшливо неправильно. І що ще важливіше справжнього обговорення, я пам'ятаю, програми раннього ACL засіданні комітету в Рочестері в 1993 році, суть в тому, що весь тур підходить комітеті одним великим столом. Очевидно, що колись було головним чином ліси, тепер міст.

Мій безпосередній мотивацією для написання цій короткій статті відноситься конкретно до відгуків, які я отримав на пару ACL / EMNLP матеріалів, а також мої останні участь в NAACL в Боулдері. Це може бути як можливість просто, щоб висловити селезінки, але я сподіваюся, що це буде сприйнято як більш того: тому що я думаю, що це говорить щось про те, де поле, де він міг би йти, і чи дійсно, що таке гарна ідея.

У роботах беруть участь двоє.

Один з них був одним з авторів документа, що запропонований метод для вирішення складної задачі в тексті нормалізації, а саме розширення цифра-рядка в число імен у російській мові. Техніка пов'язана з використанням кінцево-граматиці overgenerate кандидата відображень між цифрою і числом рядків імен, видобуток в Інтернеті для фактичного допустимі вирази ім'я номер, а потім, використовуючи результат для підготовки N-грам мовної моделі, і кілька дискримінаційних моделей. Для тих, хто піклується, (EMNLP версія) документ знаходиться тут.

Друга була коротка папір для ACL, написані з бакалаврату і набір аспірантів, на громадських інструментарій, який був розроблений в рамках Johns Hopkins CSLU влітку семінар для виконання транслітерації. Знову ж таки, для тих, хто дбає, в роботі знаходиться тут.

Коментарі Я потрапив на виставу ACL першої статті були різні, але пару стирчать в моїй свідомості як час, а розповідаючи про стан поля. В одному з коментарів було те, що, наскільки рецензент міг бачити, проблема виникла тільки в мовах, як російська і, можливо, інших слов'янських мовах. Так в чому ж тут справа? Якщо явище відбувається тільки в однієї мовної сім'ї, незалежно від того, наскільки складною вона є, це не цікаво? Навіть якби це було правдою, що слов'янські мови є єдиними мови виявляють морфологічної складністю знайти в російських імен числа, це робить його менш важливим? Слово сегментації тільки проблема в мовах - серед сучасних мовах, китайською, японською, тайською, кілька мов Південної Азії - які використовують системи письма, які не відзначати кордону слова: поки це породило мало промисловості котеджу, і (на сьогоднішній день ) чотирьох міжнародних bakeoffs, авторами якого SIGHAN. Я підозрюю, що реальна проблема тут в тому, що число імен розширення часто розглядається (при перегляді на всіх), як тривіальна задача, і тому вона просто не одним з «санкціонованих» проблеми на місцях.

Інший коментар (з іншого рецензент) було ще більш незрозуміло: наскільки цей рецензент міг бачити, проблема тільки виникла в текст-в-мова синтезу, що інші програми цієї роботи був там? Знову ж таки, навіть якщо б це було правдою (принаймні застосування тексту нормалізації для систем розпізнавання мови припускає, що це не так), які коментарі це? Чи можете ви уявити, що хтось стверджує, що конкретний метод корисний тільки для MT? Це не сталося б, бо якби не було техніки, єдина нанесення лаку були в МТ, ніхто не зробить це заперечення, тому що МТ (зараз) вважається одним з ключових напрямів досліджень у цій області.

Так що я спробував розглянути зауваження, які можуть бути вирішені, і знову в EMNLP, і, звичайно, я отримав інший набір відповідей. Той, що палиці в моїй голові від цього раунду стверджують, що застосування дискримінаційних методів були наївні протягом декількох причин, одна з яких, що моделі були чітко перетренованості у зв'язку з відсутністю достатніх прикладів навчання; той факт, що деякі з навчання задає було мільйони прикладів (вказується в документі), імовірно втік уваги рецензента, але реальна точка, що рецензент хотів, щоб було те, що дискримінаційні обраний метод (персептрон - насправді лише один з методів) був неправильний метод, і це щось як класифікатор краю макс повинні були використовуватися. Можливо, але є цікавий підтекст, який я бачив раніше, а саме мається на увазі, що простий метод машинного навчання, які не виконують так добре, повинна бути замінена такою і такий метод, який буде виконувати масово краще. Оперантного термін тут є "масовим": за те, що є докази того, що слід очікувати цього? Як часто вимикач ML методи для задачі (збереження можливості постійної, звичайно) в результаті масивного підвищення точності? Благоустрій, вірно? Статистично значуще поліпшення навіть? Але серйозне поліпшення? Звичайно, іноді це трапляється. Але як часто? Це в більшості випадків так, що до Очікується, що найчастіше, вимикач ML методів дасть майже категорично різні результати? Я сумніваюся в цьому. Тим не менш, ця імплікація часто підтексту в коментарі такого роду. Я не впевнений, що джерело цього неявного переконання (за межами очікуваного «Я знаю краще, ніж ви" ставлення настільки поширене в академічних колах). Але я думаю, що це принаймні відноситься до загальної зрушенню в тенором поля, точка, до якої ми повернемося нижче.

Для другого короткого представлення ACL, зворотний зв'язок здивування по-іншому. Насправді, по більшій частині оглядачів вельми сподобалося. Існував обгрунтовану скаргу, що документ був тонкий на деяких деталях - прямий результат 4-сторінці межі. Але в цілому ніхто не скаржився з приводу змісту - за винятком одного рецензента, тобто, хто вважає, що це "інструменти" паперу, і не представив жодних нових досліджень. Ну, е-е, так, це було дійсно інструментів паперу, і він не був, нібито, щоб представити будь-які нові дослідження. Але що в цьому поганого? Хіба не місце в ACL для таких робіт? При роботах на матеріали публікуються (будь то в конференціях або журналів), вони часто в кінцевому підсумку найбільш цитованих робіт в області: розглянути документ з описом Penn Treebank. Але що більш важливо, це не мета конференції тримати співтовариство в курсі про поточний стан мистецтва, яка, безумовно, включає в себе ресурси, а також нові теоретичні прориви?

Це підводить мене до моєї оцінці поточного стану поля, підтримав і мій правда змучений вигляд на останніх NAACL конференції. А саме, що області передало в значній мірі в групу техніків, які більше зацікавлені в налаштуванні методами, ніж у проблемах вони застосовуються до;, які є набагато більш вражає розумні новий підхід ML до старої проблеми, ніж Застосування відомих методів до нової проблеми. Моє враження про молоде покоління NAACL учасників у тому, що більшість, можливо, навіть більшість з них досконало навчений обчислювальних методів навчання, і повністю на вершині новітніх технологій, здатних обговорити достоїнства тієї чи іншої з цих на падіння капелюх, але набагато більше зацікавлений в цих питаннях, ніж в актуальних проблемах, до яких вони застосовуються.

Не те, щоб старий ACL було краще: там було багато заслуг в змітаючи всіх цих утомливих робіт на розборі, що пропоновані нові алгоритми синтаксичного аналізу, що ніхто не спромігся масштабувати для роботи на більш ніж кілька пропозицій. Але при перемиканні треків в новій галузі комп'ютерної лінгвістики, ми, звичайно зайшов занадто далеко в іншому напрямку. Там повинно бути місце для робіт, які досліджують нові проблеми із звичними методами. Там повинно бути місце для документів, які представляють корисні інструменти, які просто реалізувати методи, які вже відомі. Поле не повинно бути так монолітно зосереджені на розумних технічних досягнень.

У той же час, можливо, прийшов час для деяких з нас, хто були навколо якийсь час, щоб перейти на нові території.

Доповнення: січень 2010

На примхи я знову російська число імен паперу NAACL 2010: я вирішив піти по три на три. Я не був розчарований: документ був відхилений, як це було з ACL і EMNLP. Щоб бути справедливими зауваження були менш дивною, ніж деякі з тих, хто на попередніх раундах. Але один рецензент знайшов проблему, я звертався, щоб бути «периферійних».

Я вважаю, що це дуже гарне резюме ситуація: робота «периферійних» в інтересах області та, в цілому, мабуть, це не є ні цікавого, ні інноваційного більше. Ну да ладно.

Нові додавання: нарешті отримав прийнята на SLT 2010 року. Ура!

Перекладено з http://rws.xoba.com/newindex/ncfom.html

Домашня сторінка