Чем занимается компьютерный лингвист? Компьютерная лингвистика: методы, ресурсы, приложения.

Лингвистическая информатика является частью теории информационного обслуживания. Теория информационного обслуживания возникла в связи с компьютеризацией речи, то есть в связи с применением ЭВМ как средства записи, учета и хранения языковой информации. Благодаря технике удалось совместить функции библиотеки, архива и канцелярии.

Большие классы текстов обрабатываются путем автоматического реферирования. Непрерывно растущий объем научно-технической информации, поиск которой становится все более трудоемким, вызвал идею вести поиск по так называемым вторичным текстам, представляющим собой свернутую информацию первичного документа: библиографическое описание, аннотация, реферат, научный перевод.

Свертывание первичного текста осуществляется путем его сжатия, компрессии. Разработаны специальные методы свертывания первичного текста:

а) статистико-дистрибутивные методы заключаются в том, что выделяются наиболее информативные предложения, в которых сосредоточены наиболее значимые для данного текста языковые знаки;

б) методы использования смысловых индикаторов, когда отмечаются наиболее содержательные «точки» текста - предмет исследования, цель, методы, актуальность, область применения, выводы, результаты); в) метод текстовых связей, который заключаются в том, что учет межфразовых связей делает реферат целостным.

3. Практическое терминоведение.
Практическое терминоведение включает разделы:

а) лексикографическая терминология, которая занимается теорией и практикой создания специальных словарей, унификацией терминосистем, переводом терминов, созданием терминологических банков данных, автоматизацией их хранения и обработки.

б) предметом прикладной лингвистики стала и сама лексикография как один из самых трудоемких видов практического языковедения. Словари создаются десятилетиями. Поэтому вполне объяснимо стремление ученых автоматизировать лексикографическую деятельность. Появились автоматические словари. Их предназначение - повысить производительность труда при работе с текстами, по сбору, хранению и обработке различных единиц языка. Словари такого типа используются в системах автоматической переработки текстов.

Автоматический перевод.

В основе автоматического, или машинного, перевода лежит предположение о возможности приведения в соответствие типологически разных языковых структур (словаря, порядка слов, словоизменения, синтаксических структур). Лингвистический принцип перевода заключается в сопоставлении эквивалентных по смыслу языковых единиц двух и более языков.

В разработках систем автоматического перевода выделяют два этапа. На первом этапе решались такие фундаментальные проблемы машинного перевода, как создание автоматических словарей, разработка языка- посредника, формализация грамматики, преодоление омонимии, обработка идиоматических образований. На втором этапе продолжают достаточно плодотворно развиваться и воплощаться в практике теоретико-множественные модели грамматик, модели грамматик зависимостей, непосредственно составляющих, моделей порождающей грамматики. В этот период все более активно в прикладную лингвистику вовлекается семантика по модели «смысл - текст». Возникшие в отечественных и зарубежных университетах центры прикладной лингвистики разрабатывают стратегии машинного перевода. К ним относятся лаборатория математической лингвистики в Санкт-Петербургском университете, в Институте прикладной математики РАН; Всесоюзный центр перевода; группа «Статистика речи» в Ленинградском пединституте под руководством Раймонда Генриховича Пиот­ровского; группа по исследованию синтаксического моделирования «смысл - текст» под руководством Игоря Александровича Мельчука.

Новый этап совершенствования машинного перевода связан с использованием языка-посредника - языка представления знаний. В его основе лежит анализ значения предложения, получаемого при осмыслении входного предложения, дополненного и размеченного с помощью информации из базы знаний и в ее терминах. Процесс перевода представляет собой преобразование входного предложения языка X в выходную структуру языка У. Иными словами, результатом машинного перевода является скорее не собственно перевод, а пересказ исходного текста (X). Качество перевода зависит от эффективности языка представления знаний. Высокое качество машинного перевода может быть обеспечено только созданием надежных лингвистических основ и программных средств для построения мощных семантических сетей на основе автоматизированных лексиконов.

IV. Этнолингвистика.

Этнолингвистика (этносемантика, антрополингвистика) – это область языкознания, изучающая язык в его взаимоотношении с культурой определенного этноса. Основы этнолингвистики были заложены в работах Франца Боаса и Эдварда Сепира в первой четверти 20 века. Во второй половине 20 в. этнолингвистика оформилась в самостоятельный раздел языкознания. Этнолингвистические исследования второй половины 20 в. характеризуются такими чертами, как: привлечение методов экспериментальной психологии; сопоставление семантических моделей разных языков; изучение проблем народной таксономии; паралингвистические исследования; реконструкция духовной этнической культуры на основе данных языка; оживление внимания к фольклористике.

Центральными для этнолингвистики являются две тесно взаимосвязанных проблемы, которые можно назвать «когнитивной» и «коммуникативной»:

1. Каким образом, с помощью каких средств и в какой форме в языке находят отражение культурные (бытовые, религиозные, социальные и пр.) представления народа, говорящего на этом языке, об окружающем мире и о месте человека в этом мире?

2. Какие формы и средства общения – в первую очередь, языкового общения – являются специфическими для данной этнической или социальной группы?

В соответствии с этими проблемами в этнолинвистике выделились два направления: когнитивно ориентированная этнолингвистика и коммуникативно ориентированная лингвистика.

а) Когнитивно ориентированная этнолингвистика.

Когнитивно ориентированная этнолингвистика характерна для американского языкознания. Она называется антропологической лингвистикой. Первоначально антропологическая лингвистика была ориентирована на изучение культуры народов, резко отличающихся от европейских, прежде всего – американских индейцев. Установление родственных связей между этими языками и описание их современного состояния подчинялись задаче комплексного описания культуры этих народов и реконструкции их истории, в том числе путей миграции. Запись и интерпретация бытовых и фольклорных текстов была неотъемлемым компонентом антропологического описания.

Вслед за Францем Боасом в антропологической лингвистике считается, что более дробные фрагменты классификации действительности в языке соответствуют более важным аспектам данной культуры. Как замечает американский лингвист и антрополог Гарри Хойер, «народы, живущие охотой и собирательством, как, например, племена апачей на юго-западе Америки, обладают обширным словарем названий животных и растений, а также явлений окружающего мира. Народы же, основным источником существования которых является рыбная ловля (в частности, индейцы северного побережья Тихого океана), имеют в своем словаре детальный набор названий рыб, а также орудий и приемов рыбной ловли».

Наибольшее внимание этнолингвистов привлекали такие таксономические системы, как обозначения частей тела, термины родства, так называемые этно-биологические классификации, то есть названия растений и животных (английский ученый Б.Берлин, Анна Вежбицкая), – и особенно цветообозначения (Б.Берлин и П.Кей, А.Вежбицкая).

В современной антропологической этнолингвистике можно условно выделить «релятивистское» и «универсалистское» направления: для первого приоритетным является изучение культурной и языковой специфики в картине мира говорящего, для второго – поиск универсальных свойств лексики и грамматики естественных языков.

Примером исследований релятивистского направления в этнолингвистике могут служить работы Юрия Дерениковича Апресяна, Нины Давидовны Арутюновой, Анны Вежбицкой, Татьяны Вячеславовны Булыгиной, Алексея Дмитриевича Шмелева, Е.С.Яковлевой, посвященные особенностям русской языковой картины мира. Эти авторы анализируют значение и употребление слов, которые либо обозначают уникальные понятия, не характерные для концептуализации мира в других языках (тоска и удаль, авось и небось), либо соответствуют понятиям, существующим и в других культурах, но особенно значимым именно для русской культуры или получающим особую интерпретацию (истина и правда, свобода и воля, судьба и доля). Приведем для примера фрагмент описания слова «авось» из книги Т.В.Булыгиной и А.Д.Шмелева «Языковая концептуализация мира»:

«<...> авось значит вовсе не то же, что просто „возможно“ или „может быть“. <...> чаще всего авось используется как своего рода оправдание беспечности, когда речь идет о надежде не столько на то, что случится некоторое благоприятное событие, сколько на то, что удастся избежать какого-то крайне нежелательного последствия. О человеке, который покупает лотерейный билет, не скажут, что он действует на авось. Так, скорее, можно сказать о человеке, который <...> экономит деньги, не покупая медицинской страховки, и надеется, что ничего плохого не случится <...> Поэтому надежда на авось – не просто надежда на удачу. Если символ фортуны – рулетка, то надежду на авось может символизировать „русская рулетка“».

Примером исследований универсалистского направления в этнолингвистике являются работы польского ученого Анны Вежбицкой, посвященные принципам описания языковых значений. Цель многолетних исследований А.Вежбицкой и ее последователей – установить набор так называемых «семантических примитивов», универсальных элементарных понятий, комбинируя которые каждый язык может создавать бесконечное число специфических для данного языка и культуры конфигураций. Семантические примитивы являются лексическими универсалиями, иначе говоря, это такие элементарные понятия, для которых в любом языке найдется обозначающее их слово. Эти понятия интуитивно ясны носителю любого языка, и на их основе можно строить толкования любых сколь угодно сложных языковых единиц. Изучая материал генетически и культурно различных языков мира, в том числе языков Папуа – Новой Гвинеи, австронезийских языков, языков Африки и аборигенов Австралии, А.Вежбицкая постоянно уточняет список семантических примитивов. В ее работе «Толкование эмоциональных концептов» приводится следующий их список:

«субстантивы» – я, ты, кто-то, что-то, люди;
«детерминаторы и квантификаторы» – этот, тот же, самый, другой, один, два, много, все/весь;
«ментальные предикаты» – думать (о), говорить, знать, чувствовать, хотеть;
«действия и события» – делать, происходить/случаться;
«оценки» – хороший, плохой;
«дескрипторы» – большой, маленький;
«время и место» – когда, где, после/до, под/над;
«метапредикаты» – не/нет/отрицание, потому что/из-за, если, мочь;
«интенсификатор» – очень;
«таксономия и партономия» – вид/разновидность, часть;
«нестрогость/прототип» – подобный/как.

Из семантических примитивов, как из «кирпичиков», А.Вежбицкая складывает толкования даже таких тонких понятий, как эмоции. Так, например, ей удается продемонстрировать трудноуловимое различие между понятием американской культуры, обозначаемым словом «happy», и понятием, обозначаемым русским словом «счастливый» (и близкими ему по смыслу польским, французским и немецким прилагательными). Слово «счастливый», как пишет А.Вежбицкая, хотя и считается обычно словарным эквивалентом английского слова «happy», в русской культуре имеет более узкое значение, «обычно оно употребляется для обозначения редких состояний полного блаженства или совершенного удовлетворения, получаемого от таких серьезных вещей, как любовь, семья, смысл жизни и т.п.». Вот как формулируется это отличие на языке семантических примитивов (компоненты толкования В, отсутствующие в толковании А, выделяются заглавными буквами).

Толкование А: X feels happy
X чувствует что-то
со мной произошло что-то хорошее
я хотел этого
я не хочу ничего другого
Х чувствует что-то похожее

Толкование B: X счастлив
X чувствует что-то
иногда человек думает примерно так:
со мной произошло что-то ОЧЕНЬ хорошее
я хотел этого
ВСЕ ХОРОШО
я не МОГУ ХОТЕТЬ ничего другого
поэтому этот человек чувствует что-то хорошее
Х чувствует что-то похожее

Для исследовательской программы А.Вежбицкой принципиально, что поиск универсальных семантических примитивов осуществляется эмпирическим путем, с применением методик полевой лингвистики – работой с информантом: во-первых, в каждом отдельном языке выясняется роль, которую играет данное понятие в толковании других понятий, и, во-вторых, для каждого понятия выясняется множество языков, в которых данное понятие лексикализовано, то есть имеется специальное слово, выражающее это понятие.

Б) Коммуникативно ориентированная этнолингвистика.

Наиболее значительные результаты в коммуникативно ориентированной этнолингвистике связаны с направлением, именуемым «этнографией речи» или «этнографией коммуникации». Этнография речи как теория и метод анализа языкового употребления в социокультурном контексте была предложена в начале 60-х гг. в работах Д. Хаймза и Джона Дж. Гамперца и развита в работах американского ученого Арона Сикурела, Дж. Баумана, А.У. Корсаро. Высказывание исследуется только в связи с каким-либо речевым или коммуникативным событием, в рамках которого оно порождается. Подчёркивается культурная обусловленность любых речевых событий (проповедь, судебное заседание, телефонный разговор и т.д.). Устанавливаются правила языкового употребления путём присутствующего наблюдения (соучастие в речевом событии), анализа спонтанных данных, интервьюирования носителей данного языка как родного.

В рамках этого направления изучаются модели речевого поведения, принятые в той или иной культуре, в той или иной этнической или социальной группе. Так, например, в культуре «среднеевропейского стандарта» неформальная беседа нескольких человек предполагает, согласно принятым в данном сообществе правилам хорошего тона, что участники не будут перебивать друг друга, всем поочередно предоставляется возможность высказываться, желающий высказаться обычно сигнализирует об этом словами «позвольте заметить», «разрешите спросить» и т.п. Желающий выбыть из числа участников беседы объявляет о своем намерении словами «к сожалению, мне пора», «я должен ненадолго отлучиться» и так далее. Совсем иные нормы публичного речевого поведения приняты, например, в ряде культур аборигенов Австралии. Соблюдение индивидуальных прав отдельного участника разговора в этих сообществах не является обязательным правилом: несколько собеседников могут говорить одновременно, реагировать на высказывание другого не обязательно, говорящий высказывается, ни к кому специально не обращаясь, собеседники могут не смотреть друг на друга и т.д. Такая модель речевого поведения строится на исходной предпосылке, что все высказывания так или иначе аккумулируются в окружающем мире, и поэтому «прием» сообщения не обязательно должен непосредственно следовать за его «передачей».

Актуальной темой этнографии коммуникации является также изучение языкового выражения относительного социального статуса собеседников: правила обращения к собеседнику, в том числе использование титулов, обращений по имени, фамилии, имени и отчеству, профессиональные обращения (например, «доктор», «товарищ майор», «профессор»), уместность обращений «на ты» и «на Вы» и т.д. Особенно пристально исследуются такие языки, в которых соотношение социального положения говорящего и слушающего закрепляется не только в лексике, но и в грамматике. Примером может служить японский язык, где выбор грамматической формы глагола зависит от того, стоит ли слушающий выше говорящего в социальной иерархии или ниже, а также от того, входят ли говорящий и слушающий в одну социальную ячейку или нет. Кроме того, учитываются и отношения между говорящим и лицом, о котором идет речь. В результате комплексного действия этих ограничений один и тот же человек употребляет разные формы глагола при обращении к подчиненному и при обращении к начальнику, при обращении к сослуживцу и при обращении к незнакомому человеку, при обращении к своей жене и к жене соседа.

В грамматике находит отражение и такая особенность речевого этикета японцев, как стремление избежать вторжения в сферу мыслей и чувств собеседника. В японском языке существует особая грамматическая форма глагола – так называемое «желательное наклонение». С помощью суффикса желательного наклонения –tai говорящий выражает желание совершить действие, обозначенное исходным глаголом: "читать" + tai = "хочу читать", "уйти" + tai = "хочу уйти". Однако формы желательного наклонения возможны, только если говорящий описывает собственное желание. Желание собеседника или третьего лица выражается с помощью особой конструкции, приблизительно означающей "по внешним признакам можно заключить, что лицо X хочет совершить действие Y". Таким образом, подчиняясь требованиям грамматики, говорящий на японском языке может высказывать суждения лишь о собственных намерениях. Делать же прямые утверждения о внутреннем состоянии другого человека, например о его желаниях, язык просто не позволяет. Можно сказать «Я хочу...», но нельзя сказать «Вы хотите...» или «Он хочет...», а лишь «Мне кажется (у меня такое впечатление), что Вы хотите...» или «Мне кажется (у меня такое впечатление), что он хочет...».

Помимо норм речевого этикета, этнография коммуникации изучает также ритуализованные в тех или иных культурах речевые ситуации, такие, как заседание суда, защита диссертации, торговая сделка и тому подобные; правила выбора языка при межъязыковом общении; языковые конвенции и клише, сигнализирующие о принадлежности текста к определенному жанру («жили-были» – в сказках, «слушали и постановили» – в протоколе заседания).

Современная этнолингвистика тесно связана с социологией, психологией, семиотикой. В российской этнолингвистике особое место занимают исследования на стыке этнолингвистики, фольклористики и сравнительно-исторического языкознания. В первую очередь это исследовательская программа, посвященная этноязыковой и этнокультурной истории славянских народов (Никита Ильич Толстой, Светлана Михайловна Толстая, Владимир Николаевич Топоров). В рамках этой программы составляются этнолингвистические атласы, картографируются обряды, верования, фольклор; изучается структура кодифицированных славянских текстов определенных жанров, в том числе заговорных текстов, загадок, погребальных и строительных ритуалов и т.д., в соотнесении с данными сравнительно-исторических и археологических исследований.

  • Систематизация в языкознании и лингвистическая классификация народов мира
  • Социолингвистическая (или функциональная) классификация языков и форм речи

  • Лингви́стика (от лат. lingua -
    язык), языкозна́ние, языкове́дение - наука,
    изучающая языки.
    Это наука о естественном человеческом языке вообще
    и обо всех языках мира как его
    индивидуализированных представителях.
    В широком смысле слова, лингвистика
    подразделяется на научную и практическую. Чаще
    всего под лингвистикой подразумевается именно
    научная лингвистика. Является частью семиотики как
    науки о знаках.
    Лингвистикой профессионально занимаются учёныелингвисты.

    Лингвистика и Информатика.
    В жизни современного общества важную роль играют автоматизированные
    информационные технологии. Но развитие информационных технологий происходит
    весьма неравномерно: если современный уровень вычислительной техники и
    средств связи поражает воображение, то в области смысловой обработки
    информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от
    достижений в изучении процессов человеческого мышления, процессов речевого
    общения между людьми и от умения моделировать эти процессы на ЭВМ. А это задача чрезвычайной сложности.Когда речь идет о создании перспективных
    информационных технологий, то проблемы автоматической обработки текстовой
    информации, представленной на естественных языках, выступают на передний план.
    Это определяется тем, что мышление человека тесно связано с его языком. Более
    того, естественный язык является инструментом мышления. Он является также
    универсальным средством общения между людьми – средством восприятия,
    накопления, хранения, обработки и передачи информации.
    Проблемами использования естественного языка в системах автоматической
    обработки информации занимается наука компьютерная лингвистика. Эта наука
    возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов
    прошлого столетия. Поначалу, в период своего становления, она имела различные
    названия: математическая лингвистика, вычислительная лингвистика, инженерная
    лингвистика. Но в начале восьмидесятых годов за ней закрепилось название
    компьютерная лингвистика.

    Компьютерная лингвистика - это область знаний, связанная с решением задач
    автоматической обработки информации, представленной на естественном языке.
    Центральными научными проблемами компьютерной лингвистики являются проблема
    моделирования процесса понимания смысла текстов (перехода от текста к
    формализованному представлению его смысла) и проблема синтеза речи (перехода от
    формализованного представления смысла к текстам на естественном языке). Эти проблемы
    возникают при решении ряда прикладных задач:
    1) автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ,
    2) автоматического анализа и синтеза устной речи,
    3) автоматического перевода текстов с одних языков на другие,
    4) общения с ЭВМ на естественном языке,
    5) автоматической классификации и индексирования текстовых документов, их
    автоматического реферирования, поиска документов в полнотекстовых базах данных.
    За прошедшие полвека в области компьютерной лингвистики были получены
    значительные научные и практические результаты: были созданы системы машинного
    перевода текстов с одних естественных языков на другие, системы автоматизированного
    поиска информации в текстах, системы автоматического анализа и синтеза устной речи и
    многие другие. Но были и разочарования. Например, проблема машинного перевода
    текстов с одних языков на другие оказалась значительно сложнее, чем это представляли
    себе пионеры машинного перевода и их последователи. То же самое можно сказать об
    автоматизированном поиске информации в текстах и о задаче анализа и синтеза устной
    речи. Ученым и инженерам придется по-видимому еще немало потрудиться, чтобы
    достигнуть нужных результатов.

    Обработка естественного языка (англ. natural language processing; синтаксический,
    морфологический, семантический анализы текста). Сюда включают также:
    Корпусная лингвистика, создание и использование электронных корпусов текстов
    Создание электронных словарей, тезаурусов, онтологий. Например, Lingvo. Словари
    используют, например, для автоматического перевода, проверки орфографии.
    Автоматический перевод текстов. Среди русских переводчиков популярным
    является Промт. Среди бесплатных известен переводчик Google Translate
    Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact
    extraction, text mining)
    Автореферирование (англ. automatic text summarization). Эта функция включена,
    например, в Microsoft Word.
    Построение систем управления знаниями. См. Экспертные системы
    Создание вопросно-ответных систем (англ. question answering systems).
    Оптическое распознавание символов (англ. OCR). Например, программа FineReader
    Автоматическое распознавание речи (англ. ASR). Есть платное и бесплатное ПО
    Автоматический синтез речи

    Современная компьютерная лингвистика очень во многом ориентирована на использование математических моделей. Есть даже расхожее мнение, что лингвисты не особенно нужны для автоматического моделирования естественного языка. Известно крылатое выражение Фредерика Елинека , руководителя центра распознавания речи университета Джона Хопкинса: "Anytime a linguist leaves the group, the recognition rate goes up" - каждый раз, когда лингвист покидает рабочую группу, качество распознавания повышается.

    Однако, чем более сложные и многоуровневые задачи лингвистического моделирования ставятся перед разработчиками автоматических систем, тем очевидней становится, что их решение невозможно без учета лингвистической теории, понимания того, как функционирует язык, лингвистической экспертной компетенции. В то же время, стало очевидно, что автоматические методы анализа и моделирования языковых данных могут существенно обогатить теоретические лингвистические исследования, являясь и средством для сбора языковых данных и инструментом проверки состоятельности той или иной лингвистической гипотезы.

    Форум по оценке систем автоматической обработки текста

    С.Ю.Толдова, О.Н. Ляшевская, А.А. Бонч-Осмоловская

    Как формализовать лексическое значение, сделать его "машиночитаемым"? Ответ на это дают дистрибуционные модели языка, в которых значение слова есть сумма его контекстов в достаточно большом корпусе. Искусственные нейронные сети позволяют быстро и качественно обучать такие модели.

    Денис Кирьянов, Таня Панова (научный руководитель Б.В. Орехов)

    У этой программы есть две функции: а) нормализация текста на идише, б) транслитерация из квадратного письма в латиницу. Эти проблемы очень актуальны: до настоящего момента не существовало ни одного нормализатора, если не считать таковыми спелл-чекеры. Меж тем, практически каждое издательство, выпускавшее книги на идише, следовало своей орфографической практике. Нормализатор необходим для работы над корпусом языка идиш: для сведения всех текстов к единой орфографии, распознаваемой парсером. Транслитерация позволит работать с материалом идиша и типологам.

    ВИДЕО сотрудников Школы лингвистики:

    По выбору; 3-й курс, 2, 3 модуль

    Обязательный; 1-й курс, 2 модуль

    По выбору; 3-й курс, 3 модуль

    Обязательный; 4-й курс, 1-3 модуль

    Обязательный; 4-й курс, 2 модуль

    Обязательный; 2-й курс, 1, 2, 4 модуль

    Компью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика , англ. computational linguistics ) - научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта , которое ставит своей целью использование математических моделей для описания естественных языков .

    Компьютерная лингвистика частично пересекается с обработкой естественных языков . Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.

    Полем деятельности компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации.

    Истоки

    Математическая лингвистика является ветвью науки искусственного интеллекта . Её история началась в Соединённых Штатах Америки в 1950-х годах. С изобретением транзистора и появлением нового поколения компьютеров, а также первых языков программирования, начались эксперименты с машинным переводом , особенно русских научных журналов. В 1960-х годах подобные исследования проводились и в СССР (например, статья о переводе с русского на армянский в сб. «Проблемы кибернетики» за 1964 год). Однако качество машинного перевода до сих пор сильно уступает качеству перевода, произведённого человеком.

    С 15 по 21 мая 1958 года в I МГПИИЯ состоялась первая Всесоюзная конференция по машинному переводу. Оргкомитет возглавляли В. Ю. Розенцвейг и ответственный секретарь Оргкомитета Г. В. Чернов . Полностью программа конференции опубликована в сборнике «Машинный перевод и прикладная лингвистика», вып. 1, 1959 г. (он же «Бюллетень Объединения по машинному переводу № 8»). Как вспоминает В. Ю. Розенцвейг , опубликованный сборник тезисов конференции попал в США и произвел там большое впечатление.

    В апреле 1959 года в Ленинграде состоялось I Всесоюзное совещание по математической лингвистике, созванное Ленинградским университетом и комитетом прикладной лингвистики. Главным организатором Совещания был Н. Д. Андреев . В Совещании приняли участие ряд видных математиков, в частности, С. Л. Соболев , Л. В. Канторович (впоследствии - Нобелевский лауреат) и А. А. Марков (последние двое выступали в прениях). В. Ю. Розенцвейг выступил в день открытия Совещания с программным докладом «Общая лингвистическая теория перевода и математическая лингвистика».

    Направления компьютерной лингвистики

    • Обработка естественного языка (англ. natural language processing ; синтаксический, морфологический, семантический анализы текста). Сюда включают также:
    1. Корпусная лингвистика , создание и использование электронных корпусов текстов
    2. Создание электронных словарей , тезаурусов , онтологий . Например, Lingvo . Словари используют, например, для автоматического перевода, проверки орфографии.
    3. Автоматический перевод текстов. Среди русских переводчиков популярным является Промт . Среди бесплатных известен переводчик Google Translate
    4. Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact extraction, text mining )
    5. Автореферирование (англ. automatic text summarization ). Эта функция включена, например, в Microsoft Word .
    6. Построение систем управления знаниями . См. Экспертные системы
    7. Создание вопросно-ответных систем (англ. question answering systems ).
    • Оптическое распознавание символов (англ. OCR ). Например, программа FineReader
    • Автоматическое распознавание речи (англ. ASR ). Есть платное и бесплатное ПО
    • Автоматический синтез речи

    Крупные ассоциации и конференции

    Учебные программы в России

    См. также

    Напишите отзыв о статье "Компьютерная лингвистика"

    Примечания

    Ссылки

    • (реферат)
    • - база знаний по лингвистическим ресурсам для русского языка
    • - открытые исходники некоторых утилит компьютерной лингвистики
    • - онлайн доступ к программам компьютерной лингвистики

    Отрывок, характеризующий Компьютерная лингвистика

    – Возьми, возьми ребенка, – проговорил Пьер, подавая девочку и повелительно и поспешно обращаясь к бабе. – Ты отдай им, отдай! – закричал он почти на бабу, сажая закричавшую девочку на землю, и опять оглянулся на французов и на армянское семейство. Старик уже сидел босой. Маленький француз снял с него последний сапог и похлопывал сапогами один о другой. Старик, всхлипывая, говорил что то, но Пьер только мельком видел это; все внимание его было обращено на француза в капоте, который в это время, медлительно раскачиваясь, подвинулся к молодой женщине и, вынув руки из карманов, взялся за ее шею.
    Красавица армянка продолжала сидеть в том же неподвижном положении, с опущенными длинными ресницами, и как будто не видала и не чувствовала того, что делал с нею солдат.
    Пока Пьер пробежал те несколько шагов, которые отделяли его от французов, длинный мародер в капоте уж рвал с шеи армянки ожерелье, которое было на ней, и молодая женщина, хватаясь руками за шею, кричала пронзительным голосом.
    – Laissez cette femme! [Оставьте эту женщину!] – бешеным голосом прохрипел Пьер, схватывая длинного, сутоловатого солдата за плечи и отбрасывая его. Солдат упал, приподнялся и побежал прочь. Но товарищ его, бросив сапоги, вынул тесак и грозно надвинулся на Пьера.
    – Voyons, pas de betises! [Ну, ну! Не дури!] – крикнул он.
    Пьер был в том восторге бешенства, в котором он ничего не помнил и в котором силы его удесятерялись. Он бросился на босого француза и, прежде чем тот успел вынуть свой тесак, уже сбил его с ног и молотил по нем кулаками. Послышался одобрительный крик окружавшей толпы, в то же время из за угла показался конный разъезд французских уланов. Уланы рысью подъехали к Пьеру и французу и окружили их. Пьер ничего не помнил из того, что было дальше. Он помнил, что он бил кого то, его били и что под конец он почувствовал, что руки его связаны, что толпа французских солдат стоит вокруг него и обыскивает его платье.
    – Il a un poignard, lieutenant, [Поручик, у него кинжал,] – были первые слова, которые понял Пьер.
    – Ah, une arme! [А, оружие!] – сказал офицер и обратился к босому солдату, который был взят с Пьером.
    – C"est bon, vous direz tout cela au conseil de guerre, [Хорошо, хорошо, на суде все расскажешь,] – сказал офицер. И вслед за тем повернулся к Пьеру: – Parlez vous francais vous? [Говоришь ли по французски?]
    Пьер оглядывался вокруг себя налившимися кровью глазами и не отвечал. Вероятно, лицо его показалось очень страшно, потому что офицер что то шепотом сказал, и еще четыре улана отделились от команды и стали по обеим сторонам Пьера.
    – Parlez vous francais? – повторил ему вопрос офицер, держась вдали от него. – Faites venir l"interprete. [Позовите переводчика.] – Из за рядов выехал маленький человечек в штатском русском платье. Пьер по одеянию и говору его тотчас же узнал в нем француза одного из московских магазинов.
    – Il n"a pas l"air d"un homme du peuple, [Он не похож на простолюдина,] – сказал переводчик, оглядев Пьера.
    – Oh, oh! ca m"a bien l"air d"un des incendiaires, – смазал офицер. – Demandez lui ce qu"il est? [О, о! он очень похож на поджигателя. Спросите его, кто он?] – прибавил он.
    – Ти кто? – спросил переводчик. – Ти должно отвечать начальство, – сказал он.
    – Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [Я не скажу вам, кто я. Я ваш пленный. Уводите меня,] – вдруг по французски сказал Пьер.
    – Ah, Ah! – проговорил офицер, нахмурившись. – Marchons!
    Около улан собралась толпа. Ближе всех к Пьеру стояла рябая баба с девочкою; когда объезд тронулся, она подвинулась вперед.
    – Куда же это ведут тебя, голубчик ты мой? – сказала она. – Девочку то, девочку то куда я дену, коли она не ихняя! – говорила баба.
    – Qu"est ce qu"elle veut cette femme? [Чего ей нужно?] – спросил офицер.
    Пьер был как пьяный. Восторженное состояние его еще усилилось при виде девочки, которую он спас.
    – Ce qu"elle dit? – проговорил он. – Elle m"apporte ma fille que je viens de sauver des flammes, – проговорил он. – Adieu! [Чего ей нужно? Она несет дочь мою, которую я спас из огня. Прощай!] – и он, сам не зная, как вырвалась у него эта бесцельная ложь, решительным, торжественным шагом пошел между французами.
    Разъезд французов был один из тех, которые были посланы по распоряжению Дюронеля по разным улицам Москвы для пресечения мародерства и в особенности для поимки поджигателей, которые, по общему, в тот день проявившемуся, мнению у французов высших чинов, были причиною пожаров. Объехав несколько улиц, разъезд забрал еще человек пять подозрительных русских, одного лавочника, двух семинаристов, мужика и дворового человека и нескольких мародеров. Но из всех подозрительных людей подозрительнее всех казался Пьер. Когда их всех привели на ночлег в большой дом на Зубовском валу, в котором была учреждена гауптвахта, то Пьера под строгим караулом поместили отдельно.

    В Петербурге в это время в высших кругах, с большим жаром чем когда нибудь, шла сложная борьба партий Румянцева, французов, Марии Феодоровны, цесаревича и других, заглушаемая, как всегда, трубением придворных трутней. Но спокойная, роскошная, озабоченная только призраками, отражениями жизни, петербургская жизнь шла по старому; и из за хода этой жизни надо было делать большие усилия, чтобы сознавать опасность и то трудное положение, в котором находился русский народ. Те же были выходы, балы, тот же французский театр, те же интересы дворов, те же интересы службы и интриги. Только в самых высших кругах делались усилия для того, чтобы напоминать трудность настоящего положения. Рассказывалось шепотом о том, как противоположно одна другой поступили, в столь трудных обстоятельствах, обе императрицы. Императрица Мария Феодоровна, озабоченная благосостоянием подведомственных ей богоугодных и воспитательных учреждений, сделала распоряжение об отправке всех институтов в Казань, и вещи этих заведений уже были уложены. Императрица же Елизавета Алексеевна на вопрос о том, какие ей угодно сделать распоряжения, с свойственным ей русским патриотизмом изволила ответить, что о государственных учреждениях она не может делать распоряжений, так как это касается государя; о том же, что лично зависит от нее, она изволила сказать, что она последняя выедет из Петербурга.

    Новоселова Ирина

    Почему не все машинные переводы совершенны? От чего зависит качество перевода? Достаточно ли автору знаний, чтобы использовать и дополнять существующие компьютерные словари? Ответы на эти вопросы автор стремилась представить в своей работе. Отчет по теме - в прикрепленном файле, продукт проектной деятельности - на школьном портале

    Скачать:

    Предварительный просмотр:

    Открытая

    Международная

    научно-исследовательская

    конференция

    старшеклассников и студентов

    «Образование. Наука. Профессия»

    Секция «Лингвистика иноязычная»

    «Компьютерная лингвистика»

    Выполнила Новосёлова Ирина

    МОУ гимназия № 39 «Классическая»

    10 «Б» класс

    Научные руководители:

    Чигринёва Татьяна Дмитриевна,

    учитель английского языка высшей категории

    Осипова Светлана Леонидовна,

    учитель информатики высшей категории

    г. Отрадный

    2011

    1. Англоязычные слова в ИКТ

    Смотрите на сайте

    1. Мой эксперимент

    Одна из задач – провести эксперимент, который заключен в сравнении возможностей различных компьютерных лингвистических словарей, по более точно-приближенному переводу с английского на русский.

    Были протестированы следующие сайты:

    1. http://translate.eu/
    2. http://translate.google.ru/#ru
    3. http://www.langinfo.ru/index.php?div=6
    4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

    Для чистоты эксперимента, я выбирала предложения с разной степенью сложности стилистического перевода. Фразы для ввода следующие:

    1. A new report says today’s teenagers are more selfish than they were 20 years ago

    (Новый доклад говорит, что современные подростки более эгоистичны, чем они были 20 лет назад)

    2. She believes video games and the Internet are the biggest reasons for this increased selfishness.

    (Она верит, что видео игры и Интернет являются наиболее значимыми причинами для этой возрастающей эгоистичности)

    3. They want to be better than others

    (Они хотят быть лучше, чем остальные)

    4. She found the big increase started from the year 2000, which is when violent video games became really popular.

    (Она нашла большой рост, начавшийся с 2000 года, когда жестокие видео игры стали действительно популярны)

    Переведя эти предложения на сайтах онлайн-переводчиков, я получила следующие результаты:

    1. http://translate.eu/


    Похожие статьи