Dorma

13.01.2017


Лингвистический анализ текстов - новый метод для географических исследований. В качестве текстового массива dorma используется текстовое наполнение интернет-страниц, выдаваемых поисковой системой Гугл по запросу. Особое внимание уделяется формированию запроса: это сочетание названия цыганского населения на языке изучаемой страны [Таблица 1] и названия административной единицы того уровня, на котором, как предполагается, можно будет проследить процессы и явления интересующего масштаба. Собранный текстовый массив анализируется с помощью программы Текстометри (Textometrie) [13]. Выявляются слова, чаще других употребляемые в сочетании с названием цыган. Важно также определить общую тематику информации, которая выдаётся по данному запросу. Наличие в нём названия административной единицы позволяет сделать пространственный анализ и выявить различия во взаимоотношениях между цыганами и европейцами от региона к региону.


В итальянском языке, помимо прочих условий, в зависимости от того, какую сторону взаимоотношений цыган и местного населения необходимо показать, цыган называют разными словами [Таблица 1]. Интерес представляют такие характеристики текста, как частота сочетаемости слов (сколько раз в текстовом массиве слово было употреблено рядом с названием цыган) и среднее расстояние между словами (среднее количество знаков между ними). Частота сочетаемости и среднее расстояние между словами позволяют выявить описание портрета цыганского населения, отображаемого средствами массовой информации. С помощью лингвистического анализа выявлено, что слово «nomadi» чаще используется, когда речь идёт о конфликте между цыганами и властью [Таблица 2]. При описании цыганских искусства и культуры чаще употребляется слово «gitano» [Таблица 3]. Проследив, в каких провинциях преобладает употребление того или иного названия цыган, можно предположить о том или ином характере их взаимоотношений с местным населением.