Лингвист Борис Орехов об успехах русского языка в интернете.
19 марта 2013 года ресурс W3Techs, занимающийся анализом веб-сайтов, сообщил о том, что по их подсчетам, русский язык вышел на второе место по распространенности среди языков интернета, уступая только английскому. Эта новость имеет прежде всего два аспекта: технический и социолингвистический. Иными словами, тут возникают такие вопросы: «Как это считали?» и «Что это значит для русского языка?»
Как это считали?
Чтобы выяснить, на скольких страницах в Сети употреблен тот или иной язык (скажем, русский), нужно всего-навсего каждую такую страницу загрузить и просмотреть. «Смотреть», конечно, будет не человек, потому что интернет хотя и создан для людей и их удобства, своими объемами очень быстро перерос человеческие возможности. На 2009 год, то есть уже довольно давно, объем Сети составлял около 500 экзабайтов, то есть 500 миллиардов гигабайтов, и с тех пор увеличился не менее чем в 1,5 раза.
Чтобы собирать информацию с веб-сайтов, придуманы специальные программы-роботы, которые называются спайдерами (то есть «пауками», бегающими по Сети) или краулерами. Они скачивают веб-документы и передают их другим программам для обработки и анализа. Но даже специальные программы, запущенные на обычном компьютере, будут делать такую работу слишком долго. Нужна внушительная техническая база, парк объединенных под общую задачу серверов, нужно решать и сопутствующие логистические задачи, чтобы обеспечить этим серверам бесперебойную работу.