Как работать со статистикой и определить надежные источники данных
Критерий 1. Ваш источник — первоисточник
Помните игру в испорченный телефон? Вот тут так же. При перепечатывании фактов из раза в раз теряются детали, а иногда и суть. Не поленитесь найти сайт, который пишет: «Мы провели исследование» или «Компания Х предоставила нам данные…».
Хороший знак: перепечатанный материал ссылается на источник. Это не панацея, но все-таки уровень доверия к автору выше, если он придерживается цифрового этикета, не забывая об авторском праве.
Отдельного внимания заслуживает работа с иностранными источниками. Предположим, копирайтер взял очень хорошую зарубежную статистику, но очень нехорошо ее перевел. Чтобы исключить ошибку перевода, стоит посмотреть оригинальный текст.
Критерий 2. Интересы исследователя
Независимых данных мало, но они существуют. Довольно хорошую репутацию имеют исследования рынков института НИУ ВШЭ, аналитика телеграм-каналов сервиса TGStat, блог сайта Sostav, где часто появляются переводы глобальных ресёчей.
Важный поинт. Сервисы, которые привлекают трафик на страницы своих услуг, часто выпускают статьи с собственной статистикой. И тут в дело вступает мастерство упаковки данных: цифры преподносятся таким образом, чтобы они выглядели как можно более привлекательными в рамках презентации продукта. К этому мы еще вернемся в пункте 5.
Вы вполне можете опираться на показатели частных источников, только помните об их предвзятости и подключайте критическое мышление.
Критерий 3. Фактчекинг
Сравнивайте данные источника с аналогами на других сайтах — трех будет вполне достаточно.
Сопоставляйте данные год к году, если исследования на эту тему ведутся регулярно, например, официальное исследование трендов VK, ежегодный отчет об интернете и социальных сетях Global Digital, отчеты в рубрике «Социальные сети в цифрах» в блоге Brand Analytics. Да, цифры будут отличаться, но в хорошем источнике разница будет небольшой: не так, что было 90%, а потом вдруг стало 5%.
Критерий 4. Прозрачность данных
Здорово, если вы видите, кто автор материала: это значит, что человеку не стыдно отвечать за свои слова. И это не просто копирайтер, который перепечатал данные с другого сайта, чтобы пополнить ленту «свежачком».
Особенно здорово, если указано, сколько человек было опрошено. Имейте в виду, если исследование закрытое, то невозможно проверить истинное количество опрошенных: может, они написали, что опросили 900 человек, а на деле их было 300.
И вишенка на торте — какие вопросы задавали людям при анкетировании. Тот, кто хотя бы один раз составлял опросы, знает, как легко манипулировать результатами. Приведем пример. Вопрос: как вы предпочитаете наказывать своего ребенка? И варианты ответа: а) ремнем; б) руганью; в) запретами. Варианта «не наказываю» или «спокойно объясняю» просто нет. Представляете, какой классный будет пресс-релиз?
Критерий 5: Репрезентативность выборки
Выборка — круг опрашиваемых людей. Он должен быть достаточно велик, чтобы мы могли делать вывод: «Да, скорее всего, эта закономерность распространяется на всех людей с теми же признаками».
Сколько человек достаточно? В ответе на этот вопрос скрыта огромная формула, поэтому социологи разработали калькулятор размера выборки. Они пришли к выводу, что достаточным будет 384 человека, чтобы экстраполировать вывод на 500 тыс. исследуемых. Если взять меньше, то потеряются важные детали (в общем, поиграйте с калькулятором — вам станет понятнее).
Казалось бы, бери статистику пожирнее, где замерили данные на 100 млн человек. Но тут надо быть осторожными. Возьмем всех людей на земле. Что о них можно сказать с однозначной точностью? Только то, что они люди и что они живы. Остальные критерии будут варьироваться.
Любая толпа неоднородна и делится на группы, поэтому смотрите, насколько точно в крупных исследованиях прописаны пределы выборки. Хорошие примеры: подростки из российских городов-миллионников в возрасте 14–17 лет; частные предприниматели Сибири с чистой прибылью от 100000 ₽ до 500000 ₽. в месяц. Здесь можно сказать: «Я понимаю, о каких людях идет речь».
Критерий 6. Презентация результатов
Предположим, что вы ищете блогеров для посева рекламы. Вы собрали данные по нише: от микроблогеров до селебрити. Получились вот такие цифры по стоимости интеграции.
Смоделируем несколько ситуаций, где можно манипулировать одними и теми же цифрами по-разному.
Ситуация 1. Надо сказать, что найден самый выгодный и самый широкий сегмент. В таком случае легче всего опираться на самое популярное и минимальное значение — 10000 ₽ за интеграцию.
Ситуация 2. Есть очень интересное комьюнити инфлюенсеров, но они берут по 13000 ₽ за размещение рекламы — дороже, чем можно найти по рынку. В этом случае можно акцентировать внимание на том, что стоимость рекламы ниже среднего значения в нише, то есть меньше 15000 ₽. И тут есть выгода в 2000 ₽ за каждую интеграцию!
Ситуация 3. Рекламу закупили у семи блогеров за 10000 ₽, у пяти — за 20000 ₽ и у двух — за 60000 ₽. Но решили рискнуть с одним блогером-миллионником за 150000 ₽. Интеграция не зашла, но надо предоставить отчет, в котором размещение будет выглядеть не так грустно. Тогда на помощь приходит серединная (медианная) стоимость размещения — 20000–60000 ₽. Дороговато, конечно, зато один большой чек не так сильно выпирает среди других размещений.
В чем разница между средней и серединной стоимостью? В первом случае сумма всех размещений делится на общее количество выходов. А во втором, грубо говоря, берется чистая стоимость размещений, которая находится в середине ряда чисел.
В примерах был не самый честный, но довольно реалистичный разбор. Подобной манипуляцией грешат очень многие публикации. Спасение одно — самостоятельно анализировать данные опроса по графикам и цифрам. Кажется, что это какая-то очень сложная работа, но, если из раза в раз обращать внимание на исходные данные, вы приноровитесь. Главное — в своих отчетах презентовать цифры клиентам максимально прозрачно.
Книги для тех, кто хочет лучше разбираться в статистике
1. «Математика для взрослых». Кьяртан Поскитт
Книга для всех, кто хочет быстро считать и решать любые повседневные задачи, требующие знания математики. С ней вы научитесь отличать среднее значение от моды и медианы и понимать, что значит каждый из этих показателей, а также быстро считать в уме, обращаться с процентами.
2. «Статистика и котики» Владимир Савельев
Книга научит вас разбираться в статистике с нуля на примере котиков, песиков и слоников. На простых и понятных примерах из жизни вы узнаете, что такое регрессионный, дискриминантный и кластерный анализы. Так можно значительно проще, с интересной подачей научиться работать со статистикой.
3. «Голая статистика» . Чарльз Уилан
Всегда проще учиться новому, когда можно применить знания к реальной жизни. Книга написана человеком, который виртуозно владеет статистическими методами и может провести ту самую связь теории и практики. Вы поймете, как знания статистики помогают маркетологом делать выводы о пользователях, чтобы показывать им, например, более подходящий, персонализированный контент. И это далеко не все, что вы узнаете во время прочтения.
Подведем итоги. Будьте пытливыми, ищите первоисточник, как историки. Будьте недоверчивы и проверяйте факты, как детективы. Проникайте в суть, как патологоанатомы. И будет из вас отличный маркетолог!
Бонус для тех, кто дочитал до конца: «50 источников статистики для принятия маркетинговых решений».