Как да започнем с данните

Кредит: https://www.flickr.com/photos/gleonhard/31254136671/in/photostream/

Всички сме чували звуковата захапка.

„Най-ценният ресурс в света вече не е петролът, а данните“ - The Economist

Може би. Но ако данните са като масло, състоянието на данните в много организации прилича на това:

Deepwater Horizon разлив на масло

Безброй потоци данни се губят в океана от данни. Посъветвайте се с всеки учен с данни и той ще ви каже, че най-трудното нещо за науката за данни е улавянето на правилните данни. И така, как да започнем?

1. Задайте правилните въпроси

Събирането на данни в името на това е както разточително, така и отнема много време. Трябва да измислим нашите показатели, които трябва да се базират на целите на бизнеса. Кои са най-продаваните продукти? Къде потребителите изоставят многоетапния процес? Колко активни потребители имаме? Много организации представят показатели на своите заинтересовани страни въз основа на неща, които те са в състояние да измерят (напр. Приходи), а не непременно това, което е най-подходящо за фирменото им направление.

След като знаем какво се опитваме да измерим, тогава можем да определим откъде да започнем да търсим данните и да планираме стъпки за започване на заснемане на съответните данни.

2. Осигурете култура, базирана на данни

След като организацията нарасне до определен размер, те вече не могат да разчитат чисто на чувството на червата. Решенията трябва да се основават на данни и тези данни трябва да са достъпни на всички нива.

Могат ли служителите да имат достъп до данните и показателите или те стоят зад неуспешни слоеве на сигурност и бюрокрация? Служителите трябва да бъдат овластени да извършват проучване на данни на набори от данни (което трябва да бъде анонимно и обезпечено, за да се спазва поверителността). Вътрешната платформа за анализи за самообслужване е идеална за това. Тази работа трябва да бъде открита и прозрачна. Поставянето на работата на табло и споделянето му на организация в широк план е наложително.

Организациите трябва да осигурят подкрепа, насърчаване и ресурси за този вид работа. Това означава време и пари, но културата, базирана на данни, ще насърчава по-информирано вземане на решения.

3. Наемете инженери за данни

Честият недостиг на организации е да наемат учени по данни, а не инженери по данни. Учените за данни са абсолютно критични, могат да намерят модели в данните, да прогнозират резултатите и да пишат модели, които могат да се научат да се подобряват. Предпочитанието е, че всичко зависи от качествените данни. Данни, които могат да бъдат извлечени само чрез инфраструктура за големи данни, ETL и автоматизирано програмиране на работни процеси. Това обикновено е ролята на инженера на данни. Подарете работата на хората, които са квалифицирани за нея и по-важното - насладете се да я правите.

4. Започнете с малко и евтино

Може да е много изкушаващо да скочите на влака с големи данни за свръх данни, да създадете екип за научни данни, да закупите софтуер за корпоративна анализация и да похарчите голяма сума пари с много малко, за да покажете за него. Има много, което може да се направи, преди да се направи голяма инвестиция. Ето някои от инструментите, които всяка организация може да използва:

  • Javascript analytics libs като Mixpanel или Amplitude. Безплатно е до определено количество месечни потребители.
  • Въздушен поток за автоматизирано управление на работния процес. Създаден от Airbnb и инкубиран в софтуерната фондация Apache, той е с отворен код и фактически стандарт за инженерите на данни.
  • Табла, диаграми и проучване на данни със Superset (също от Apache). Metabase също е добра алтернатива и двете са с отворен код.
  • Databricks общностно издание и Kaggle. И двете могат да се използват за процеси на научни данни в облака и безплатно.
  • Amazon Web Services S3. Не е безплатно, но е включено тук, тъй като с технологиите, които се разработват днес, не винаги е необходимо да има склад за данни. Съхранението е евтино, а услуги като Databricks, езерото за данни на MongoDB, AWS Athena означава, че можете да четете директно от вашето езеро с данни.

Тези идеи ще дадат добра основа за една организация да започне да улавя правилните данни и да осъзнава нейната стойност.