Как да откриете фалшиви новини в реално време

Достатъчно бърз, за ​​да даде възможност на хората да предприемат действия

DART Системите за мониторинг на цунами в реално време, разположени на хиляди мили от брега, помагат за прогнозирането на цунамито, преди да станат заплаха. (Изображение: NOAA Център за изследване на цунами)

Миналия ноември един приятел ми разказа за разширеното си семейство филипино-американци в района на Фресно. След няколко дни те се почувстваха противоречиви за кандидатурата на Тръмп да гласува за него масово. Те са католици и след като чуха, че папата е одобрил Тръмп, умовете им са били съставени. Разбира се, това папско одобрение всъщност не се случи. Това е пример за фалшива новина, която стана вирусна и подведе милиони.

Ето същата история във публикация във Facebook, споделена от групата Северна Каролина За Доналд Тръмп. Те имат 65 000 последователи и можете да видите как акциите на десетки влиятелни групи могат да разпространят това до милиони.

В същите линии сайт, наречен windemocrats.com, публикува измама, че Ирландия официално приема „бежанци от Тръмп“, които също получиха много игра. Това е двупартиен проблем. Журналистиката е усилена работа. Фалшивите новини за влияние и печалба са твърде лесни. Ето още примери.

Това ме накара да се замисля какво биха могли да направят Facebook и други платформи, за да открият тези вълни на дезинформация в реално време. Можеха ли да провеждат противодействия? Ако бъдат открити навреме, можеха ли да забавят разпространението или да го маркират като ненадеждна новина?

Платформите трябва да действат

Както мнозина отбелязват, адресирането на фалшиви новини е най-добре на ниво основни платформи - Facebook, Twitter, Google, Microsoft, Microsoft, Yahoo и Apple. Те контролират артериите, през които протича свежата информация и влияние на по-голямата част от света. Те са най-добре разположени, за да видят формиране на огнище на дезинформация. Техните инженерни екипи разполагат с техническите отрязъци, за да го открият, и копчетата, необходими, за да отговорят на него.

Както социалните мрежи, така и търсачките имат инженерни лостове (помислете: гъвкавост при класиране) и опции на продуктите за намаляване на експозицията, маркиране като невярно или напълно спиране на дезинформационни вълни. Те ще вземат тези решения поотделно въз основа на тежестта на проблема и как организацията им балансира точността на информацията и свободата на автора. Google Търсене има фокус върху достъпа до информация. Facebook вижда себе си като фасилитатор на изразяване. Те могат да разрешат нещата по различен начин.

Нашият подход ще се съсредоточи по-малко върху забрана на дезинформация и повече върху разгръщане на допълнителни гледни точки и информация, включително тези проверки на факти оспорват точността на даден артикул. - Марк Зукърбърг

В тази статия предпочитам да не влизам в политика и бих искал да се съсредоточа върху откриването, а не да застъпвам конкретен отговор. Без значение какъв е вашият отговор, ако можете да откриете фалшиви новини в реално време, можете да направите нещо по въпроса.

В този контекст откриването в реално време не означава секунди. Може да е излишно да предприемате действия, ако не се разпространи. На практика бързата реакция може да означава минути или часове. Време, достатъчно за един алгоритъм, за да открие вълна от новини, която изглежда подозрителна и набира скорост, потенциално от множество източници. Също така, достатъчно е прозорец, за да събере доказателства и да го има предвид хората, които могат да изберат да арестуват вълната, преди тя да се превърне в цунами.

Знам нещо или две за алгоритмите за обработка на новини. Създадох Google News и го управлявах в продължение на много години. Вярвам, че откриването е проследимо.

Знам също, че вероятно не е добра идея да стартирате нещо друго, освен краткосрочни противодействия единствено въз основа на казаното от алгоритъма. Важно е хората да бъдат в кръга - както за корпоративната отчетност, така и да служат за проверка на здравината. По-специално, човешки арбитър би могъл да направи проактивна проверка на фактите. В горния пример представителят на Facebook или Twitter можеше да се обади в пресслужбата на Светия престол и да установи, че историята е невярна. Ако няма очевиден човек, който да се обади, той може да провери с най-добрите източници на новини и сайтове за проверка на факти, за да се запознае с тях.

Ще има нееднозначни случаи и ситуации, при които проверката е неуспешна. Човешките арбитри могат да решат да изчакат и наблюдават вълната известно време, преди да се намесят. С течение на времето система за машинно обучение може да се поучи от резултата, да започне да използва повече доказателства и да се обучава да става по-умна.

Какво е вълна? Вълна в моя език е набор от статии, които отправят същото ново (и вероятно погрешно) твърдение, плюс свързаните публикации в социалните медии. Вълната е значима, ако нараства в ангажираността. Тъй като цената на човешката намеса е висока, има смисъл само да се маркират значителни вълни, които имат черти, които предполагат дезинформация.

Целта на алгоритъма за откриване е да маркира подозрителни вълни, преди да преминат прага на експозиция, така че хората, които реагират, да направят нещо по въпроса.

За да направим това конкретно: Нека кажем, че платформа за социални медии е решила, че иска напълно да се справи с фалшивите новини до момента, в който получи 10 000 акции. За да постигнат това, те може да искат вълната да бъде маркирана на 1000 акции, така че човешките оценители да имат време да я изучат и да отговорят. За търсене бихте преброили запитвания и кликвания, а не споделяния и праговете могат да бъдат по-високи, но общата логика е същата.

Алгоритмично откриване

За да открием аномално поведение, трябва да погледнем под повърхността и да видим какво не се случва. Това от историята на Шерлок Холмс отразява същността на нашата стратегия.

Грегъри (детектив на Скотланд Ярд): „Има ли някакъв друг момент, към който бихте искали да привлечете вниманието ми?
Шерлок Холмс: "За любопитния инцидент с кучето през нощта."
Григорий: „Кучето не направи нищо през нощта.“
Шерлок Холмс: „Това беше куриозният инцидент.“
- Приключението на Сребърния Блейз, Артур Конан Дойл

Това, което прави откриването на фалшиви новини е проследимо е, че платформите са в състояние да наблюдават статии и публикации, не само в изолация, а в контекста на всичко останало, което се казва по този въпрос в реално време. Този разширен и навременен контекст прави всичко различно.

Да вземем историята „Папата подкрепя Тръмп“.

Ако сте средностатистически потребител на Facebook и статията ви е споделена от приятел, нямате причина да не я вярвате. Имаме пристрастие към истината, което ни кара да искаме да вярваме на нещата, които са написани във формата на вестник, особено ако е одобрен от някой, когото познавате. Следователно, порастването на новосечените сайтове за фалшиви новини, които се опитват да изглеждат законни. Някои от македонските тийнейджъри, чисто на печалба, или от политически професионалисти или чуждестранни актьори, които искат да повлияят на изборите. Тъй като те се маркират и пускат в черни списъци, нови сайтове се създават ненужно.

Скептик би попитал: Колко вероятно е, че endingthefed.com, сравнително неясен източник, е един от първите, които съобщават история за папата, подкрепящ Тръмп, докато утвърдени източници като New York Times, Washington Post, BBC, Fox News , CNN и т.н. и дори Ватиканската служба за новини, няма какво да каже по темата? Това би изглеждало неестествено. Би било още по-подозрително, ако наборът от новинарски сайтове, които говорят за това, са всички ново регистрирани или имат история на пускане на фалшиви новини. Това е логиката, която ще използваме, но с известна автоматизация.

За да направите това в мащаб, един алгоритъм ще разгледа всички скорошни статии (от известни и неясни източници), които получават известна игра през последните 6–12 часа в определена социална мрежа или търсачка. За да ограничим обхвата, бихме могли да изискваме съвпадение с някои задействащи термини (напр. Имена на политици, спорни теми) или новинарски категории (напр. Политика, престъпност, имиграция). Това би намалило набора до около 10 000 статии. Тези статии могат да бъдат анализирани и групирани в групи от истории въз основа на общи черти - значими ключови думи, дати, цитати, фрази и др. Нищо от това не е технически сложно. Компютърните учени правят това от десетилетия и наричат ​​това „групиране на документи“.

Статии, които кацат в дадена кофа с история, ще говорят за една и съща история. Тази техника се използва успешно в Google News и Bing News, за групиране на статии по история и за сравняване на публикационната дейност между историите. Ако два различни източника споменат „папа“ и „Тръмп“ и някакъв вариант на термина „одобрен“ в рамките на кратък период от време, тогава статиите им ще се окажат в една и съща група. Това по същество ни помага да заснемем пълното отразяване на една история в различни източници на новини. Добавете в социалния контекст, т.е. публикациите, които се отнасят до тези статии, и имате пълната вълна. Най-важното това ни позволява да разберем изчерпателно кои източници и автори разпространяват тази новина и кои не.

За да прецени дали вълната трябва да бъде маркирана като подозрителна, алгоритъмът ще трябва да разгледа чертите както на историческия клъстер, така и на социалния медиен облак около него. По-конкретно:

  1. Вълната по тема, която е политически натоварена? Съответства ли на набор от ключови думи с горещи бутони, които изглежда привличат партизански диалог?
  2. Бързо ли се увеличава ангажираността? Колко гледания или споделяния на час?
  3. Съдържа ли новосечени източници или източници с прехвърлени домейни?
  4. Има ли източници с история на достоверната журналистика? Какво е съотношението на новините и червените флагове?
  5. Има ли съмнителни източници във вълната
    (a) Източници, маркирани за фалшиви новини, чрез сайтове за проверка на факти (например Snopes, Politifact)
    (b) Източници, често цитирани в социални емисии с известни фалшиви източници на новини.
    в) Източници, които приличат на известни доставчици на фалшиви новини по своята принадлежност, структура на уебсайтове, DNS запис и др.
  6. Споделя ли го от потребителите или се представя във форуми, които исторически са препращали фалшиви новини? Известни тролове или теоретици на конспирация го разпространяват?
  7. Има ли достоверни новинарски сайтове в комплекта? С течение на времето това се превръща в мощен сигнал. Нарастваща история, която не се хваща от достоверни източници, е подозрителна.
  8. Отбелязани ли са някои от статиите като невярни от (достоверни) потребители?

Всяко от горното може да бъде оценено от компютри. Може би не напълно, но достатъчно добре, за да служи като сигнал. Няколко внимателно изградена логика ще комбинира тези сигнали, за да даде краен резултат, за да оцени колко съмнителна е вълната.

Когато една вълна има чертите на фалшива новина, алгоритъмът може да я маркира за човешко внимание и потенциално да постави временни спирачки върху нея. Това ще купи време и ще гарантира, че няма да пресече високия воден знак, да речем, 10 000 акции или гледания, докато оценката е в ход.

С всяка вълна, която се оценява от човешките съдии - и може да има няколко десетки на ден - системата ще получи обратна връзка. Това от своя страна позволява да се настройват алгоритмични / невронни мрежови параметри и спомага за разширяване на записа за източници, автори и форуми. Дори вълни, които не могат да бъдат спрени навреме, но в крайна сметка се оказаха дезинформация, биха могли да допринесат за подобряване на модела. С течение на времето това трябва да направи откриването по-точно, като намали честотата на фалшивите аларми в стъпката за маркиране.

Безплатно изразяване и злоупотреба

Търгуването на свободно изразяване за сигурност е хлъзгав наклон и неизбежно лоша идея.

Важно е полицейското управление на фалшивите новини от платформите да става по начин, който е защитим и прозрачен. Защитими, в смисъл, че обясняват какво правят полицаи и как това се изпълнява, и работят по начин, който е удобен за обществеността. Бих очаквал те да се насочат тесно към фалшивите новини, за да обхващат само фактически твърдения, които очевидно са грешни. Те трябва да избягват мнението на полицаите или твърденията, които не могат да бъдат проверени. Платформите обичат да избягват противоречия, а тясната, ясна дефиниция ще ги предпази от гората.

По отношение на прозрачността бих очаквал всички новини, които бяха идентифицирани като неверни и забавени или блокирани, да бъдат разкрити публично. Те могат да решат да отложат това, за да избегнат подаване на ръка по време на цикъла на новините, но трябва да разкрият в разумен срок (да речем, 15 дни) всички новини, които са били засегнати. Това, преди всичко друго, ще предотврати злоупотреби от платформата. Google, Facebook и други имат доклади за прозрачност, които разкриват искания за цензура и надзор от страна на правителствата и органите на реда. Подходящо е само те да са прозрачни за действия, които ограничават речта.

След като съм от другата страна на този въпрос, мога да измисля причините, поради които подробностите за алгоритъма за откриване може да се наложи да останат в тайна. Платформа, в състезание с оръжие с фалшиви производители на новини, може да открие, че стратегията им спира да работи, ако твърде много се оповестява публично. Компромис би бил да се документират подробности за прилагането и да се предоставят за вътрешен контрол от (група от) служители. Също така, за одит от омбудсман или оторизирани външни адвокати. Когато става въпрос за насърчаване на добро корпоративно поведение, служителите са първата линия на защита. Те са технически способни и идват от целия политически спектър. Те могат да потвърдят, че няма политически пристрастия в прилагането.

Най-голямото предизвикателство за спиране на фалшивите новини не е техническото. Това е оперативна готовност.

Мащабът и успехът на нашите основни платформи направиха възможно това мащабно посегателство върху истината. Те също така са най-добре позиционирани, за да го поправят. Те могат да настройват сензори, да обръщат лостове и да пускат фалшиви новини, като ги отказват от трафик и приходи.

Тревогата ми е дали ръководството в тези компании признава моралния императив и има волята да предприеме това в мащаб, да инвестира необходимия инженеринг и да действа със сериозността, която заслужава. Не защото те са недобросъвестни и това е от полза за техния бизнес - искрено вярвам, че това не е фактор, но защото може да смятат, че е твърде трудно и не искат да носят отговорност за грешки и прекъсвания. Няма бизнес императив за това и може да има обвинения в предубеденост или цензура, така че защо да се притеснявате?

Ако са готови да излязат отвъд това и да притежават проблема - а скорошните признаци предполагат, че го правят (напр. Facebook плащането на проверки за факти, класиране на промените в Google) - вярвам, че техните потребители и пресата ще го оценят и ще ги подкрепят. С прозрачността и правилния отговор те могат да направят огромна доза полза за обществото и да гарантират правилното функциониране на демокрациите. Алтернативата е ужасяваща.