Miałem okazję niedawno obserwować jak pewna duża międzynarodowa firma badawcza prowadzi testy nowego serwisu internetowego (przeze mnie zaprojektowanego) z użytkownikami. W czasie badań moje oczy robiły się coraz większe i większe z powodu licznych popełnionych błędów metodologicznych i kompletnego braku wiedzy agencji na temat tego, jak takie badania powinny być przeprowadzane. Aż postanowiłem na ten temat napisać.

Tytuł może być lekko krzywdzący, bo być może są tradycyjne agencje badawcze, które badania UX robią lepiej, niż wspomniana powyżej firma, ale też nie jest to pierwszy raz, kiedy spotykam się z podobną niekompetencją ze strony takich firm w tym obszarze (żadnych konkretnych nazw nie zdradzę).

"Badania na komputerze"

Jakiś czas temu agencje badawcze dostrzegły, że internet stał się ważnym medium, kupiły więc sobie po eyetrackerze i wprowadziły do swojej oferty badania usability serwisów internetowych nazywane czasem fachowo "badaniami na komputerze" 😉 Trochę jest mi nawet szkoda badaczy z tych firm, bo pytani na boku nie kryją swojej niepewności i szczerze przyznają, że nie mają większego pojęcia, jak "te internety" się robi i o co w tym chodzi. A badanie produktu interaktywnego, to jednak co innego, niż focusy nad nazwą proszku do prania, czy badanie spotu TV.

Szybko mi jednak przechodzi, kiedy słyszę bzdurne wyniki i rekomendacje wygłaszane przed klientem z mocą autorytetu międzynarodowej korporacji, która przecież na badaniach zęby zjadła. Czarę goryczy dopełnia, to że firmy te z wieloma klientami mają podpisane stałe umowy na obsługę badawczą (badają wszystko jak leci od nowych produktów, przez reklamy, do internetu) i w związku z tym są w stanie zaoferować niższe ceny, niż wyspecjalizowane firmy zajmujące się badaniami user experience za pojedyncze badanie. Czy jednak warto?

Co ja paczyłem?

Badanie, które miałem okazję oglądać składało się z kilku części:

  1. eyetrackingu kilku projektów graficznych na plikach jpg;
  2. testów zadaniowych i eyetrackingu (!) na interaktywnym prototypie - klikalnych makietach z placeholderami w miejscu większości grafik, bez koloru, z lorem ipsum, różniącym się wielkością i wyglądem wielu elementów w stosunku do finalnych projektów graficznych;
  3. krótkich testów zadaniowych na zupełnie innym gotowym serwisie, który miał być benchmarkiem dla nowego projektu;
  4. kilkuminutowego wywiadu oceniającego na koniec.

Jakie niedociągnięcia można wytknąć temu badaniu? Jest ich wiele:

  • Agencja podjęła się badania serwisu bez briefingu na temat tego jak jest on zbudowany i dlaczego tak, jakie są cele i założenia. Nie wiedzieli co badają.
  • Całe badanie było prowadzone na eyetrackerze - sesja ok. 40 minut z jedną kalibracją na początku. W trakcie sesji moderator rozmawiał z respondentami, były przerwy, respondenci zmieniali pozycję, wiercili się, patrzyli na moderatorkę, na ścianę, na zegarek. Wszystko to może prowadzić do utraty kalibracji i zmniejszenia dokładności wyników.
  • Rozmowa moderatora z respondentem w czasie badania eyetrackingowego poważnie zaburza wyniki - nie powinno się tego robić! Jak pisze Jacob Nielsen w swoim raporcie o eyetrackingu: 1) Users may consider something more carefully as they try to articulate their thoughts about it. Say a person is somewhat attracted to an image on a page, but not really very drawn to it. They may glance at it, but when they start to make a comment about it decided they will look a little harder. And they may notice more about the contents of it as they are talking about it. 2) The talking may hinder their thought process and detract from their focus on the tasks and the design. 3) The additional task of talking about what a user is doing can affect quantitative objective methods, such as task time and success. Thus, when doing studies where we are concerned about these quantitative measures, we do not ask users to think out loud. Instead, they do their tasks in silence and are interviewed after the fact.
  • Badanie makiety na eyetrackerze kompletnie nie ma sensu - tutaj liczy się każdy piksel, rzeczywiste rozmiary, kolory, fonty, zdjęcia. W raporcie końcowym zobaczyliśmy heatmapy z makiet architektury informacji (!), które nie mówią kompletnie nic o końcowym projekcie.
  • Analiza ilościowa wyników eyetrackingu z testów zadaniowych na interaktywnym prototypie/gotowym serwisie nie ma dużego sensu, bo użytkownicy oglądają strony w różnej kolejności i kontekście, wracają do stron wcześniej obejrzanych, spędzają na stronach różną ilość czasu. Trudno analizować takie wyniki na zbiorczych heatmapach.
  • Testy zadaniowe były prowadzone na stronie otwartej na pełnym ekranie (na full screenie) bez przycisków przeglądarki (w tym najczęściej używanego przycisku "wstecz"!) i bez paska adresu - zupełnie nienaturalna sytuacja.
  • Badanie nie było ani poprawnym badaniem eyetrackingowym ani dobrze przeprowadzonym testem użyteczności - choć moderatorka rozmawiała z respondentami, to nie dociekała źródeł problemów, które mieli użytkownicy. Nie pytała o funkcje, które użytkownicy pomijali, nie próbowała się dowiedzieć czemu nie kliknęli w jakiś element, choć go widzieli itd.
  • Zadania wykonywane w serwisie, który był benchmarkiem różniły się znacznie poziomem trudności od zadań wykonywanych na prototypie nowego projektu - w tym pierwszym przypadku zadania można było wykonać z poziomu strony głównej, w drugim trzeba było znaleźć informacje na podstronach w głębi serwisu.
  • W końcowym wywiadzie oceniającym użytkownicy często mówili o zupełnie różnych rzeczach: o projektach graficznych nowego serwisu, o makietach nowego serwisu, o obecnie funkcjonującej stronie, o serwisie który był benchmarkiem. Respondentom to wszystko się mieszało, a moderatorka nie dopytywała czego konkretnie dotyczy opinia.
  • Agencja nie potrafiła ogarnąć podglądu ekranu użytkownika dla osób oglądających badania - trzeba było przyciskać nos do lustra weneckiego, żeby coś dostrzec.

Z raportu z badań dowiedzieliśmy się, że:

  • Makiety są zdaniem respondentów zbyt szare (!).
  • Grafika gotowego działającego serwisu, który był benchmarkiem podobała się respondentom mniej niż makiety nowego serwisu (!).
  • Należy powiększyć logo, ponieważ na heatmapach nie jest najcieplejszym miejscem. Tutaj badacze pokazali, że nie rozumieją podstaw tego jak działa ich narzędzie - czas fiksacji na elemencie jest czym innym, niż jego zauważenie. Nie ma podstaw do tego, żeby użytkownicy, którzy znają markę i wiedzą na jakim serwisie się znajdują fiksowali się przez długi czas na logotypie.
  • Zasugerowano za to, żeby zmniejszyć obszar promocji, który za bardzo odciąga uwagę od logotypu...
  • Wielkim zaskoczeniem dla badaczy było to, że jeśli użytkownicy nie potrafią czegoś znaleźć, to winią siebie, a nie serwis. Jest to efekt powszechnie opisywany, który jest doskonale znany wszystkim, którzy trochę takich badań już przeprowadzili.
  • I to w zasadzie tyle. Nie dowiedzieliśmy się nic nowego i wartościowego.

Uff. Po tym wszystkim nie pozostaje nic innego jak przestrzec wszystkich przed zlecaniem badań user experience dużym firmom badawczym, które się w tym temacie nie specjalizują i nie zatrudniają projektantów interakcji!