Hogan HPI, shl OPQ32r, Facet Five and Trait-Map®

In meiner Rolle als Hauptautor von Trait-Map®, einem umfangreichen Persönlichkeitsinventar / -instrumentarium, werde ich  oft gefragt, wo das Produkt im Markt positioniert ist. Das ist keine einfache Aufgabe, weil die Abwägungen der Modell- und Fragebogenentwicklung ein gewisses Grundwissen voraussetzen. Des Weiteren bedarf es Zeit, eine Anwendung für die Persönlichkeitsanalyse über die Marketingmechanismen hinaus zu verstehen: Tieferliegende Informationen sind in den technischen Handreichungen erklärt und, wie der Name es vermuten lässt: diese Dokumente sind staubtrocken. Im Folgenden nehme ich so objektiv wie zu diesem Thema Stellung, um unseren Lesern zu helfen, diese „mysteriösen“ Produkte besser einordnen zu können. Dazu vergleiche ich vier Instrumente: Hogan HPI, shl OPQ, Facet Five, sowie Trait-Map®. Dabei handelt es sich um umfangreiche Persönlichkeitsinventare mit je einzigartigen Fragebögen: Die Wahr-Falsch Aussagen von Hogan, die ipsativen Triaden von OPQ32r, die gegensätzlichen semantischen Paare bei Facet Five und die fünf Ordinalskalen von Trait-Map® beinhalten je eine eigene Testerfahrung.

Alle messen ähnliche Charakteristika. Sie haben alle ähnliche Zuverlässigkeits- und Gültigkeitswerte. Die Zuverlässigkeit wird anhand der Skalenkonsistenz und der Korrelation zwischen Test und Retest bewertet. Die Gültigkeit ergibt sich aus der Zuverlässigkeit, den Skalendefinitionen, dem Iteminhalt und den Messmethoden. Aus den veröffentlichten Validitätsstudien und vergleichenden Studien wie Project Epsom können wir annehmen, dass diese breitbandigen Persönlichkeitstests eine ähnliche Validität aufweisen. Diese Persönlichkeits-Tools sind wirklich vergleichbar.

Wie oben bereits angedeutet liegt der Unterschied zwischen den einzelnen Tools nicht in der Reabilität oder Validität, sondern in der Benutzererfahrung für Getestete und Anwendbarkeit für Testende. Ich vergleiche die psychometrischen Fragebögen auf drei Ebenen: Psychologisches Modell, Fragebogenformat und Berichte.


Los geht’s mit einem allgemeinen Überblick:

Hauptunterschied 1: Theoretisches versus faktoranalytisches Modell

Das zugrundeliegende Modell ist ein zentraler und maßgeblicher Bestandteil eines jeden Persönlichkeitstest. Das Persönlichkeitsmodell ist eine vereinfachte Darstellung des Menschen und ermöglicht Vorhersagen. Persönlichkeitsmodelle haben ihren Ursprung in der Beobachtung, Analyse und Systematisierung des menschlichen Verhaltens. In der Regel basiert ein Modell auf bestehender Arbeit anderer Wissenschaftler. Ein Modell wird zunächst durch die Intuition eines Autors qualitativ kreiert und später mittels quantitativer Methoden verbessert. Alle vier Modelle wurden datenbasierten Optimierungsmethoden unterzogen. Wenn ein Modell durch eine Faktorenanalyse erweitert wurde, handelt es sich um ein Faktor-analytisches Modell. Theoretische Modelle bedeutet in diesem Kontext also, dass diese Modelle nicht durch eine Faktorenanalyse optimiert wurden.

Wieso ist das wichtig? Die Faktoranalyse ist eine objektive Methode und ermöglicht ein tieferes Verständnis der Struktur hinter den Daten. So kann die Anzahl an Skalen verringert werden. Nach deren Reduktion kommen die meisten Forscher zu denselben fünf Skalen: The Big Five. Viele Wissenschaftler gehen davon aus, dass die Big Five der gemeinsame Nenner aller umfangreichen Persönlichkeitsmodelle sind. Jedoch hat die Reduktion der Skalen durch die Faktorenanalyse auch Nachteile. Die verbesserte Struktur ist eher abstrakt, nicht leicht in Worte zu fassen und es ist unmöglich einen konkreten Namen zu geben. Der andere Nachteil ist die begrenzte Zahl an Fragen oder Einheiten. So können nicht alle Facetten von arbeits-relevanten Merkmalen erfasst werden. Wie steht es also um die Modelle unserer vier Persönlichkeitsinventare?

HPI benutzt eine Faktorenanalyse um sieben Dimensionen zu etablieren, behielt jedoch alle 41 Subskalen, um ein ganzheitliches Bild der jeweiligen Persönlichkeit zu bilden und widersteht damit der Versuchung, das Modell auf nur 7 Skalen zu reduzieren. Die OPQ32r beinhaltet die 32 Eigenschaften, die die Autoren als wichtig empfanden, um Kompetenzen am Arbeitsplatz vorhersagen zu können und sie haben die Struktur nicht mit einer Faktorenanalyse optimiert. Facet Five ist ein typisches Faktor-analytisches Modell, obwohl die darin verwendeten fünf Faktoren nicht völlig mit denen der Big Five übereinstimmen.

Das Trait-Map® Modell ist komplexer. Die Autoren nahmen einen bestehenden akademischen Faktor-analytischen Test, IPIPNEO mit einer idealen Big Five Struktur (30 Eigenschaften in 5 Dimensionen), entfernten psychologische Skalen und ersetzten diese mit Skalen, die für den beruflichen Kontext relevanter sind. In gewissem Maße wurde hier die klassische wissenschaftliche Arbeit auf den Kopf gestellt, die von „chaotischen“ realen Zuständen ausgehen und diese bereinigen. Bei Trait-Map® wurde mit einer klaren Theorie angefangen und diese mit praktischem Inhalt gefüllt. Die resultierenden Interskalen zeigen die klassischen Big-Five immer noch deutlich auf, es gibt jedoch ein paar Ausreißer. Es bleibt abschließend festzuhalten, dass alle vier Modelle verschiedene Herangehensweisen verwenden.

Hauptunterschied 2: „ipsative“ und „normative“ Fragebögen

Was bedeuten die Wörter „ipsativ“ und „normativ“? Fangen wir mit den Definitionen gemäß Wikipedia an:

Ipsative: „Als ipsativ (von dem Lateinischen ipse = selbst) bezeichnet man eine Deskriptorvariable in der Psychologie, um auf ein bestimmtes Messverfahren hinzuweisen, in dem zwei oder mehr Optionen verglichen werden und die am stärksten präferierte Option gewählt wird (auch forced-choice-Skala genannt).“

Normativ: „Ein Norm-gebundener Test (norm-referenced test, NRT) ist ein Verfahren, das eine Einschätzung über die Position des getesteten Individuums in einer vordefinierten Population hinsichtlich der untersuchten Charaktereigenschaft liefert.“

Kurz gesagt, zwingt das ipsative Format Teilnehmer dazu „Entweder-oder“ Entscheidungen zu treffen, das normative Format lässt mehr Freiheiten und vergleicht im Anschluss die Antworten eines Individuums zu der restlichen Stichprobe. Als Beispiel möchte ich die Untersuchung des Konsumverhaltens in einem Shopping-Center heranziehen.

Die ipsative Methode geht wie folgt an die Sache ran: „Wir geben Ihnen 50 Euro. Bitte gehen Sie in diesen Supermarkt und geben Sie dort 50 Euro aus, indem Sie die Artikel kaufen, die Sie typischerweise nehmen. Sie müssen für 50 Euro kaufen, nicht mehr, nicht weniger. Die gekauften Artikel können Sie danach behalten.“

Die normative Methode ginge wie folgt vor: „Wir geben Ihnen 100 Euro. Bitte gehen Sie in diesen Supermarkt und kaufen sich die Artikel, die Sie sonst auch kaufen. Sie müssen nicht die vollen 100 Euro ausgeben, aber das restliche Geld zurückgeben. Die gekauften Artikel können Sie im Anschluss behalten.“

Beide Methoden liefern sowohl wertvolle Erkenntnisse über das Kaufverhalten der Menschen, als auch Verzerrungen der Erkenntnisse.

Also nehmen wir ein zweites Beispiel, das näher an der Realität ist. Stellen Sie sich vor, wir möchten wissen, wie talentiert Leute während der Grundschule in Mathe, Geschichte, Zeichnen, Musik und Sport waren.

Der ipsative Fragebogen würde sagen: Bitte ordnen Sie die Unterrichtsfächer in der Reihenfolge ihrer Begabung ein. Schreiben Sie "1" in die Klammer neben das Fach, in dem Sie am begabtesten waren; "2" in das nächste, ... und "5" neben das Thema, in dem Sie am wenigsten begabt waren". Der normative Fragebogen hingehen sähe so aus: "Bitte bewerten Sie sich selbst von 1 bis 5 und geben Sie an, wie talentiert Sie in den folgenden Fächern waren. "1" bedeutet fast gar kein Talent, "2" bedeutet wenig Talent, ... "5" bedeutet herausragendes Talent."

Auch hier können wir sehen, dass beide Methoden einige nützliche Daten liefern können, und beide Methoden leiden unter einigen Verzerrungen und Schwächen. Dies ist sehr ähnlich bei der Verwendung ipsativer und normativer Fragebögen bei Persönlichkeitstests. Wenn wir dieses Verständnis haben, gehen wir nun die tatsächlichen Vergleiche durch, indem wir die Stärken und Schwächen der einzelnen Tests durchgehen.

 

HPI Hogan Persönlichkeitsinventar

Der HPI wurde in den 1970er Jahren als Universitätsprojekt entwickelt, welches das kalifornische psychologische Inventar als Ausgangspunkt nahm. Die zugrunde liegende Idee sieht vor, dass die Selbstdarstellung des eigenen Rufes ein guter Indikator für Verhalten ist. Die Autoren erstellten einen einzigartigen, normativen „Wahr-Falsch“ Fragebogen mit kreativem Inhalt. Das ungewöhnliche Format und der unkonventionelle Inhalt überrascht viele Teilnehmer und minimiert so das Risiko des Schummelns. Die Autoren sammelten Daten und führten Korrelationsanalysen durch, um die Struktur des Konstrukts zu erforschen. Sie kamen auf 7 Dimensionen mit 41 Subskalen, die sie homogene ltem-Zusammensetzung nennen (Homogenous Item Composites, HICs).

Stärke: Eine Fülle von Forschungsdaten, Publikationen und Materialien. Das HPI verfügt über gut dokumentierte Normen mit großen Stichproben.

Schwäche: Der HPI begann als Universitätsprojekt, und obwohl er mit einer großen Anzahl von berufstätigen Erwachsenen in allen möglichen Berufen normiert wurde, zeigen die Fragen ihre Wurzeln in der allgemeinen Psychologie, und einige der Punkte scheinen in der Arbeitswelt irrelevant zu sein. Einige Namen der HPI-Subskalen klingen bezogen auf die Arbeitswelt seltsam (z.B. Keine Schuld, Identität, mag Partys, exhibitionistisch oder leicht zu leben).

 

shl OPQ

Vor den 1980er Jahren waren Persönlichkeitstests der Bereich der Psychologen, und die Verwendung durch Organisationen war nicht weit verbreitet. Das California Psychological Inventory und das 16PF waren die am häufigsten verwendeten Assessments dieser Zeit. Wenn Sie sich einen CPI- oder 16PF-Beispielbericht ansehen, werden Sie mit einer Terminologie und mit Grafiken konfrontiert, die den Uneingeweihten herausfordern. Hogan ist ein Schritt in Richtung unserer heutigen Zivilisation, aber er war nicht die Revolution, die die Menschen brauchten. Es gab eine große Lücke zwischen den Persönlichkeitstests und der Forderung der Arbeitswelt nach anwendbareren Tests, die auch die HR-Leute (damals hieß das Personal) verstehen können. Dies war der Schauplatz, an dem shl 1984 den OPQ veröffentlichte, einen Fragebogen, der von geschulten HR-Leuten verwendet werden konnte, wodurch das Monopol der Psychologen effektiv gebrochen wurde. OPQ war die Revolution, die die Menschen brauchten.

Der OPQ war eigentlich eine Familie von Persönlichkeitsfragebögen, nicht nur ein Test. Das OPQ Pentagon maß die Big Five; die Oktagon-, Faktor- und Konzeptversionen des OPQ maßen jeweils 8, 16 und 30 Skalen. Interessanterweise wurden die Versionen mit mehreren Skalen erfolgreicher, und die Praktiker bevorzugten ipsative Versionen. Dies führte zur Entwicklung des OPQ32i, der in großen Unternehmen weltweit sehr populär wurde und viele Jahre lang die Assessment-Szene dominierte.

Es schien merkwürdig, dass das OPQ, das bevorzugte Instrument der Praktiker, ein auf einem theoretischen Modell basierender ipsativer Fragebogen war. Dies stand in starkem Widerspruch zu dem, was in den Psychometrie-Klassen an den Universitäten gelehrt wird, und shl, die von einigen Psychologen gegründet und geleitet wurde, bekam von ihren Kollegen viel Kritik zu hören. shl versuchte, das faktoranalytische OPQ-Modell und OPQ32n (eine Version mit normativen Fragen) zu fördern, aber die Praktiker griffen diese "wissenschaftlichen" Versionen nicht auf und shl gab die Entwicklung in diese Richtungen schließlich auf. Shl fand den Ausweg aus der unangenehmen Lücke zu den Akademikern, indem sie zu einer auf der Item-Response-Theorie basierenden (probabilistischen) Bewertung ihres Forced-Choice-Fragebogens wechselte und den OPQ32r schuf. Mit der neuen Version wurde auch die Marathonlänge des OPQ um 25% verkürzt.

Stärke: Ipsatives Fragebogenformat, das etwas fälschungssicherer ist. Ein umfassendes Profil hilft bei der Erstellung von Berichten über Kompetenzen, Teamrollen, Führung, Anhängerstil, Verkaufsstil und es gibt viele Ressourcen, die bei der Anwendung helfen, z.B. die Integration mit 360, um Kompetenzen/Potenzialberichte zu erstellen. Der OPQ hat auch eine globale Reichweite und  wurde in mehr als 30 Sprachen übersetzt.

Schwäche: Der Fragebogen ist sehr lang (der längste unter den vier verglichenen Modellen).

 

Facet Five

Assessment-Praktiker neigen dazu, ipsative (forced choice) Fragebögen zu bevorzugen, während Akademiker keine ipsativen, sondern normative Daten bevorzugen. Akademiker können ihre bevorzugten Berechnungen nicht mit ipsativen Daten durchführen. Normative Fragebögen haben ebenfalls Probleme, aber diese Probleme stören die in akademischen Publikationen verwendeten Berechnungen nicht. Deshalb verwendet die akademische Welt normative Fragebögen. Das ipsative Format ist im Allgemeinen besser geeignet, Verzerrungen durch soziale Erwünschtheit (Fälschung) zu verhindern, und zeigt größere Unterschiede in den Profilen, und das sind Merkmale, die Praktiker in der realen Welt mögen. Facet Five war ein Versuch, zu beweisen, dass normative Persönlichkeitsfragebögen auch in der realen Welt ipsative Fragebögen übertreffen können. Die Autoren verwendeten ein kreatives "semantisch entgegengesetztes Beschreibungspaar"-Elementformat. Das ungewöhnliche Format und der Inhalt überrascht die Menschen und verringert das Risiko von Fälschungen. Das Persönlichkeitsmodell ist ebenfalls kreativ. Die Autoren reduzierten die Anzahl der Skalen mit Hilfe der Faktorenanalysetechnik und erreichten ein relativ schlankes Persönlichkeitsmodell mit 13 Sub-Skalen in 5 Dimensionen.

Stärke: Relativ einfaches Profil unter den breit gefächerten Persönlichkeitsinventaren, dank der geringen Anzahl von Skalen. Einzelne Profile werden in einen von 16 Typen, die "Familie" genannt werden, eingeordnet. Die Autoren haben für jede Familie umfassende Berichte erstellt, wodurch Facet Five hervorragende, leicht lesbare und verständliche Berichte liefern kann.

Schwäche: Der Inhalt der Skalen ist etwas begrenzt: Die Dimension "Offenheit" der Big Five fehlt. Da man für jedes Item zwei Beschreibungen lesen muss, ist der Fragebogen relativ lang, vor allem wenn man die geringe Anzahl der Skalen berücksichtigt. Der "Familien"-Ansatz bringt einige Fehler in den Berichten mit sich.

 

Trait-Map®

Die bemerkenswerteste Idee von Trait-Map® ist eine einzigartige Sichtweise auf die ipsativ-normative Debatte. Die Autoren stellten ein wichtiges Merkmal der Persönlichkeit fest, dem jeder intuitiv zustimmt: Während wir Menschen aus vielen Perspektiven einordnen können, z.B. nach Alter, Größe, IQ oder Qualifikationsniveau, können wir nicht vernünftig behaupten, dass einige Menschen "höhere Persönlichkeit" oder "mehr Persönlichkeit" haben als andere. Übersetzt man diese Beobachtung des gesunden Menschenverstands auf die Terminologie der Persönlichkeitsentwicklung, bedeutet dies, dass sich Menschen in ihrer Merkmalszusammensetzung unterscheiden, aber die Gesamtsumme der Persönlichkeit (die Gesamtsumme ihrer Merkmalswerte) für alle gleich ist. Daher sind ipsative Fragebögen bessere Maße als normative. Die Autoren von Trait-Map® sahen die Herausforderung von ipsativen Fragebögen nicht in der Bewertungsmethode wie shl, sondern in der Tatsache, dass die Items im selben Block sich gegenseitig beeinträchtigen und dass die Interaktion eine Quelle der Verzerrung ist. Daher verwendet der Trait-Map®-Fragebogen die Mathematik (kombinatorische Optimierung), um diese Verzerrung durch gleichmäßige Verteilung auf die 25 Merkmale zu minimieren.

Stärke: Ipsatives Fragebogenformat, das noch fälschungssicherer ist. Umfassend, aber relativ einfach zu verwenden. Als jüngster Test in der Gruppe kommen die Trait-Map®-Items der Sprache des heutigen Geschäftslebens am nächsten. Der Fragebogen ist der kürzeste, die Skalenbezeichnungen und Diagramme sind die benutzerfreundlichsten unter diesen vier Bewertungen.

Schwäche: Weniger Veröffentlichungen und verfügbare Übersetzungen.

Übersetzung: Thomas Oelker

Autor: Gabor Nagy