computerwoche.de
Newsletter  |   CW-TV  |   Bilder-Galerien  |   Blogs & Forum  |   CW mobil  |   RSS  |   Aboshop


BI & ECM
CRM und Datenqualität

Unstrukturierte Daten sind ein ungehobener Schatz

26.06.2008
Autor(en): Christian Rodatus, Vice-President Central Europe und Geschäftsführer der Teradata GmbH.
Ordnung in große, unstrukturierte Datenmengen zu bringen ist aufwändig, aber über den Umweg der Erzeugung semistrukturierter Daten möglich.

Analysen der Kundenzufriedenheit oder -bindung gehören im CRM an sich längst zum Standardrepertoire - aber mit einer entscheidenden Einschränkung. Sie basieren in der Regel ausschließlich auf strukturierten Daten. Diese beschreiben vorab definierte Fakten (zum Beispiel den Wohnort), Ereignisse (Kontakte, Beschwerden, Transaktionen) sowie in metrischer Form zählbare Größen (Umsatz) und Bewertungen (Kundenprofitabilität). Sie sind in Tabellen organisiert, bilden also die klassische relationale Datenbank. Diese kann Merkmale aber nur dann abbilden, wenn sie zuvor bedacht und entsprechende Felder angelegt worden sind. Und sie setzt aktive Bewertungen voraus: So müsste ein Call-Center-Agent den negativen Unterton eines Anrufers notieren - auch wenn er möglicherweise selbst zu diesem beigetragen hat.

Mit Analyse-Tools lassen sich kritische Stimmungen in einem Call-Center-Gespräch identifizieren.
Mit Analyse-Tools lassen sich kritische Stimmungen in einem Call-Center-Gespräch identifizieren.

Demgegenüber stehen die unstrukturierten Daten. Sie machen etwa 85 Prozent des in den Unternehmen gespeicherten Volumens aus. Dazu zählen Texte wie E-Mails, Faxe oder Gesprächsprotokolle, Blog- und Foreneinträge, aber auch Ton- und Bildaufzeichnungen. Bevor solche Daten automatisiert ausgewertet werden können, müssen sie speziell aufbereitet werden. Hierfür wurden unterschiedliche Verfahren entwickelt, die in einigen Organisationen auch bereits im Einsatz sind. Das beste Beispiel für deren Funktionsweise bietet die Textanalyse.

Textanalyse hilft, Inhalte zu erschließen

Wie macht man unstrukturierte Daten der Analyse zugänglich? Der Trick besteht darin, sie in semistrukturierte Daten zu verwandeln, indem man ihnen eine Struktur anhängt. Das heißt: Man ordnet den jeweiligen Dokumenten einen "Tag" zu, der Informationen über den Inhalt in Tabellenform enthält.

Die Textanalyse erschließt die Inhalte im Wesentlichen durch statistische und linguistische Ansätze. Mit statistischen Verfahren lassen sich zum Beispiel die zentralen Themen eines Gesprächs ermitteln, ohne dass dazu Vorkenntnisse zwingend notwendig sind. Diese Methode behandelt einzelne Wörter als Basiselemente und erfasst deren Auftreten. Im einfachsten Fall prüft sie, welcher Begriff in bestimmten Texten am häufigsten verwendet wird, sie kann aber auch die Position der Wörter innerhalb der Texte rastern. Mit Vergleichen von Frequenz, Durchschnitt und Median sowie durch die Ermittlung von Clustern lassen sich hierzu weitergehende Aussagen treffen.

Ein Beispiel: In einer Reihe von Gesprächsprotokollen taucht das Wort "DSL" 1000-mal, das Wort "langsam" 200-mal auf. Die Häufigkeit des Worts "DSL" lässt die Vermutung zu, dass es sich dabei um den besprochenen Gegenstand handelt. Ein kombinierter Suchlauf könnte ergeben, dass die beiden Worte in fünf Gesprächen 30-mal zusammen vorkommen. Dann liegt es nahe, dass es um zu langsame DSL-Verbindungen ging. Dieses Verfahren lässt sich vereinfachen und beschleunigen, wenn man bestimmte Stichworte und Sätze - einzeln oder kombiniert - vorgibt. Voraussetzung ist, dass der Nutzer weiß, wonach er sucht.


Leserkommentare 
(0 Beiträge), 
Kommentieren

Beitrag schreiben

Noch kein Forums-Mitglied?
Dann gleich hier anmelden.

BI & ECM: CW-REDAKTEURE EMPFEHLEN
Berichtssoftware- warum nicht Open Source? Berichtssoftware- warum nicht Open Source? ie Konkurrenz für etablierte Business-Intelligence-Produkte wächst. Quelloffene, Java-basierende Reporting-Tools wie Pentaho, BIRT, und JasperReports ... weiter
EMC, IBM und Microsoft wollen neuen DMS-Standard EMC, IBM und Microsoft wollen neuen DMS-Standard Anwendungen sollen mit CMIS auf beliebige Repositories von Dokumenten-Management-Systemen zugreifen. Dies verspricht auch der Java-Standard JSR 170. weiter
Wo SAP-Anwender Probleme mit BI haben Wo SAP-Anwender Probleme mit BI haben Vor allem die schlechte Projektorganisation erschwert häufig die Einführung von Software für Business Intelligence. Die deutsche SAP-Anwendergemeinde ... weiter
Ratgeber E-Mail-Archive Ratgeber E-Mail-Archive Produkte für Verwaltung von E-Mails unterscheiden sich stark. Insbesondere auf Funktionen für die Indizierung, Ablage und Konvertierung ist zu achten. weiter
Oracle betritt den Hardware-Markt Oracle betritt den Hardware-Markt Erstmals in der Firmengeschichte gibt es Hardware aus dem Hause Oracle zu kaufen. Zusammen mit Hewlett-Packard stellt der Datenbankriese vorkonfigurie ... weiter
Berichtssoftware- warum nicht Open Source? EMC, IBM und Microsoft wollen neuen DMS-Standard Wo SAP-Anwender Probleme mit BI haben Ratgeber E-Mail-Archive Oracle betritt den Hardware-Markt
MEHR ZUM THEMA BI & ECM
  • Artikel
  • Whitepaper
FEATURED LINKS
KOSTENLOSE NEWSLETTER VON COMPUTERWOCHE
Nachrichten morgens
Whitepaper
Nachrichten mittags
CW-Mittelstand
Highlights der Woche
Hardware
Neu: SAP-Newsletter
Software
Job + Karriere
Open-Source
Stellenmarkt
Produkte + Techn.
Freiberufler
Security