Wissensdatenbank Wirtschaftsrecht

aktuelles Dokument:
Dokumentenklassifikation
image5
image4
image3
image2
image1
 Alle Kategorien:
  Forschungsdatenbank
  Lehrveranstaltungen
  Lexikon
  Literatur
  Rechtsgebiete
  Rechtsprechung
  Service
  Studium F H S
  Wissensmanagement
ich war hier: Dokumentenklassifikation

Revision [89870]

Dies ist eine alte Version von Dokumentenklassifikation vom JonasRotermund.

 

Dokumentenklassifikation


Diese Seite befindet sich unter aktiver Bearbeitung. 


In dieser Wikiseite werden die Kernthemen des Tutoriums "Mustererkennung / Klassifikation von Textdokumenten" vom SS18 in angepasster Form behandelt um die vermittelten Informationen für spätere Studiengänge zu erhalten.

Das Tutorium hatte zur Aufgabe, ausgewählte, meist prüfungsrelevante Inhalte der Vorlesung "Mustererkennung" anhand des praktischen Beispiels der Dokumentenstrukturanalyse zu erklären, um das Lernen zu vereinfachen.

Was ist Dokumentenklassifikation?


Bilder

Der Ausgangspunkt der Dokumentenklassifikation ist ein normales Papierdokument. Sie hat zum Ziel, dieses Dokument zu "verstehen" und anhand dieses Verständnisses Schlussfolgerungen über Art und/oder Inhalt zu treffen.
Dieses Dokument wird in mehreren Schritten weiterverarbeitet.
  1. Es wird in ein von einem Programm verwertbares Format gebracht (scannen des Dokuments -> Abspeichern z.B. in PNG)
  2. Wenn der Inhalt der Datei bestimmten Kriterien nicht entspricht, wird es korrigiert (schief eingescannt, Kaffeeflecke, rauschen, zu groß/klein)
  3. Es wird in seine Merkmale zerlegt (Strukturanalyse, ..)
  4. Anhand der Merkmale wird das Dokument klassifiziert.

Um eine Klassifizierung vorzunehmen, muss zusätzlich noch gelernt werden. Das heißt, es werden viele Beispieldaten genommen, die bereits vorklassifiziert (gelablet) sind und anhand dieser Informationen kann ein Lernalgorithmus verschiedene Klassen erlernen und (mit einer gewissen Erfolgsquote) unterscheiden.
Ein Beispiel:
Das Programm lernt die Strukturmerkmale von 500 Beispielbriefen und 500 Beispiel-Buchseiten. Bekommt es nach diesem Training einen unbekannten Brief vorgezeigt, so ist die Wahrscheinlichkeit hoch, dass es ihn richtig erkennt.
Die Erfolgsquote ist dabei immer von der gesamten Prozesskette der Mustererkennung abhängig.

Die Aufgaben der computergestützten Intelligenz


Die Prozesskette der Mustererkennung


Postulate


Was ist ein Postulat?

Ein Postulat beschreibt etwas, das nicht beweisbar ist und doch als unabdingbares Fundament für weitere Theorien gebraucht wird.

Postulat:
„Für ein Analysegebiet lässt sich eine repräsentative Stichprobe finden. Jedes Element der Grundgesamtheit muss gleiche Chancen haben, in die Stichprobe aufgenommen zu werden.“
Bild
Erklärung

Postulat:
"Ein komplexes Muster lässt sich in einfachere Bestandteile zerlegen, die untereinander in strukturellen Beziehungen stehen."

Bild
Erklärung

Postulat:
„Komplexe Muster lassen sich meist durch relativ wenige einfachere Bestandteile darstellen. Eine beliebige Auswahl dieser führt nicht zu Mustern.“

Bild
Erklärung

Die Vorverarbeitung


Die Extraktion und Verarbeitung der Merkmale


Die Nächste-Nachbarn Klassifikation "NN" und ihre Erweiterung "k-NN"


Diese Seite wurde noch nicht kommentiert.
Valid XHTML   |   Valid CSS:   |   Powered by WikkaWiki