publish and discover academic work ...

Licenzero – Der Pornographie Detektor

Übersetzung des Artikels

Belustigender Weise könnte man sagen, dass wir eine tolle Arbeit haben, denn wir werden für das Anschauen von pornographischen Filmen bezahlt. Wir arbeiten in der R&D Abteilung der Firma Inventos, die sich mit der automatischen Filterung von Webinhalten beschäftigt. Uns wurde nun die Aufgabe aufgetragen — das System für die automatische Lokalisierung von Medien mit pornographischen Inhalten zu entwickeln. In diesem Artikel wird auf den Lösungsansatz für diese Aufgabenstellung eingegangen.


Das allgemeine Herangehen und die Klassifikation


Wir haben uns mit verschiedenen Möglichkeiten der Lokalisierung von Videos mit pornographischem Inhalt vertraut gemacht und haben uns für eine komplexe Herangehensweise entschieden. In der im Folgenden vorgestellten Alternative, werden viele unterschiedliche Merkmale der Pornographie zunutze gemacht um ein Video mit pornographischem Inhalt erkennen zu können. Videos können von unterschiedlichen Detektoren analysiert werden und eine Einschätzung über ein potenziell pornographischen Inhalt berechnet werden. Jeder Detektor liefert jedoch unterschiedliche Einschätzungsergebnisse und selbstverständlich mit Abweichungen in der Einschätzungsgenauigkeit. Schließlich werden die Einschätzungsergebnisse vereinigt und daraus erneut eine Einschätzung gebildet.

Das Verfahren der Detektoren, erlaubt es, Einschätzungsergebnisse zu kombinieren, zu ergänzen und mit jedes Einschätzungsergebnis getrennt voneinander zu betrachten. In unserem System werden vier unterschiedliche Detektoren eingesetzt:


Jeder Detektor berechnet eine Wahrscheinlichkeit, wie potenziell pornographisch der analysierte Inhalt ist. Im letzten Schritt müssen die berechneten Wahrscheinlichkeiten zusammenfassend kombiniert berechnet werden.

Erkennung von charakteristischen Bewegungen


Die Suche nach rhythmischen Bewegungen in einem Video, ist der erste Schritt mit dem wir in der Aufgabenstellung begonnen haben. Zunächst jedoch eine kurze Information zur Klassifikation. Das Wesen der Klassifikation besteht darin, eine Menge von Objekten in zwei Klassen aufzuteilen. Um diesen Schritt bewerkstelligen zu können, kann man wie folgt vorgehen:

  • Wir nehmen eine Menge von „Trainings“-Objekten, die manuell eingestuft wird
  • Wir definieren eine Prozedur für das Auslesen von Parametern des statistischen Modells
  • Wir trainieren unser Modell auf einer Menge von „Trainings“-Objekten
  • Die Einschätzung der Genauigkeit des Modells wird mit einer Prüfungsmenge verglichen

In diesem ersten Schritt möchten wir also typische rhythmische Bewegung von Filmen mit pornographischem Inhalt erkennen und ausfindig machen können. Für die Erkennung der Bewegungen wurden einige Filmausschnitte analysiert und Szenen mit einer charakteristischen Bewegung ausgeschnitten und schließlich gespeichert. Hierfür war ein Aufwand von 60 Stunden notwendig. Das Ergebnis ist eine Klassifikation, es gilt je mehr Objekte — desto besser.

Technische Einzelheiten sowie Details zur Bewegungserkennung werden wird im nächsten Artikel beschrieben.

Erkennung von typischen Farbmustern


Eine Farberkennung ist einfacher zu implementieren als die Erkennung einer Bewegung. Jeder Punkt (Pixel) im Bild verfügt über Koordinaten im eigenem Farbraum. Es muss lediglich bestimmt werden, an welcher Stelle sich ein bestimmter Punkt befindet z.B. in einer Darstellung eines nackten menschlichen Körpers. Aufgrund dieser Daten kann eine Charakteristik abgeleitet werden, ob ein potenzielles Nacktbild dargestellt wird. Für die Farbdefinitionen haben wir das YUV-Farbmodell gewählt. Die Verwendung dieses Farbmodells, bringt einige Vorteile mit sich:

  • Es gibt nur zwei Koordinaten der Farben, U und V
  • Die Koordinate die, die Helligkeit (Y) definiert wurde weggelassen, da unterschiedliche Helligkeitsstufen nicht berücksichtig werden können
  • Ein zusätzliches Konvertieren der Farben ist nicht erforderlich

Inhalt der Videofragmente


Bei der Lokalisierung von pornographischem Inhalt darf man die einzelnen Bilder nicht unberücksichtigt lassen. Weiterhin werden zusätzlich nützlichen Informationen, mit dem Model „Bag of Visual Words “ direkt aus den Bildern und Texten extrahiert. Es werden zunächst Begriffe und Wörter, aus Fragmenten und Samples extrahiert um ein potenziell pornographischen Inhalt besser charakterisieren zu können. Bei der Bildung der Klassifikation, werden auch die extrahieren Sätze, Begriffe und Wörter berücksichtigt.

Der Ton


Der Ton-Detektor basiert sich auf zwei Hauptparametern, die uns helfen, pornographischen Inhalt zu charakterisieren:

  • Erkennen des Tons, einer menschlichen (vorzugsweise weiblichen) Stimme.
  • Erkennen von rhythmischen Wiederholungen des konkreten Tons. Dazu verwenden wir das Berechnungsverfahren von „Mel Frequency Cepstral Coefficients“

Mit diesem Modell kann entschieden werden bzw. eine Wahrscheinlichkeit berechnet werden, die das Vorhandensein von charakteristischen Tönen eines Stöhnens in bestimmten Fragmenten des Videomaterials bestimmt.

Fazit


Selbstverständlich ist dieser Artikel sehr allgemein gehalten worden. Wir haben uns entschieden, technischen Details zu den verschiedenen Detektoren in separaten Artikeln zu beschreiben.

UPDATE
Fortsetzung ist hier zu finden.
  • DrWeb DrWeb,
  • 09 Januar 2012, 18:14
  • 2

Kommentare (3)

RSS zusammenklappen / ausklappen
sehr interessante Arbeit :)
0
und schwere…
0
wochin kann meine Bewerbung senden :)?
0

Kommentar schreiben

Ihr Name
Sie sind ein Gast, Sie dürfen keine HTML-Tags verwenden
Bitte geben Sie die Zeichen in das folgende Feld ein