Perl

Module mit ppm aktualisieren

26. März 2012 · Programmierung · andreas · Kein Kommentar

Während die Aktualisierung der vorhandenen Module über die graphische Oberfläche von ppm zur Klickarie ausartet, hilft die Kommandozeile schnell und unbürokratisch:

ppm upgrade --install

wühlt sich vom ersten bis zum letzten installierten Modul und aktualisiert diese bei Bedarf.


HTML-Dokumente zerlegen mit HTML::TreeBuilder

8. Juli 2011 · Programmierung · andreas · 1 Kommentar

Geht es um das Extrahieren von Informationen aus einem HTML-Dokument, so bietet sich Perl als “the Swiss Army chainsaw of programming languages” geradezu an und bietet unzählige Wege ans Ziel. Nicht nur gibt es die mächtige RegEx-Engine, auch im CPAN gibt es eine Vielzahl von Modulen, die für den Einsatzzweck geeignet scheinen.

Ein Modul, das ein gutes Verhältnis zwischen Aufwand und erzieltem Ergebnis verspricht, ist HTML::TreeBuilder, dessen Einsatz am Beispiel eines Flickr-Fotoalbums demonstriert werden soll:

Nach der Initialisierung des HTML::TreeBuilder-Objekts genügt ein Aufruf von “parse” oder wahlweise “parse_file” auf eine z.B. mittels “LWP::Simple” heruntergeladene Datei, damit der HTML-Tree zur weiteren Verarbeitung zur Verfügung steht.

$tree = HTML::TreeBuilder->new;
$tree->parse($page);

Die einzelnen Thumbnails eines Albums sind bei flickr jeweils in ein “div”-Element eingebettet, dem die Klasse “thumb” zugewiesen ist.

<div class="thumb">
    <span>
        <a title="..." href="...">
            <img width="75" height="75" border="0" alt="..." src="...">
        </a>
    </span>
</div>

Um eine Liste aller Thumbnail-Elemente zu erhalten, genügt der Aufruf von “find_by_attribute” mit passenden Parametern

@urllist = $tree->find_by_attribute('class', 'thumb');

der den gesamten Dokument-Tree durchläuft und eine Liste aller Elemente mit Klasse “thumb” zurückliefert, die dann einzeln abgearbeitet werden können.

Die Links zu den jeweiligen Bilderseiten können dann über den Aufruf zweier weiterer Funktionen etxrahiert werden:

foreach $thumb (@urllist) {

    $link = $thumb->find_by_tag_name('a');
    print $link->attr('href');
}

Der Aufruf von “find_by_tag_name” lokalisiert das Link-Element innerhalb des “div”-Elements, mittels “attr” kann auf dessen “href”-Attribut zugegriffen werden.

Das Download vollständige Beispielskript , das mittels

flickldr.pl http://www.flickr.com/photos/<werauchimmer>/sets/<wasauchimmer>/

aufgerufen wird, ist lediglich als Demo zur Verwendung von HTML::Template zu sehen und alles andere als ein zuverlässiger Downloader für Flickr-Alben. Neben fehlendem Fehlerhandling gibt es auch keinerlei Option(en) zur Wahl der Fotogröße - es wird einfach davon ausgegangen, daß alles wie gewünscht verfügbar ist.

Seit dem Relaunch von Flickr am 20. Mai 2013 können mit dem Skript keine Alben mehr heruntergeladen werden.

Exif-Daten ändern

4. Mai 2011 · Programmierung · andreas · Kein Kommentar

Sollen Exif-Daten vorhandener Bild-Dateien geändert werden, so ist - wie so oft im adminstrativen Alltag - PERL ein hilfreiches Werkzeug.

Folgendes Skript schnappt sich alle “JPG”-Dateien im aktuellen Verzeichnis und setzt deren Aufnahmedatum auf den 01.09.2004 9:22:57 Uhr.

use strict;
use warnings;
use Image::ExifTool;

my (@files, $file, $image, $success);

opendir(DIR, '.');
@files = readdir(DIR);
closedir(DIR);

foreach $file (@files) {

 next if $file !~ /\.jpg$/i;

 print "processing file '$file'\n";

 my $image = new Image::ExifTool;

 $image->SetNewValue('DateTimeOriginal', '2004:09:01 09:22:57');
 $success = $image->WriteInfo($file, '_' . $file);

 die 'Error: \'' . $image->GetValue('Error') . '\'' if ! $success;
}

Die komplette Doku zu Image::ExifTool findet sich im CPAN. Wer mutig ist (oder ein Backup hat), kann den zweiten Parameter bei WriteInfo auch weglassen - die Quelldatei wird dann direkt überschrieben.


Webserver auf localhost reagiert verzögert

6. Januar 2011 · Betriebssysteme · andreas · Kein Kommentar

Nach einer Neuinstallation von Windows 7 war der Zugriff auf andere Server im Netz wieder wie vorher, lediglich Zugriffe auf einen auf dem lokalen Rechner betriebenen Webserver erfolgten nur mit einer mehrsekündigen Denkpause.

Da der Webserver mit Hife des Perl-Moduls HTTP::Server::Simple bereitgestellt wird und weder an der Perl-Version, noch den verwendeten Modulen oder dem eigentlichen Skript irgendwelche Änderungen vorgenommen wurden, schied der Server selbst als Ursache aus.

Auch die standardmäßige Windows-Firewall sowie die Antivirus-Lösung, die beide unter kurzzeitigen Verdacht gerieten, konnten sich mit Hilfe einer testweisen Deaktivierung vom Anfangsverdacht befreien.

Einen ersten Hinweis in die richtige Richtung lieferte der Artikel “Firefox ist langsam bei Aufruf einer Seite von localhost mit Visual Studio”, dessen Lösungsansatz den Firefox-Parameter “network.dns.disableIPv6” vom standardmäßigen “false” auf “true” abzuändern zwar eine Behebung der Symptome im Firefox brachte, aber nicht das Problem als solches behob.

Die Lösung findet sich letztendlich in der Windows-“hosts”-Datei unter “%windir%\system32\drivers\etc” liegt und die folgenden Hinweis enthält:

# localhost name resolution is handled within DNS itself.
#    127.0.0.1       localhost
#    ::1             localhost

Nach Entkommentieren des IPv4-Eintrags (und nur dieses!) funktioniert der Zugriff auf den localhost wieder verzögerungsfrei.


CPAN mit ActivePerl

9. Dezember 2010 · Programmierung · andreas · Kein Kommentar

Auch wenn sich “Perl unter Windows: Erdbeere oder Komodowaran?” auf den ersten Blick etwas anders lesen mag, auch unter ActivePerl ist ein Zugriff auf das Comprehensive Perl Archive Network (CPAN) ohne große Klimmzüge möglich - nur um’s im Mozilla-Jargon zu sagen “Hier endet möglicherweise die Gewährleistung!”.

Die CPAN-Shell ist zwar nicht im Startmenü verlinkt, kann aber von der Kommandozeile mittels Eingabe von “cpan” gestartet werden. Je nach verwendeter Windows-Installation und Installationsverzeichnis muß dies u.U. als Administrator geschehen, um die benötigten Schreibrechte zu erhalten.

Sollte ActivePerl keinen installierten C-Compiler vorfinden, wird analog zu Strawberry Perl die Minimalist GNU for Windows-Umgebung MinGW zusammen mit “dmake” über den Perl Package Manager installiert und konfiguriert, so daß anschließend eine voll funktionsfähige CPAN-Shell zur Verfügung steht.