Архив документации OpenNet.ru / Раздел "Perl" / Индекс
Чтение файлов в формате *.doc для Word 6 и Word 7(doc2txt or doc2html).

Преположим Вы владеете сайтом, на который сваливается информация в формате *.doc. Много информации. Даже, быть может, структурированной. Необходимо эту информацию перевести в "божеский" вид, т.е. выцепить из таких файлов текст. Скачиваем следующие модули:

Unicode-Map
Startup
OLE-Storage

Устанавливаем их. В строке N1099 Startup нужно перед установкой внести изменения(если этот баг еще не пофиксили на cpan), т.к. в этой строчке в конце не хватает >:
I<$pat> = I<$S> -> log_openpat ([I<$pat])
а нужно написать:
I<$pat> = I<$S> -> log_openpat ([I<$pat>]).

Далее берем файл, удовлетворяющий описанным выше условиям и пишем скрипт(предварительно прочитав man lhalw):

#!/usr/bin/perl
print qx[lhalw --to_stdout Label.doc]
А можно и просто из командной строки
[ne-root@www OLE-Storage-0.386]# lhalw --to_stdout Label.doc


Кому:   "ФАМИЛИЯ" "ИМЯ" "ОТЧЕСТВО"
------------------------------ ОБРАТНЫЙ АДРЕС ------------------------------
WWW.RBC.RU, отдел "Новости экономики".

[ne-root@www OLE-Storage-0.386]#
Так-же по ссылке можно найти список модулей для работы с *.rtf:


Архив документации на OpenNet.ru