Чтение электронных книг — 2

В предыдущей заметке о чтении, я разделил свои материалы для чтения на три основные категории: большие книги, мои собственные заметки (в виде Большого Текстового Файла) и «клипы» или «вырезки» — набор разношерстых html-страничек, посты, микротексты, микрозаметки и так далее. Если с большими книгами и большим файлом все было более или менее понятно, то промежуточная категория — заметки, «клипы» и вырезки, была совершенно неопределенной и требовала осмысления.

За прошедший год система чтения изменилась. Многие моменты назрели уже давно, фундаментальным поворотом стал момент, когда я оказался в Метрополии с очень плохим интернетом. Связь через некоторое время наладилась, но момент вынужденной автономности и некоторые исследования, попавшие в мое поле зрения, заставили задуматься.

1. Закладки в браузере, в роли средства хранения информации, а не в роли опорных ориентиров для серфинга, бесполезны. Когда наступает оффлайн — 8802 закладок (на текущий момент), разумеется, оказываются мертвыми.

Кроме того, во время вынужденной «автономки» мне попалось интересное исследование — человек решил проверить, сколько его закладок времен 1997го живы сейчас или доступны через Wayback Machine. За 17 лет в реальном интернете потеряли актуальность 91% закладок. С помощью Wayback Machine процент потерь сократился до 45%. Я попробовал проделать нечто подобное — и получил примерно те же результаты.

Интернет меняется очень быстро и не стоит на месте. Wayback Machine спасает только частично. Кроме всего прочего, это тоже сетевой сервис, который тоже может «закончится» или «уйти в коммерцию» в неопределенный момент времени.

2. Практическим выводом из (1) стало решение хранить значимую информацию в оффлайне. От специализированного софта типа scrapbook, я решил отказаться, в пользу обычных файлов — сошлюсь на сэра vjoiller’а, который в свою очередь любит цитировать Артура Максимова о том, что файловая система — это лучший (и недооцененный) инструмент для хранения, сортировки и каталогизации информации.

3. В качестве формата хранения я уже давно использую MAFF — Mozilla Archive Format File. Это — стандартизованный формат файла-архива, по существу — zip-файл, внутрь которого складывается страница со всем сопутствующим содержимым — картинками, аудио, скриптами и т.д. и т.п. Их можно открывать через соответствующее расширение firefox, или за неимением такового просто распаковать архив и смотреть файлы любым браузером.

До этого я использовал MAFF-ы время от времени, теперь же перешел к массированному использованию для большой, упорядоченной системы хранения информации. Быстро стало понятно, что хранение страничек в виде файлов на диске, имеет преимущества перед закладками. Из замеченных эффектов — скорость обработки и перетасовки файлов по папкам возрасла на порядок и на ту же величину увеличилась логичность и интуитивность организации папок с архивами. При работе с закладками в браузере, они могут изрядно подтормаживать, а раскладывание файлов по папкам и переименование самих папок «дешево» относительно системных ресурсов. Еще очень упрощается «пропалывание» и «расчистка» стареющего и теряющего актуальность мусора.

Вопросы тэгов и каталогизации решаются раскладкой файлов по иерархическому дереву тем (not -> чтение -> maff-файлы). Дублирование одной заметки в разные темы тоже упрощается — благодаря хард- и софтлинкам. Мой firefox настроен так, что все maff-странички падают в папку maff внутри Dropbox’а, так что все архивы у меня синхронизируются на всех десктопах сразу. И доступны даже тогда, когда сеть отсутствует.

MAFF сохраняет дату и url исходной странички — соответственно всегда видно откуда и что было взято. Плагинка к firefox’у правильно именует сохраняемые файлы (т.е. задает осмысленное имя по заголовку странички — Notes on bookmarks from 1997.html.maff, а не 05dec9f04909d9b6edff.html как это было бы в ранней мозилле). Важно, что это происходит без дополнительных телодвижений с моей стороны. И всегда можно найти требуемую информацию, например, так:

vik@kit:~/zbox/Dropbox/maff$ find . -name "*book*"
./not/закладки/Notes on bookmarks from 1997.html.maff
./not/закладки/Notes on bookmarks from 1997 | Hacker News.html.maff
./doc/pandoc_book
...
./work/qemu/QEMU_FreeDOS - Wikibooks, open books for an open world.maff

MAFF понимает в том числе recoll который я использую в качестве «настольного поисковика», так что вся информация доступна в полнотекстовом поиске в любой момент времени.

Из недостатков — Android-версия Firefox пока MAFF не понимает. У нее есть свои средства хранения и чтения, но о них позже. Думаю, что разработчики все наверстают. Так что это не столько недостаток, сколько «хотелка».

Пожалуй, следующий этап — зачистка закладок в firefox. Я планирую оставить только те, которые (а) являются опорными для серфинга или захода на сервисы (б) закладки быстрого поиска (в) закладки-дела (посмотреть, послушать, почитать — у меня например есть прекрасная папка «смотреть долго и нудно»).

4. Для чтения с читалки, я продолжаю использовать grubmybooks, однако «быстрый апдейт текущего чтения» через DropSync, оказался неоптимальным и начал утомлять. Упомянутый синк не отличался стабильностью. Синхронизируемые файлы часто теряли время сохранения, что делало бессмысленным сортировку заметок по дате поступления. Синхронизация требовала внимания и заставляла включать голову каждый раз, когда я цеплялся к wifi — «запустится — не запустится», «попросит денег — не попросит денег», «засинхронит — не засинхронит», «оставит дату или не оставит дату» и так далее. К тому же интерфес у этой софтины (во всяком случае в те времена) был на редкость неочевидным и непрозрачным.

Когда с этой софтиной что-то случилось и она перестала синхронизировать папки совсем, я не стал с ней бороться. Оказалось, что без сверхоперативного обновления заметок-клипов вполне можно жить. Отключение даже пошло на пользу — я переключился на чтение «больших книг» и умных вещей «с низким гликемическим индексом умственного переваривания».

Осознав все это, я снес DropSync насовсем вообще и начал обновлять папку с клипами-заметками «по шнурку» через Unison. Убедившись в том, что все работает как надо, я перешел к обновлению и синхронизации всей библиотеку целиком. Сам процесс накопления заметок не изменился. Для сбора заметок я использую grabmybooks, который бросает .epub-файлы в папку в дропбоксе. Благодаря этому все «клипы-вырезки» синхронизируются между моими десктопами — и во-первых, всегда под рукой, во-вторых я могу послать себе заметку для чтения с любого из компьютеров.

Я могу читать их на читалке, либо прямо в браузере — к firefox идет отличный epubreader. К тому же grabmybooks добавляет в заметку url, откуда она была сграблена и дату, так что, как и в случае с .maff-файлами всегда можно дотянуться до оригинала. Это актуально, когда что-то в заметке привлекает мое внимание и я хочу посмотреть на оригинал (и, возможно, сохранить его в maff).

Основная библиотека лежит на главном десктопе, в папке ~/book, которую я синхронизирую с помощью Unison «по шнурку» с папкой в читалке. ~/book/dropbooks — это софтлинк к дропбоксовой папке заметок и он обновляется сразу со всей библиотекой (Unison «знает» что ссылки надо синхронизировать тоже). Так что у меня на нуке всегда свежая папка с «клипами».

5. Все вместе.

Сейчас заметки-клипы хранятся в двух папках — dropbooks и maff, которые синхронизируются дропбоксом.

Общий критерий — epub для чтения и оперативного просмотра повсюду, maff для сохранения «почти точной копии» на десктопе. Что-то интересное попадает сначала в dropbooks в виде epub‘а. Если оно оказывается достойным более глубокого изучения (или архивации на будущее) — в maff.

На практике очень быстро выяснилось, множество плюсов такой системы. Я избавился от проприетарной, надоедливой софтины. Начала устаканиваться библиотека — во многом благодаря тому, что изменения и на нуке, и на десктопе синхронизируются практически автоматом и есть возможность организовывать библиотеку как на десктопе, так и на нуке. Это важно, поскольку и там и там я обычно ищу по иерархии папок (почти как на полках в книжном шкафу) и теперь мне не нужно держать в голове два «дерева» папок.

Благодаря общей синхронизации я решил для себя вопрос с архивацией прочитанных заметок — завел в общей библиотечной папке директорию old_drop, куда в папки по датам сохраняю уже неактуальные клипы-заметки. Они не тратят пространства dropbox’а, уводятся из зоны внимания, но в то же время всегда доступны по любому из вариантов поиска — в том числе и recoll‘ом

Повысилась оперативность обновления системы — DropSync не всегда хорошо справлялся с синхронизацией, даже при хорошем вайфае, часто ругался на какие-то внутренние разборки с Dropbox, словом требовал присмотра. По сравнению с этим, очень быстрый, прозрачный и практически «бесшовный» процесс синхронизации через Unison (что в командной строке, что через gui-фронтэнд) выглядит волшебством.

Все используемые форматы открытые, накопление и обработка информации происходят с одной стороны автоматически, с другой достаточно прозрачно, чтобы не терять контроля за процессом.

Last but not least, такая система вообще не требует вайфая и/или интернета — что очень пригодилось в «автономке». В частности, даже если dropbox не работает — я вполне могу носить архив на флэшке/мобильнике/читалке — и синхронизировать его на месте через тот же unison (вообще на редкость полезный инструмент).

Из дальнейших планов — настроить работу unison через ssh — чтобы добавить гибкости. Принципиально система ограничена 2Гигабайтами дропбокса или 12ю гигабайтами Яндекс.Диска — учитывая 32Гб на карточке Нука (общий объем библиотеки, которую можно на нем хранить), думаю, этот ресурс исчерпает себя очень нескоро. Возможно, хорошие люди доведут до ума syncit или btsync одумается и откроет исходники — тогда появится возможность синхронизировать все по p2p-протоколу, а если я преодолею лень и инерцию и решусь раскошелиться на статический IP — система вообще станет доступна отовсюду.

Система сбора информации в связи с появлением новых инструментов тоже меняется, но о ней чуть позже.

p.s. Пока писал этот текст, начались веерные отключения света и «автономность» снова стала актуальной. Мы отвыкли мыслить себя в оффлайне, при этом у асинхронного режима (когда определенное время ты в сети, определенное — нет) есть свои преимущества.

Реклама

One Response to Чтение электронных книг — 2

  1. […] предыдущей серии ваш покорный слуга описывал свою систему, в которой […]

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s

%d такие блоггеры, как: