Сайт Димы Джуса / блог / …

Мысли об использовании тегов

16 декабря 2006
Теги: , , , .

Prelude

Недавно я разгребал накопленную за два года кучу небольших видеозаписей, снятых на цифровой фотоаппарат. Nikon 5400 записывает видео в QuickTime-формат (.mov), данные в нём занимают достаточно много места. Пережал всё с ffmpeg-овским кодеком (в оригинале камера использует достаточно громоздкий M-JPEG) с приемлемым качеством, стало занимать меньше места.

Но проблема не в этом.

Я раньше просто распихивал видео и фотографии по папкам как по категориям — достаточно простой и очевидный подход, наверное, многие так делают. Но сейчас уже стало понятно, что такая сортировка — недостаточно гибкая при уже сколь угодно значимых размерах коллекции фоток и видео. В простой иерархической структуре директорий с распиханными по ним фотографиями бывает сложно найти какую-то определённую фотографию. А что, если в каждой папке по несколько сотен (или тысяч) фоток?

Метки vs. категории?

Помечать фотографии несколькими метками-тегами гораздо удобнее. И, на самом деле, проще. И, на самом деле, практически любой контент удобнее помечать именно тегами, а не просто единичными категориями. (Справедливости ради: категории — конечно же частный случай меток, просто очень убогий).

Успех подхода к организации данных при помощи тегов в последнее время рассматривается с точки зрения когнитивной психологии. Всё просто: когда люди выбирают какую-то одну категорию для содержимого, это (на низком уровне деятельности мозга) сложнее, чем записать набор ассоциаций, возникающих при восприятии объекта.

Теггинг избавляет нас от субъективной процедуры выбора одной-единственной черты содержимого. Субъективной — потому что я выберу в книге в качестве главного в книге «Война и Мир» авторский взгляд на историю, а моя мама — тему служения Отечеству. И не всегда с ходу можно единственным понятием охарактеризовать содержимое. Когда мы используем метки, не нужно также держать структуру (возможно сложную) категорий в голове и засорять и без того измученный обилием информации мозг.

Использование меток сильно упрощает поиск и фильтрацию информации, особенно, если в реализации поддерживается возможность выбора нескольких тегов для фильтрации и совмещение фильтра по тегам с другими, более традиционными (по дате/заголовку/размеру информации и т. д.).

Подход с использованием тегов, конечно, не является единственно верным. В ряде случаев, когда количество структурируемых объектов обозримо мало, использование распределения по обычным категориям без пересечений более эффективно, нежели нагромождение кучи меток.

Успехи подхода

Примеров море, и ИМХО следующие особенно показательны.

А что если применить подход с использованием меток в качестве идеи для организации форума? Например, вместо категорий использовать большое облако тегов на главной странице. Это было бы интересно.

Проблемы подхода

Tag hell. Человеческая фантазия беспредельна, и количество возникающих ассоциаций к объекту при достаточном количестве времени стремится к большому числу. Уйдя от категорий, можно утонуть в огромном количестве тегов.

Ещё часто бывают траблы такого толка: сосуществуют несколько тегов, одинаковых по смыслу, но разных по написанию (ну скажем, «птица» и «птицы»), в итоге теряется консистентность классификации контента.

При использовании тегов может снова возникнуть проблема выбора — какое оптимальное количество тегов для каждого объекта выбрать? Какую конкретную ассоциацию из нескольких очень близких выбрать? Тот же пример: на фотографии — птичка (которая с крылами). Как пометить? «Птица» или «птицы»? Или помечать фотку, где одна птица, как «птица», а где несколько — как «птицы»? И так для каждого тега держать единственное и множественное число? Начнётся мешанина и путаница. Я достаточно часто сталкиваюсь с этим, когда ставлю теги фоткам на Flickr. Время от времени приходится делать небольшую ревизию тегов — удалять дупы, сравнивать критерии меток.

Теги вне Сети

Изображения

Вернусь к фоткам. Теги для классификации фоток рулят. Всё хранить на Flickr.com — смешно :) Растаскивать по папкам — неэффективно. Вот я стал искать софтину, которая помогла бы использовать теги в организации фотоколлекции. Да и видео тоже.

Реализовать помечание фотографий можно двумя способами: хранить данные о тегах отдельно от изображения или же внедрять их в файлы.

Хранение тегов в самом изображении лучше, поскольку информация в этом случае не теряется при переносе изображений. Для хранения метаданных в изображениях есть следующие стандарты:

Использование единых стандартов внедрения метаданных при разработке ПО — очевидно положительная практика.

Теперь то, ради чего я всё начал :) Для Linux есть такие программы, поддерживающие IPTC:

Для Windows в Сети есть неплохая подборка программ с поддержкой IPTC.

В общем, результаты исканий хреновые : Толком ничего идеально подходящего не нашёл. Буду либо тянуть f-spot/digikam, либо дорабатывать jbrout, либо писать свой легковесный велосипедик.

Видео

Здесь всё грустно. Широко поддерживаемых индустриальных форматов метаданных, куда можно было бы внедрить теги, нет; существует большое количество разных видеоконтейнеров. На Microformats.org можно почитать заметки и возможные решения на тему существующих и проектируемых стандартов метаданных для видео и аудио — и тех, которые предназначены для семантической разметки медиаконтента в сети, и тех, которые внедряются в сами файлы.

Формат OGGсвободный контейнер для аудио- (кодеки Vorbis, FLAC) и видеоданных (видеокодек Theora), тоже поддерживает внедрение различных текстовых заголовков в файлы; его повсеместное внедрение было бы отличным достижением прогрессивного человечества.

Интересен проект Dublin Core по созданию единого универсального стандарта метаданных для любых ресурсов: текста, изображений, звука и видео тоже. Повсеместное внедрение подобного открытого стандарта сильно упростило бы жизнь человечеству.

Но в целом ничего более-менее устойчивого и поддерживаемого разными форматами нет.

Прочее

На самом деле, было бы просто замечательно, если б существовало грамотно спроектированное модульное приложение, которое обеспечило бы как организацию данных при помощи меток, так и доступ к метаданным файлов самого разного содержимого!

Почему бы не использовать теги для классификации не только видеотеки и фотоальбомов, но и для документов, музыки и делать это прозрачно в одном приложении согласно одному стандарту, с возможностью взаимодействия с аналогичными сервисами в Сети (с тем же Last.fm)? Мне кажется, это было бы здорово.

Надеюсь, текст выше покажется кому-то интересным; я, правда, отошёл от темы тегов к использованию метаданных вообще. На самом деле, проблема организации и классификации информационных ресурсов человечества очень ёмкая и интересная. А то сейчас с этим, к сожалению, на самом деле жопа.

Комментарии:

lars, 08.01.2008

спасибо, прочитал с большим интересом

-=Pёtr=-, 24.04.2008

Интересно, спасибо )

yuran, 31.05.2008

Хорошо объяснил:)

yuran, 31.05.2008

возьму как основу для курсовой

Sphinx, 31.05.2008

yuran, было бы интересно потом посмотреть, что получилось :-)

yuran, 31.05.2008

поделюсь потом конечно защита через неделю:)

yuran, 06.06.2008

ну всё, Sphinx, защитился на отлично вчера, статья помогла, благодарю

Оставить комментарий:





x∙7+6+6=75,

Бесконечно много решений? F5!

← Конец семестра Daily Digest →