January 24th, 2013

(no subject)

Навальный поднял очередную волну борьбы с латиницей. Да, некоторый смысл в этом есть - заказов с ней действительно немало, но это не основная и далеко не единственная проблема. Иван Бегтин, довольно критично отзываясь о Навальном, дает ссылку на свои в этой области наработки и исследования, очень полезные и интересные, советую почитать. К сожалению, и он оставляет за бортом ключевой, на мой взгляд, вопрос - формат ввода данных в систему госзакупок.

А с форматом этим беда - закон не содержит требований о том, в каком виде должны быть выложены материалы к закупке. В результате мы видим полный набор форматов - начиная от текстовых и табличных (созданных в разных версиях разных офисных пакетов) и заканчивая графическими изображениями во всех доступных форматах, включая такую экзотику, как картинка в заархивированном файле MS Word

Понятно, что ни о каком машинном анализе этих материалов речь идти не может. В результате поиск, который является основным инструментом лица, ищущего интересные для него заказы, становится бесполезным - поиск ведется только по заявке, без того куцее содержание которой может быть еще испорчено латиницей, проблемами, опечатками и так далее.

Я даже не буду обсуждать причину, по которой оно испорчено, ибо это действительно может быть опечатка. неграмотность, а не злой умысел. Важен результат - закупку найдут не все.

Что требуется -  единый формат ввода данных. Все приложения должны быть машиночитаемы. Загружаешь скан - будь добр загрузить и его текстовый/табличный аналог. Что это будет - xml, plain text, csv или что-то еще - решать специалистам, но формат должен поддаваться машинной обработке и полностью индексироваться поисковой системой сайта госзакупок

По графическим документам - строго pdf, который давно стал стандартом. Многостраничные tiff, например, открываются не всяким софтом, а уж про картинки внутри вордовского файла я вообще молчу

И главное - жесткая ответственность за несоответствие графических и машиночитаемых документов

В результате поисковая система будет находить ключевые слова не только в описании, но и во всех приложениях. То есть портить придется весь комплект документов, что а)сложнее б)не списать на ошибку. Да и для неиспорченных заказов полноценный поиск даст гораздо больше возможностей не упустить интересный заказ для поставщиков из-за того, что заказчик как-то иначе формулирует описание, нежели его сформулировал бы поставщик.

Upd. Упустил важный момент - специализированные форматы (инженерные, например), естественно исключать или дублировать машиночитаемыми не нужно