Web Dev Notes

Защита графической информации от ботов при парсинге страницы

Posted by :reklim On : September 15, 2013

Иногда возникает необходимость скрыть графическую информацию от ботов при парсинге страницы.
Был найден простой но интересный способ на страницах lifehacker.ru.

Кэширование тэгами – наш вариант решений одной из главных проблем программирования

Posted by :Vitaly Tsevan On : June 29, 2012

Category: Ruby on Rails

Tags:caching, memcached, rails

Как известно, двумя основными проблемами программирования на данный момент являются именование и инвалидация кэша. И если первая проблема до сих пор отравляет жизнь мне и моим коллегам на нашем проекте sophia.org, то для решения второй мы кое-что предприняли.

Sophia.org – проект, написанный на ruby с использованием фреймворка Rails. Для организации backend-кэширования на sophia.org мы используем Memcached. Memcached – прекрасное решение разряда key-value, обеспечивающее быстрый доступ к данным и превосходную кластеризацию “из коробки”. Вместе с тем одной из его проблем является массовая инвалидация.

В Rails для организации доступа к cache имеется объект Rails.cache (являющийся сам по себе экземпляром класса ActiveSupport::Cache::Store). Он работает поверх любого cache storage. Наше решение действует на уровне Rails.cache, следовательно, будет работать не только для MemCacheStore, но и для других кэш-хранилищ, которые могут быть использованы с Rails.

Итак, для обеспечения массовой инвалидации мы использовали механизм тэгирования. Идея заключается в инвалидации не самих записей, а некоей метаинформации прикрепленной к ним – т.н. тэгов. По сути, мы обеспечили возможность протэгировать любую запись, сохраненную в memcached, набором тэгов:

Rails.cache.write('key-name', 'value-string', :tags => %w(user1 group2))
Каждый тэг имеет текущую, “актуальную” версию (ее мы также храним в memcached), а вместе с записью мы сохраняем набор тэгов, относящихся к записи. Вместе с тэгами мы сохраняем их текущие версии. Таким образом, сохраненная запись будет иметь следующую структуру (это, разумеется, псевдокод):

{key: 'key-name', value: 'value-string', tags: [{name: user1, version: 1}, {name: group2, version: 1}]}
Кроме того, были созданы записи:

{key: 'tag-user1', value: 1} {key: 'tag-group2', value: 1}

Теперь, когда мы будем доставать из кэша эту запись, мы будем извлекать из нее версии тэгов и проверять их актуальность. В случае если сохраненная версия тэга в записи и актуальная версия тэга не равны, – мы признаем запись устаревшей. Т.е. когда нам понадобится инвалидировать запись с ключом ‘key-name’, мы будем не удалять ее из кэша – мы просто увеличим версию тэга на 1.

{key: 'tag-group2', value: 2}
Все, запись ‘key-name’ уже устарела, т.к. запись ссылается на версию 1 тэга group2.

На практике в нашем проекте мы часто кэшируем фрагменты views. Эти фрагменты зависят от текущего пользователя, смотрящего на них, самого объекта, его версии, каких-то сторонних объектов. Следовательно, если мы изменяем объект – возможно, мы изменяем и право какого-то пользователя посмотреть на фрагмент. Чтобы не перечислять все названия фрагментов кэша, мы инкрементируем версию тэга, связанного с этим объектом, инвалидируя таким образом все записи, связанные с ним.

Конечно, более стандартным подходом, используемым для этих целей, является хранение значения updated_at объекта в имени ключа (это происходит в стандартном методе ActiveRecord::Base#cache_key) . Но этот подход лично для нас не работает, т.к. зачастую изменяется не сам объект, а какие-то записи, связанные с ним по ассоциациям, из-за чего какой-нибудь счетчик на странице принимает другое значение. Согласитесь, изменять timestamp объекта из-за появившейся связи в таблице связи с другим объектом не очень культурно.

Но и здесь, конечно, есть обратные стороны. Мы получили увеличившуюся нагрузку на Memcached. Теперь ему надо сделать два запроса при чтении записи вместо одного: на саму запись и на все связанные с ней тэги (этот запрос реализован через read_multi). Впрочем, с подобным ростом нагрузки он у нас отлично справляется. Также нужно скептически относиться к отказоустойчивости решения и понимать, что если запись тэга вылетит из кэша из-за редкого использования, это автоматически инвалидирует все помеченные этим тэгом записи (хотя, вероятно, эти записи должны были вылететь из кэша еще раньше).

Описанное выше решение выложено на github, и с ним можно ознакомиться и начать использовать.

P.S. Если кто-нибудь решил проблему именования, пожалуйста, сообщите нам. Спасибо.

“багофича” однострочных if-ов

Posted by :saksmlz On : April 11, 2012

Category: ruby

$ irb 1.9.3-p0-perf :001 > puts a if a = 4 (irb):1: warning: found = in conditional, should be == NameError: undefined local variable or method `a' for main:Object from (irb):1 from /home/saks/.rvm/rubies/ruby-1.9.3-p0-perf/bin/irb:16:in `<main>'

Выглядит это так, как будто выражение под if-ом, выполняется не в той же области видимости, в которой выполняется проверка условия.

И еще немного странностей ruby

Posted by :Vitaly Tsevan On : March 20, 2012

Category: Ruby on Rails

Tags:Ruby, wtf

Еще одна неожиданная упячка в ruby:

vitaly@way:~/projects$ irb 1.9.3p0 :001 > a NameError: undefined local variable or method `a' for main:Object from (irb):1 from /home/vitaly/.rvm/rubies/ruby-1.9.3-p0-perf/bin/irb:16:in `<main>' 1.9.3p0 :002 > a = a => nil 1.9.3p0 :003 > a => nil

1.9.3p0 :004 > a = b
NameError: undefined local variable or method `b’ for main:Object
from (irb):4
from /home/vitaly/.rvm/rubies/ruby-1.9.3-p0-perf/bin/irb:16:in `<main>’

Wtf?

Неожиданные “фишки” синтаксиса ruby

Posted by :saksmlz On : March 19, 2012

Category: Other

Tags:Ruby

Здесь со временем будут появляться странности или неожиданности синтаксиса или просто то, что вызывает недоумение.

Проблема с разбором заголовка Accept в Ruby on Rails

Posted by :uzzable On : March 13, 2012

Category: HTTP, Ruby on Rails

В один прекрасный момент приложение на нашем production-сервере (написанное на Ruby On Rails), начало докучать нам не страшными, но противными Exception’ами. Выглядело это так:

CollectionsController# (ActionView::MissingTemplate) “Missing template collections/show, application/show with {:handlers=>[:erb, :builder, :haml], :formats=>[\"*/*;q=0.9\"], :locale=>[:en, :en]}.

Базовая серверная архитектура для высоконагруженного стартапа

Posted by :reklim On : February 9, 2012

Category: Architecture, Other

На начальном этапе разработки стартапа многие разработчики сталкиваются с проблемой создания достаточно гибкой и в будущем масштабируемой архитектуры приложения, оптимизированной для большой нагрузки. Мы хотели бы поделиться опытом в этой области. В качестве примера рассмотрим методы построения ресурса, базирующегося на Ruby On Rails. Тем не менее примеры, которые будут приведены ниже, с легкостью могут быть использованы для LAMP решений.

Серверы можно разделить на несколько типов по ролям:

Application
Database
Load Balancer
Utils
Tools

Application – это front-end сервер. Возможно использование как одного, так и нескольких Application серверов. В случае использования одного Application сервера надобности в балансировке нагрузки нет.

Application сервер выполняет следующие функции:
обработка запросов от пользователей (получает запросы от балансировщика нагрузки),
взаимодействие с базой данных (Database server),
отправка сообщений в очередь сообщений (Utils server),
взаимодействие с CDN,
взаимодействие с search engines (Util server),
инвалидация кэша,
работа с кэшем (Database server).

Защита графической информации от ботов при парсинге страницы

Кэширование тэгами – наш вариант решений одной из главных проблем программирования

“багофича” однострочных if-ов

И еще немного странностей ruby

Неожиданные “фишки” синтаксиса ruby

Проблема с разбором заголовка Accept в Ruby on Rails

Базовая серверная архитектура для высоконагруженного стартапа

К чему все это …

О чем …

Последние заметки …

Защита графической информации от ботов при парсинге страницы

Кэширование тэгами – наш вариант решений одной из главных проблем программирования

“багофича” однострочных if-ов

И еще немного странностей ruby

Неожиданные “фишки” синтаксиса ruby

Проблема с разбором заголовка Accept в Ruby on Rails

Базовая серверная архитектура для высоконагруженного стартапа

К чему все это …

О чем …

Последние заметки …

Немного тэгов …