Архив Июль 26, Воскресенье, 2009

Data Mining / Извлечение данных или знаний?

Нет комментариев »

Приветствую!



Стало любопытно, насколько представлена тема Data Mining на хабре. Увидел лишь одну статью, посвященную данной тематике. Хочу сделать свой небольшой вклад в развитие данной темы.



Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода:

  • извлечение данных
  • извлечение знаний, интеллектуальный анализ данных



Если говорить о способах реализации, то первый вариант относиться к прикладной области, второй — к математике и науке, и, как правило, они мало пересекаются. Если говорить о возможности применения — тут вариантов очень много. Так получилось, что я работал как с первым вариантом (в университете — научная работа), так и с другим (работа, фриланс). Рассмотрим подробнее.


Извлечение данных



Извлечение данных — это процесс нахождения, сбора информации, а также сохранения (конвертация) их в разных форматах. По простому, программы для извлечения данных называют парсерами (parser), граберами (grabber), спайдерами (spider), кроулерами (crawler) и т.д. Фактически, такие программы существенно облегчают всем жизнь, так как позволяют систематизировать данные (именно данные, а не знания!). Такие программы могут собирать адреса компаний в вашей отрасли, ссылки из нужных форумов, парсить целые каталоги, также могут служить отличным средством для составления баз данных.



Великий Язык PERL! / Perl и GUI. Сравнение тулкитов

Нет комментариев »

Я занимаюсь разработкой ПО. В основном на Си, но в последнее время все больше и больше использую Perl. Причем цикл разработки с использованием Perl имеет больше плюсов чем минусов.



Однако, несмотря на большое количество модулей в CPAN, дистрибутивов Perl (Strawberry Perl, ActivePerl, MinGW Perl) возникают некоторые неопределенности, одна из них — это выбор графического тулкита для построения GUI (графического интерфейса пользователя). Об этом и пойдет речь.



Лично я остановился на ActivePerl от компании ActiveState. Также для работы применяю Komodo IDE и Perl Dev Kit.



Итак, я выбрал четыре основных модуля для работы с GUI, обеспечивающие кроссплатформенность.


Стартапы / «Серый» маркетинг набирает обороты

Нет комментариев »

Корни моего негодования уходят к апрелю нынешнего года, когда компания «Кирилл и Мефодий» («КМ Онлайн»), владеющая портфелем унылых веб-сервисов и интернет-порталов под маркой KM.RU, решила как бы невзначай обеспечить своему детищу вКругуДрузей.ру начальное продвижение посредством массовой e-mail рассылки. Естественно, большинством (если не всеми до единого) из получателей не санкционированной. Как я чуть позже узнал из СМИ (Суд запретил «Одноклассники.km.ru», «Одноклассники» против клонов: пока ничья), открытие очередного «нового» социального клона, заменившего собой odnoklassniki.km.ru, очевидно, последовало по окончании судебных разбирательств между владельцами Одноклассников.ru и «КМ Онлайн».

Дабы хоть как-то прикрыть всю мерзость подобных маркетинговых ухищрений, рассылка была стилизована под письмо-приглашение от некого друга с произвольно подобранным именем:

Привет!

Ваш друг Прохоров Евгений приглашает Вас к себе в гости на сайт вКругуДрузей.ру.

Для того, чтобы принять приглашение, перейдите по ссылке …



Случайностью или недоразумением подобное назвать, конечно же, невозможно, и на то есть пара веских причин:

  • мой e-mail адрес, на который была произведена рассылка, я никогда не вводил на сайтах KM.RU или сайтах, с ними аффилированных;
  • текст рассылки полностью отличается от присылаемого роботом при обычном приглашении через вышеуказанный сайт, кроме того, для отправки приглашения требуется обязательный ввод имени и фамилии приглашаемого (не поленился проверить).



Моя обеспокоенность, в конечном счёте, вылилась в аргументированную жалобу через официальную форму поддержки данного сайта, где я не постеснялся упомянуть и мою осведомлённость о тяжбах с «официальными одноклассниками». На что был получен весьма невинный ответ в духе «так это ж ваш вдруг, видимо, приглашает». Да, конечно, друг. С железным телом и кремниевым интеллектом.

Едва забив в Google нужные слова, я получил свидетельства о масштабах произведённой рассылки: об этом писал Антон Носик в своём ЖЖ, некоторые автономные блоги; спам даже попал в безобидные списки рассылки.

Некоторое время посотрясав воздух и не найдя доступных средств воздействия на безобразников, я про случившийся инцидент немалого масштаба благополучно забыл.

Но не тут то было…


Сайт Саркози стал главной "задницей интернета"

Нет комментариев »

Хакеры-шутники сумели сделать так, что при вводе запроса в Google «задница интернета» первым результатом выскакивала страница президента.


93,5 млн китайцев бороздят просторы глобальной Сети

Нет комментариев »

ПЕКИН, 26 июля. Количество пользователей широкополосного доступа в Интернет в Китае выросло за первое полугодие 2009 года на 10 млн человек и достигло 93,5 млн. Об этом сообщает РБК.По состоянию на конец июня 2009 года в Китае было зарегистрировано в общей сложности 338 млн интернет-пользователей.


Интернет-пользователей в Китае больше, чем жителей США

Нет комментариев »

Число пользователей широкополосного интернета в Китае выросло на 10 миллионов человек и составило 93,5 миллиона человек – данные китайского министерства промышленности и информационных технологий. В общей сложности в Сеть в Поднебесной выходят 338 миллионов человек.


Сайт мельбурнского кинофестиваля не выдержал атаки хакеров из Китая (11)

Нет комментариев »

Причиной хакерской атаки стало решение организаторов фестиваля включить в его программу документальный фильм о жизни и деятельности лидера уйгурской правозащитной организации «Всемирный конгресс уйгуров» 62-летней Рабии Кадир (Rebiya Kadeer), которая в настоящий момент проживает в США.


Android / Перевод Стала доступна ранняя сборка Android 2.0 «Donut», уже готовая для работы на G1

Нет комментариев »

image



Официальный репозитарий Андроида обновился целой кучей вещей, связанных с «Donut» и можно предположить, что коммьюнити разработчиков уже посвятили день для работы с ним. Судя по ранним отзывам, все фичи, продемонстрированные на Google I/O в этом году, так или иначе попали в эту сборку: универсальный поиск, преобразование текста в речь, поддержка жестов (позволяет пользователям рисовать символы на экране и связывать их с определенными действиями). К тому же в исходном коде найдены признаки поддержки стандарта CDMA, что необходимо для операторов Sprint и Verison, оба из которых, конечно, будут иметь свои Андроид-устройства так или иначе. Так же в системе есть классный блок виджетов-переключателей для домашнего экрана, который может быть использован для контроля WiFi и Bluetooth.


Звук и Музыка / PODCAST Импровизация на пиано. Под деревом во сне

Нет комментариев »

image



Альбом

Twitter


Заседание Коллегии УзАСИ: в Узбекистане количество пользователей сети Интернет составило 2,6 млн. человек

Нет комментариев »

ТАШКЕНТ, 26 июля. /УЗИНФОРМ/. Вчера, в Узбекском агентстве связи и информатизации, состоялось заседание Коллегии УзАСИ, на котором были подведены итоги развития информационно-коммуникационных технологий за I полугодие 2009 года.