Задачка по тер. веру.

Сообщение №37656 от Valeron84 05 июня 2011 г. 00:12
Тема: Задачка по тер. веру.

Есть задача оценить долю музыкальных запросов в поиске. Для этого взяли 10 тысяч запросов, разделили их на музыкальные и немузыкальные, и поделили количество музыкальных на общее количество. Получили оценку с некоторой точностью.

Во сколько раз увеличилась бы точность такой оценки, если бы то же самое проделали с миллионом запросов?


Отклики на это сообщение:

> Есть задача оценить долю музыкальных запросов в поиске. Для этого взяли 10 тысяч запросов, разделили их на музыкальные и немузыкальные, и поделили количество музыкальных на общее количество. Получили оценку с некоторой точностью.
> Во сколько раз увеличилась бы точность такой оценки, если бы то же самое проделали с миллионом запросов?
1) Пример: из 10 тыс. запросов 25 запросов - музыкальные. Поделили: 25/10000=0,00025. Такая доля получилась. . а = 2,5 * 10^-5 Точность двузначная.
2) Пример: из 1 миллиона запросов 2 тыс. запросов - музыкальные. Поделили: 1000/1000000=0,002. Такая доля получилась. . а = 2 * 10^-3 Точность однозначная.

Итак, во втором случае точность однозначная, а в первом - двузначная. Точность уменьшилась в 2 раза.
Как говорится: "Каков запрос - таков и ответ".


Если честно не понял ничего :(
Кто нить поможет помочь?
Есть предложение использоваться нормальное распределение. Но как его применить в данном случае я не знаю.
)


> Если честно не понял ничего :(
> Кто нить поможет помочь?
> Есть предложение использоваться нормальное распределение. Но как его применить в данном случае я не знаю.
> )
"Каков вопрос - таков и ответ". "Вот" пытался что-то ответить.Реакция просителя оказалась такой: "НЕ понял ничего!".
Разговор - о статистике запросов.
Например: из 10 тысяч запросов 2 тысячи - запросы "музыкальные", а 8 тысяч - "немузыкальные".
Доля "муз"запросов в общем количестве запросов составляет 0,2 (или 20% или 1/5).
Статистика накоплена за 1 сутки.
1) Чтобы утверждать, что ежесуточно доля муззапросов будет 20% из общего числа запросов, необходимо наблюдать за запросами не менее 10 суток. (либо разбить сутки на 24 часа и фиксировать ежечасно поступление муззапросов в общем количестве запросов (для почасовой статистики). То есть нужно накопить статистику (таблицу распределения доли муззапросов по выборкам).
2) Пример: за 10 суток оказалась такая статистика:
0,2_0,3_0,1_0,4_0,1_0,2_0,5_0,1_0,3
Считаем среднюю долю муззапросов: М = сумма/10 = 0,2
Считаем дисперсию: Д=(0+0,01+0,01+0,04+0+0,09+0,01+0,01)/10= 0,017
среднеквадратичное отклонение будет С = 0,13 (кв. корень из Д)
С надежностью (доверительной вероятностью) Р=0,95 доля муззапросов за сутки будет
М= 0,2+-0,13*2/3,16 = 0,2+-0,08 , то есть от 12% до 28% доля Муззапросов, в любые 95 суток из 100, будет от 12% до 28% из общего ежесуточного числа запросов.
Вопросы есть?


> Вопросы есть?

Но ответа на главный вопрос НЕТ. - Во сколько раз увеличилась бы точность такой оценки, если бы то же самое проделали с миллионом запросов?

И откуда в решении берутся ЦИФРЫ - 20%, 10 дней и т.д.



> > Вопросы есть?

> Но ответа на главный вопрос НЕТ. - Во сколько раз увеличилась бы точность такой оценки, если бы то же самое проделали с миллионом запросов?
> откуда в решении берутся ЦИФРЫ - 20%, 10 дней и т.д.

Ответ на 2-ой вопрос: данные берутся из СТАТИСТИКИ (статистика - систематический сбор однотипных данных за определенный срок). Не просто одно число (миллион), а много чисел с указанием даты, обстоятельств,...

Ответ на 1-ый вопрос: Нужно этот миллион запросов распределить по времени суток, по дням недели, по месяцам, сезонам, годам. Тогда можно выявить закономерность в количествах запросов либо отсутствие закономерности.
Например: по ночам муззапросов больше, чем утром; по праздникам больше, чем в рабочие дни, с каждым годом доля муззапросов уменьшается,...
При отсутствии закономерности вычисляется среднее значение СРЗН и максимально возможные отклонения ОТКЛ от среднего значения.
Чем точнее прогноз, тем меньше его вероятность. Пример: завтра в 10:05 начнется дождь над моим огородом. Кто поверит в такой прогноз? Другой пример: в течение месяца ожидается от 2 до 7 дождливых дней в Ленинградской области. Вполне правдоподобно, но не точно.


> Есть задача оценить долю музыкальных запросов в поиске. Для этого взяли 10 тысяч запросов, разделили их на музыкальные и немузыкальные, и поделили количество музыкальных на общее количество. Получили оценку с некоторой точностью.

> Во сколько раз увеличилась бы точность такой оценки, если бы то же самое проделали с миллионом запросов?

Если
1.Распределение музыкальных запросов имеет конечное матожидание.
2.Распределение музыкальных запросов имеет конечную дисперсию.

То
дисперсия отклонения указанной в условии оценки матожидания от истинного матожидания вроде как убывает , где - общее число обработанных запросов. Следственно, получается (вроде как), что точность должна увеличиься в десять раз.


Физика в анимациях - Купить диск - Тесты по физике - Графики on-line

Реклама:
Rambler's Top100