/* campionamento di un file 
 * carica il campione su array
 * versione "senza reimbussolamento", ovvero un record puo' essere preso piu' volte
 * Il caricamento del campione su array Ć giustificato soltanto se:
 * 1. il campione che si vuole estrarre non e' troppo grande
 * 2. l'elaborazione che si intende svolgere sul campione richiede piŁ accessi 
 *    a ogni dato
 *
 * - acquisisce nome e apre file da campionare in modalita lettura binaria
 * - acquisisce origine sequenza random
 * - si posiziona in coda al file per calcolarne la dimensione N
 * - input della frazione da campionare n e verifica di capienza dell'array
 * - ripeti volte la generazione di un numero fra 0 e N 
 *     quando genera un numero di record non ancora letto  legge 
 *      il record corrispondente nell'array e tiene traccia della lettura
 * - elabora il campione
 */

#define dimCAMPIONE 50000
#define DIMBUF 80
#include <stdio.h>
#include <stdlib.h>
#include "random.h" /* procedura esterna per la generazione di numeri random */

typedef long r; /* a titolo di esempio si considera un file di interi lunghi */

void elabora(r *campione,long n);
long cercaLong(long target, long *a, long n);

int main(){
 r camp[dimCAMPIONE]; /* array di campioni */
    long estratti[dimCAMPIONE]; // array estratti
 long N,    /* numero di r nel file */
      n,    /* dimensione campione corrente */
      i,    /* indice */
      seme, /* seme per rand */
      t,    /* posizione nell'array di estratti */
      p;    /* posizione di campionamento corrente */
 float f;   /* frazione da estrarre */
 FILE *fd;
 char nomeF[64], linea[DIMBUF];
 /* intro e' un array di 4 stringhe di 64 caratteri ciascuna, utilizzato per mandare
  * all'utente un messaggio introduttivo
  */
 char intro[4][64]={"Programma per il campionamento di record da un file\n",
                " Richiede il nome del file, il seme della sequenza random e\n",
                " la frazione di record da campionare.\n",
                " Versione con caricamento del campione in memoria\n"};
 
 for (i=0;i<4;i++) /* visualizza intro */
  printf("%s",intro[i]);
 /* inizializzazione */
 printf("\nNome file da campionare\n");
 fgets(linea,DIMBUF,stdin);
 sscanf(linea,"%s",nomeF);
 if ((fd=fopen(nomeF,"rb"))==NULL){
  printf("File %s non trovato\n",nomeF);
  return 1;
 }
 printf("Inserire origine sequenza random \n");
 fgets(linea,DIMBUF,stdin);
 sscanf(linea,"%ld",&seme);
 srand(seme);
 fseek(fd,0,SEEK_END);
 N=ftell(fd)/sizeof(r);
 printf("Inserire frazione da campionare (da 0 a 0.5) \n");
 fgets(linea,DIMBUF,stdin);
 sscanf(linea,"%f",&f);
 n=f*N;
 printf("Nel file ci sono %ld records, ne campiono %ld\n",N,n);
 if (n>dimCAMPIONE){
  printf("Campione troppo grande\n");
  return 1;
 }
 /* fine inizializzazione */
 i=0;
 while (i<n){         /* ripete n volte il campionamento */
     p=randN(N);                        /* genera la posizione del record da campionare */
     t = cercaLong(p,estratti,i);
     if (t==i){ // p non era stato estratto -> aggiorno estratti[i]
         estratti[i++]=p; // e incremento i
         fseek(fd,p*sizeof(r),SEEK_SET);         /* si posiziona per la lettura */
         fread(&(camp[i]),sizeof(r),1,fd);        /* legge il record nell'array */
     }
     // se p era gił stato estratto non fa nulla e al prossimo giro 
     // si tenta una nuova estrazione
 } // quando si esce il campione e' popolato
 fclose(fd);
 elabora(camp,n); /* elabora l'array con il campione */
 return 0;
} /* fine main */

/*
 * elabora: esempio di elaborazione dell'array con il campione
 */
void elabora(r *campione, long n){ /* a titolo di esempio si calcola la media */
 float media;
 long i;
 media=campione[0];
 
 for (i=1;i<n;i++)
  media = (media*(i)+campione[i])/(i+1);
  
 printf("valore medio %f\n",media);
} /* fine elabora */

/*
 * cercaLong: cerca un target in un array di n long
 * se non trovato restituisce n, altrimenti restituisce la posizione trovata 
 * a partire da 0 fino a n-1
 */
long cercaLong(long target, long *a, long n){
    long i=0;
    while (i<n)
        if (target==a[i])
            return i;
        else
            i++;
    return i;
} // cercaLong