/brz/remove-bazaar

To get this branch, use:
bzr branch http://gegoxaren.bato24.eu/bzr/brz/remove-bazaar

« back to all changes in this revision

Viewing changes to doc/developers/gc.txt

  • Committer: John Arbash Meinel
  • Date: 2009-10-13 16:44:43 UTC
  • mto: This revision was merged to the branch mainline in revision 4741.
  • Revision ID: john@arbash-meinel.com-20091013164443-b92lnyiir2ucyguj
Stop using hash() because of bugs wrt pyrex 0.9.8.5

Rather than going directly to the Py_TYPE() object, I also use PyObject_Hash()
everywhere now. This simplifies the code a little bit, as I can declare it
returns -1 as an exception, rather than having to manually check the return
value.

What is really strange is that pyrex 0.9.7.2 gets it right, strange
regression to have. cython 0.11.3 also gets it right, but I don't know
that all versions of cython handle it correctly, either.


The main problem is that we are mixing, and then comparing
'other_hash = this_hash'. If we always used the 32-bit form, we would
be okay for our purposes, or always use the 64-bit form. I'm focusing
on the latter.

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
Garbage Collection
 
2
==================
 
3
 
 
4
Garbage collection is used to remove data from a repository that is no longer referenced.
 
5
 
 
6
Generally this involves locking the repository and scanning all its branches
 
7
then generating a new repository with less data.
 
8
 
 
9
Least work we can hope to perform
 
10
---------------------------------
 
11
 
 
12
* Read all branches to get initial references - tips + tags.
 
13
* Read through the revision graph to find unreferenced revisions. A cheap HEADS
 
14
  list might help here by allowing comparison of the initial references to the
 
15
  HEADS - any unreferenced head is garbage.
 
16
* Walk out via inventory deltas to get the full set of texts and signatures to preserve.
 
17
* Copy to a new repository
 
18
* Bait and switch back to the original
 
19
* Remove the old repository.
 
20
 
 
21
A possibility to reduce this would be to have a set of grouped 'known garbage
 
22
free' data - 'ancient history' which can be preserved in total should its HEADS
 
23
be fully referenced - and where the HEADS list is deliberate cheap (e.g. at the
 
24
top of some index).
 
25
 
 
26
possibly - null data in place without saving size.